Wanneer leren diffusiemodellen meerdere objecten te genereren?

Samenvatting

Diffusiemodellen voor tekst-naar-beeld bereiken indrukwekkende visuele kwaliteit, maar blijven onbetrouwbaar in de generatie van meerdere objecten. Ondanks uitgebreid empirisch bewijs voor deze tekortkomingen, zijn de onderliggende oorzaken onduidelijk. We beginnen met de vraag in hoeverre deze beperking voortkomt uit de data zelf. Om data-effecten te ontwarren, beschouwen we twee regimes voor verschillende datasetgroottes: (1) conceptgeneralizatie, waarbij elk individueel concept tijdens de training wordt waargenomen onder mogelijk verstoorde datadistributies, en (2) compositionele generalizatie, waarbij specifieke combinaties van concepten systematisch worden weggelaten. Om deze regimes te bestuderen, introduceren we MOSAIC (Multi-Object Spatial relations, AttrIbution, Counting), een gecontroleerd raamwerk voor datasetgeneratie. Door diffusiemodellen op MOSAIC te trainen, ontdekken we dat scènecomplexiteit een dominante rol speelt in plaats van conceptonbalans, en dat tellen bijzonder moeilijk aan te leren is in regimes met weinig data. Bovendien stort compositionele generalizatie in elkaar naarmate meer conceptcombinaties tijdens de training worden weggelaten. Deze bevindingen belichten fundamentele beperkingen van diffusiemodellen en motiveren sterkere inductieve vooroordelen en datadesign voor robuuste compositionele generatie van meerdere objecten.

English

Text-to-image diffusion models achieve impressive visual fidelity, yet they remain unreliable in multi-object generation. Despite extensive empirical evidence of these failures, the underlying causes remain unclear. We begin by asking how much of this limitation arises from the data itself. To disentangle data effects, we consider two regimes across different dataset sizes: (1) concept generalization, where each individual concept is observed during training under potentially imbalanced data distributions, and (2) compositional generalization, where specific combinations of concepts are systematically held out. To study these regimes, we introduce mosaic (Multi-Object Spatial relations, AttrIbution, Counting), a controlled framework for dataset generation. By training diffusion models on mosaic, we find that scene complexity plays a dominant role rather than concept imbalance, and that counting is uniquely difficult to learn in low-data regimes. Moreover, compositional generalization collapses as more concept combinations are held out during training. These findings highlight fundamental limitations of diffusion models and motivate stronger inductive biases and data design for robust multi-object compositional generation.

Wanneer leren diffusiemodellen meerdere objecten te genereren?

When Do Diffusion Models learn to Generate Multiple Objects?

Samenvatting

Support