Wann lernen Diffusionsmodelle, mehrere Objekte zu generieren?
When Do Diffusion Models learn to Generate Multiple Objects?
April 30, 2026
Autoren: Yujin Jeong, Arnas Uselis, Iro Laina, Seong Joon Oh, Anna Rohrbach
cs.AI
Zusammenfassung
Text-to-Image-Diffusionsmodelle erreichen eine beeindruckende visuelle Qualität, bleiben jedoch bei der Generierung mehrerer Objekte unzuverlässig. Trotz umfangreicher empirischer Belege für diese Fehler sind die zugrundeliegenden Ursachen unklar. Wir beginnen mit der Frage, wie stark diese Einschränkung durch die Daten selbst bedingt ist. Um Dateneffekte zu isolieren, betrachten wir zwei Regime über verschiedene Datensatzgrößen hinweg: (1) Konzeptgeneralisierung, bei der jedes einzelne Konzept während des Trainings beobachtet wird, jedoch unter potenziell unausgeglichenen Datenverteilungen, und (2) kompositionelle Generalisierung, bei der spezifische Kombinationen von Konzepten systematisch vom Training ausgeschlossen werden. Um diese Regime zu untersuchen, führen wir MOSAIC (Multi-Object Spatial relations, AttrIbution, Counting) ein, einen kontrollierten Rahmen zur Datensatzgenerierung. Durch das Training von Diffusionsmodellen auf MOSAIC stellen wir fest, dass die Szenenkomplexität eine dominantere Rolle spielt als Konzeptungleichgewicht, und dass Zählen (Counting) in Datensparsamen-Regimen besonders schwer zu erlernen ist. Darüber hinaus bricht die kompositionelle Generalisierung zusammen, je mehr Konzeptkombinationen während des Trainings ausgespart werden. Diese Ergebnisse verdeutlichen fundamentale Grenzen von Diffusionsmodellen und liefern Ansatzpunkte für stärkere induktive Verzerrungen und Datenentwürfe für eine robuste kompositionelle Generierung mehrerer Objekte.
English
Text-to-image diffusion models achieve impressive visual fidelity, yet they remain unreliable in multi-object generation. Despite extensive empirical evidence of these failures, the underlying causes remain unclear. We begin by asking how much of this limitation arises from the data itself. To disentangle data effects, we consider two regimes across different dataset sizes: (1) concept generalization, where each individual concept is observed during training under potentially imbalanced data distributions, and (2) compositional generalization, where specific combinations of concepts are systematically held out. To study these regimes, we introduce mosaic (Multi-Object Spatial relations, AttrIbution, Counting), a controlled framework for dataset generation. By training diffusion models on mosaic, we find that scene complexity plays a dominant role rather than concept imbalance, and that counting is uniquely difficult to learn in low-data regimes. Moreover, compositional generalization collapses as more concept combinations are held out during training. These findings highlight fundamental limitations of diffusion models and motivate stronger inductive biases and data design for robust multi-object compositional generation.