Quand les modèles de diffusion apprennent-ils à générer plusieurs objets ?

Résumé

Les modèles de diffusion texte-image atteignent une fidélité visuelle impressionnante, mais ils restent peu fiables pour la génération multi-objets. Malgré des preuves empiriques abondantes de ces échecs, leurs causes sous-jacentes demeurent obscures. Nous commençons par nous demander dans quelle mesure cette limitation provient des données elles-mêmes. Pour démêler les effets des données, nous considérons deux régimes à travers différentes tailles de jeux de données : (1) la généralisation conceptuelle, où chaque concept individuel est observé pendant l'entraînement sous des distributions de données potentiellement déséquilibrées, et (2) la généralisation compositionnelle, où des combinaisons spécifiques de concepts sont systématiquement exclues de l'entraînement. Pour étudier ces régimes, nous introduisons MOSAIC (Multi-Object Spatial relations, AttrIbution, Counting), un cadre contrôlé pour la génération de jeux de données. En entraînant des modèles de diffusion sur MOSAIC, nous constatons que la complexité de la scène joue un rôle dominant plutôt que le déséquilibre conceptuel, et que le dénombrement est particulièrement difficile à apprendre dans les régimes à faible quantité de données. De plus, la généralisation compositionnelle s'effondre à mesure que davantage de combinaisons conceptuelles sont exclues pendant l'entraînement. Ces résultats mettent en lumière des limitations fondamentales des modèles de diffusion et motivent le développement de biais inductifs plus forts et une conception des données plus robuste pour la génération compositionnelle multi-objets.

English

Text-to-image diffusion models achieve impressive visual fidelity, yet they remain unreliable in multi-object generation. Despite extensive empirical evidence of these failures, the underlying causes remain unclear. We begin by asking how much of this limitation arises from the data itself. To disentangle data effects, we consider two regimes across different dataset sizes: (1) concept generalization, where each individual concept is observed during training under potentially imbalanced data distributions, and (2) compositional generalization, where specific combinations of concepts are systematically held out. To study these regimes, we introduce mosaic (Multi-Object Spatial relations, AttrIbution, Counting), a controlled framework for dataset generation. By training diffusion models on mosaic, we find that scene complexity plays a dominant role rather than concept imbalance, and that counting is uniquely difficult to learn in low-data regimes. Moreover, compositional generalization collapses as more concept combinations are held out during training. These findings highlight fundamental limitations of diffusion models and motivate stronger inductive biases and data design for robust multi-object compositional generation.

Quand les modèles de diffusion apprennent-ils à générer plusieurs objets ?

When Do Diffusion Models learn to Generate Multiple Objects?

Résumé

Support