¿Cuándo Aprenden los Modelos de Difusión a Generar Múltiples Objetos?

Resumen

Los modelos de difusión de texto a imagen logran una impresionante fidelidad visual, pero siguen siendo poco confiables en la generación de múltiples objetos. A pesar de la extensa evidencia empírica de estos fallos, las causas subyacentes siguen sin estar claras. Comenzamos preguntándonos hasta qué punto esta limitación surge de los propios datos. Para desentrañar los efectos de los datos, consideramos dos regímenes en diferentes tamaños de conjuntos de datos: (1) generalización de conceptos, donde cada concepto individual se observa durante el entrenamiento bajo distribuciones de datos potencialmente desbalanceadas, y (2) generalización composicional, donde combinaciones específicas de conceptos se excluyen sistemáticamente. Para estudiar estos regímenes, presentamos MOSAIC (Relaciones espaciales, atribución y conteo de objetos múltiples), un marco controlado para la generación de conjuntos de datos. Al entrenar modelos de difusión en MOSAIC, encontramos que la complejidad de la escena juega un papel dominante, más que el desbalance de conceptos, y que el conteo es particularmente difícil de aprender en regímenes de pocos datos. Además, la generalización composicional colapsa a medida que se excluyen más combinaciones de conceptos durante el entrenamiento. Estos hallazgos resaltan limitaciones fundamentales de los modelos de difusión y motivan la necesidad de sesgos inductivos más fuertes y un diseño de datos más robusto para la generación composicional de múltiples objetos.

English

Text-to-image diffusion models achieve impressive visual fidelity, yet they remain unreliable in multi-object generation. Despite extensive empirical evidence of these failures, the underlying causes remain unclear. We begin by asking how much of this limitation arises from the data itself. To disentangle data effects, we consider two regimes across different dataset sizes: (1) concept generalization, where each individual concept is observed during training under potentially imbalanced data distributions, and (2) compositional generalization, where specific combinations of concepts are systematically held out. To study these regimes, we introduce mosaic (Multi-Object Spatial relations, AttrIbution, Counting), a controlled framework for dataset generation. By training diffusion models on mosaic, we find that scene complexity plays a dominant role rather than concept imbalance, and that counting is uniquely difficult to learn in low-data regimes. Moreover, compositional generalization collapses as more concept combinations are held out during training. These findings highlight fundamental limitations of diffusion models and motivate stronger inductive biases and data design for robust multi-object compositional generation.

¿Cuándo Aprenden los Modelos de Difusión a Generar Múltiples Objetos?

When Do Diffusion Models learn to Generate Multiple Objects?

Resumen

Support