Когда модели диффузии учатся генерировать несколько объектов?

Аннотация

Диффузионные модели для генерации изображений по тексту демонстрируют впечатляющую визуальную достоверность, однако их надежность в задачах генерации нескольких объектов остается низкой. Несмотря на обширные эмпирические свидетельства этих сбоев, их глубинные причины остаются неясными. Мы начинаем с вопроса о том, насколько это ограничение обусловлено самими данными. Чтобы разделить эффекты данных, мы рассматриваем два режима для различных объемов датасетов: (1) обобщение концепций, когда каждая отдельная концепция наблюдается в процессе обучения, возможно, в условиях несбалансированного распределения данных, и (2) композиционное обобщение, когда определенные комбинации концепций систематически исключаются из обучающей выборки. Для изучения этих режимов мы представляем MOSAIC (Multi-Object Spatial relations, AttrIbution, Counting) — контролируемую систему для генерации датасетов. Обучая диффузионные модели на MOSAIC, мы обнаруживаем, что доминирующую роль играет не дисбаланс концепций, а сложность сцены, и что счет объектов оказывается особенно сложной для обучения задачей в условиях малого объема данных. Более того, композиционное обобщение резко ухудшается по мере увеличения числа комбинаций концепций, исключенных из обучения. Эти результаты указывают на фундаментальные ограничения диффузионных моделей и обосновывают необходимость разработки более сильных индуктивных смещений и продуманного дизайна данных для обеспечения надежной композиционной генерации нескольких объектов.

English

Text-to-image diffusion models achieve impressive visual fidelity, yet they remain unreliable in multi-object generation. Despite extensive empirical evidence of these failures, the underlying causes remain unclear. We begin by asking how much of this limitation arises from the data itself. To disentangle data effects, we consider two regimes across different dataset sizes: (1) concept generalization, where each individual concept is observed during training under potentially imbalanced data distributions, and (2) compositional generalization, where specific combinations of concepts are systematically held out. To study these regimes, we introduce mosaic (Multi-Object Spatial relations, AttrIbution, Counting), a controlled framework for dataset generation. By training diffusion models on mosaic, we find that scene complexity plays a dominant role rather than concept imbalance, and that counting is uniquely difficult to learn in low-data regimes. Moreover, compositional generalization collapses as more concept combinations are held out during training. These findings highlight fundamental limitations of diffusion models and motivate stronger inductive biases and data design for robust multi-object compositional generation.

Когда модели диффузии учатся генерировать несколько объектов?

When Do Diffusion Models learn to Generate Multiple Objects?

Аннотация

Support