ChatPaper.aiChatPaper

확산 모델은 언제 여러 객체를 생성하는 법을 배우는가?

When Do Diffusion Models learn to Generate Multiple Objects?

April 30, 2026
저자: Yujin Jeong, Arnas Uselis, Iro Laina, Seong Joon Oh, Anna Rohrbach
cs.AI

초록

텍스트-이미지 확산 모델은 인상적인 시각적 정확도를 달성했으나, 다중 객체 생성에서는 여전히 신뢰할 수 없는 성능을 보입니다. 이러한 실패 사례에 대한 경험적 증거가 풍부함에도 불구하고 근본적인 원인은 명확히 규명되지 않았습니다. 본 연구는 이러한 한계가 데이터 자체에서 기인하는 정도를 먼저 탐구합니다. 데이터 효과를 분리하기 위해 서로 다른 데이터셋 규모에 걸친 두 가지 체계를 고려합니다: (1) 개념 일반화: 개별 개념이 훈련 중 관찰되지만 데이터 분포가 불균형할 수 있는 경우, (2) 구성 일반화: 개념들의 특정 조합이 체계적으로 훈련에서 제외되는 경우. 이러한 체계를 연구하기 위해 우리는 MOSAIC(Multi-Object Spatial relations, AttrIbution, Counting)라는 제어된 데이터셋 생성 프레임워크를 도입합니다. MOSAIC으로 확산 모델을 훈련한 결과, 개념 불균형보다는 장면 복잡성이 지배적인 역할을 하며, 데이터가 부족한 상황에서 개수 세기(counting) 학습이 특히 어렵다는 것을 발견했습니다. 더욱이 훈련 중 더 많은 개념 조합이 제외될수록 구성 일반화 성능이 급격히 저하되었습니다. 이러한 발견은 확산 모델의 근본적인 한계를 부각시키며, 강건한 다중 객체 구성 생성을 위한更强的 귀납적 편향과 데이터 설계의 필요성을 시사합니다.
English
Text-to-image diffusion models achieve impressive visual fidelity, yet they remain unreliable in multi-object generation. Despite extensive empirical evidence of these failures, the underlying causes remain unclear. We begin by asking how much of this limitation arises from the data itself. To disentangle data effects, we consider two regimes across different dataset sizes: (1) concept generalization, where each individual concept is observed during training under potentially imbalanced data distributions, and (2) compositional generalization, where specific combinations of concepts are systematically held out. To study these regimes, we introduce mosaic (Multi-Object Spatial relations, AttrIbution, Counting), a controlled framework for dataset generation. By training diffusion models on mosaic, we find that scene complexity plays a dominant role rather than concept imbalance, and that counting is uniquely difficult to learn in low-data regimes. Moreover, compositional generalization collapses as more concept combinations are held out during training. These findings highlight fundamental limitations of diffusion models and motivate stronger inductive biases and data design for robust multi-object compositional generation.
PDF51May 5, 2026