데이터 스케일링이 시각적 조합 일반화로 이어질까?
Does Data Scaling Lead to Visual Compositional Generalization?
July 9, 2025
저자: Arnas Uselis, Andrea Dittadi, Seong Joon Oh
cs.AI
초록
구성적 이해는 인간 지능에 있어 핵심적이지만, 현대의 시각 모델들이 이를 보이는지는 여전히 불분명합니다. 현재의 지배적인 머신러닝 패러다임은 데이터와 모델 크기를 확장함으로써 분포 외 성능, 특히 구성적 일반화 능력이 향상될 것이라는 전제에 기반하고 있습니다. 우리는 데이터 규모, 개념 다양성, 조합 범위를 체계적으로 변화시키는 통제된 실험을 통해 이 전제를 검증했습니다. 그 결과, 구성적 일반화는 단순한 데이터 규모가 아닌 데이터 다양성에 의해 주도된다는 것을 발견했습니다. 조합 범위의 증가는 모델이 선형적으로 분해된 표현 구조를 발견하도록 강제하는데, 이 구조에서는 개념들이 가법적 구성 요소로 분해됩니다. 우리는 이 구조가 효율성의 핵심이며, 소수의 관찰된 조합으로부터 완벽한 일반화를 가능하게 한다는 것을 증명했습니다. 사전 훈련된 모델(DINO, CLIP)을 평가한 결과, 무작위 수준 이상이지만 불완전한 성능을 보였는데, 이는 이 구조가 부분적으로 존재함을 시사합니다. 우리의 연구는 구성적 일반화를 위해 다양한 데이터셋 구축에 더 큰 강조를 두고, 효율적인 구성적 학습을 가능하게 하는 표현 구조의 중요성을 고려할 필요성을 제기합니다. 코드는 https://github.com/oshapio/visual-compositional-generalization에서 확인할 수 있습니다.
English
Compositional understanding is crucial for human intelligence, yet it remains
unclear whether contemporary vision models exhibit it. The dominant machine
learning paradigm is built on the premise that scaling data and model sizes
will improve out-of-distribution performance, including compositional
generalization. We test this premise through controlled experiments that
systematically vary data scale, concept diversity, and combination coverage. We
find that compositional generalization is driven by data diversity, not mere
data scale. Increased combinatorial coverage forces models to discover a
linearly factored representational structure, where concepts decompose into
additive components. We prove this structure is key to efficiency, enabling
perfect generalization from few observed combinations. Evaluating pretrained
models (DINO, CLIP), we find above-random yet imperfect performance, suggesting
partial presence of this structure. Our work motivates stronger emphasis on
constructing diverse datasets for compositional generalization, and considering
the importance of representational structure that enables efficient
compositional learning. Code available at
https://github.com/oshapio/visual-compositional-generalization.