データのスケーリングは視覚的構成の一般化につながるのか?
Does Data Scaling Lead to Visual Compositional Generalization?
July 9, 2025
著者: Arnas Uselis, Andrea Dittadi, Seong Joon Oh
cs.AI
要旨
構成理解は人間の知能において極めて重要であるが、現代の視覚モデルがそれを示すかどうかは依然として不明である。主流の機械学習パラダイムは、データとモデルの規模を拡大することで、分布外性能(構成的一般化を含む)が向上するという前提に基づいている。我々は、データ規模、概念の多様性、組み合わせの網羅性を体系的に変化させる制御実験を通じて、この前提を検証する。その結果、構成的一般化はデータの規模ではなく、データの多様性によって駆動されることがわかった。組み合わせの網羅性を高めることで、モデルは線形分解可能な表現構造を発見するようになり、概念が加法的な構成要素に分解される。我々は、この構造が効率性の鍵であり、少数の観測された組み合わせから完全な一般化を可能にすることを証明する。事前学習済みモデル(DINO、CLIP)を評価した結果、ランダムを上回るものの不完全な性能が得られ、この構造が部分的に存在していることが示唆された。本研究は、構成的一般化のための多様なデータセットの構築に重点を置くこと、および効率的な構成学習を可能にする表現構造の重要性を考慮することの必要性を動機付けている。コードはhttps://github.com/oshapio/visual-compositional-generalizationで公開されている。
English
Compositional understanding is crucial for human intelligence, yet it remains
unclear whether contemporary vision models exhibit it. The dominant machine
learning paradigm is built on the premise that scaling data and model sizes
will improve out-of-distribution performance, including compositional
generalization. We test this premise through controlled experiments that
systematically vary data scale, concept diversity, and combination coverage. We
find that compositional generalization is driven by data diversity, not mere
data scale. Increased combinatorial coverage forces models to discover a
linearly factored representational structure, where concepts decompose into
additive components. We prove this structure is key to efficiency, enabling
perfect generalization from few observed combinations. Evaluating pretrained
models (DINO, CLIP), we find above-random yet imperfect performance, suggesting
partial presence of this structure. Our work motivates stronger emphasis on
constructing diverse datasets for compositional generalization, and considering
the importance of representational structure that enables efficient
compositional learning. Code available at
https://github.com/oshapio/visual-compositional-generalization.