Führt Datenskalierung zu visueller kompositioneller Generalisierung?
Does Data Scaling Lead to Visual Compositional Generalization?
July 9, 2025
papers.authors: Arnas Uselis, Andrea Dittadi, Seong Joon Oh
cs.AI
papers.abstract
Kompositionelles Verständnis ist entscheidend für die menschliche Intelligenz, doch es bleibt unklar, ob aktuelle Vision-Modelle dies aufweisen. Das vorherrschende Paradigma des maschinellen Lernens basiert auf der Annahme, dass die Skalierung von Daten und Modellgrößen die Out-of-Distribution-Leistung verbessert, einschließlich der kompositionellen Generalisierung. Wir testen diese Annahme durch kontrollierte Experimente, die systematisch die Datenmenge, die Konzeptvielfalt und die Kombinationsabdeckung variieren. Wir stellen fest, dass die kompositionelle Generalisierung durch Datenvielfalt und nicht allein durch die Datenmenge vorangetrieben wird. Eine erhöhte kombinatorische Abdeckung zwingt Modelle dazu, eine linear faktorisierte Repräsentationsstruktur zu entdecken, in der sich Konzepte in additive Komponenten zerlegen lassen. Wir beweisen, dass diese Struktur der Schlüssel zur Effizienz ist und eine perfekte Generalisierung aus wenigen beobachteten Kombinationen ermöglicht. Bei der Bewertung vortrainierter Modelle (DINO, CLIP) stellen wir eine überzufällige, aber unvollkommene Leistung fest, was auf eine teilweise Präsenz dieser Struktur hindeutet. Unsere Arbeit motiviert eine stärkere Betonung der Konstruktion vielfältiger Datensätze für die kompositionelle Generalisierung und die Berücksichtigung der Bedeutung von Repräsentationsstrukturen, die effizientes kompositionelles Lernen ermöglichen. Code verfügbar unter https://github.com/oshapio/visual-compositional-generalization.
English
Compositional understanding is crucial for human intelligence, yet it remains
unclear whether contemporary vision models exhibit it. The dominant machine
learning paradigm is built on the premise that scaling data and model sizes
will improve out-of-distribution performance, including compositional
generalization. We test this premise through controlled experiments that
systematically vary data scale, concept diversity, and combination coverage. We
find that compositional generalization is driven by data diversity, not mere
data scale. Increased combinatorial coverage forces models to discover a
linearly factored representational structure, where concepts decompose into
additive components. We prove this structure is key to efficiency, enabling
perfect generalization from few observed combinations. Evaluating pretrained
models (DINO, CLIP), we find above-random yet imperfect performance, suggesting
partial presence of this structure. Our work motivates stronger emphasis on
constructing diverse datasets for compositional generalization, and considering
the importance of representational structure that enables efficient
compositional learning. Code available at
https://github.com/oshapio/visual-compositional-generalization.