¿La Escalabilidad de Datos Conduce a la Generalización Composicional Visual?
Does Data Scaling Lead to Visual Compositional Generalization?
July 9, 2025
Autores: Arnas Uselis, Andrea Dittadi, Seong Joon Oh
cs.AI
Resumen
La comprensión composicional es crucial para la inteligencia humana, pero aún no está claro si los modelos de visión contemporáneos la exhiben. El paradigma dominante del aprendizaje automático se basa en la premisa de que escalar el tamaño de los datos y de los modelos mejorará el rendimiento fuera de distribución, incluyendo la generalización composicional. Ponemos a prueba esta premisa mediante experimentos controlados que varían sistemáticamente la escala de los datos, la diversidad de conceptos y la cobertura de combinaciones. Descubrimos que la generalización composicional está impulsada por la diversidad de datos, no simplemente por la escala de los datos. Una mayor cobertura combinatoria obliga a los modelos a descubrir una estructura de representación factorizada linealmente, donde los conceptos se descomponen en componentes aditivos. Demostramos que esta estructura es clave para la eficiencia, permitiendo una generalización perfecta a partir de pocas combinaciones observadas. Al evaluar modelos preentrenados (DINO, CLIP), encontramos un rendimiento superior al azar pero imperfecto, lo que sugiere una presencia parcial de esta estructura. Nuestro trabajo motiva un mayor énfasis en la construcción de conjuntos de datos diversos para la generalización composicional, y en considerar la importancia de la estructura de representación que permite un aprendizaje composicional eficiente. El código está disponible en https://github.com/oshapio/visual-compositional-generalization.
English
Compositional understanding is crucial for human intelligence, yet it remains
unclear whether contemporary vision models exhibit it. The dominant machine
learning paradigm is built on the premise that scaling data and model sizes
will improve out-of-distribution performance, including compositional
generalization. We test this premise through controlled experiments that
systematically vary data scale, concept diversity, and combination coverage. We
find that compositional generalization is driven by data diversity, not mere
data scale. Increased combinatorial coverage forces models to discover a
linearly factored representational structure, where concepts decompose into
additive components. We prove this structure is key to efficiency, enabling
perfect generalization from few observed combinations. Evaluating pretrained
models (DINO, CLIP), we find above-random yet imperfect performance, suggesting
partial presence of this structure. Our work motivates stronger emphasis on
constructing diverse datasets for compositional generalization, and considering
the importance of representational structure that enables efficient
compositional learning. Code available at
https://github.com/oshapio/visual-compositional-generalization.