La generalización composicional requiere representaciones lineales y ortogonales en modelos de incrustación visual.
Compositional Generalization Requires Linear, Orthogonal Representations in Vision Embedding Models
February 27, 2026
Autores: Arnas Uselis, Andrea Dittadi, Seong Joon Oh
cs.AI
Resumen
La generalización composicional, la capacidad de reconocer partes familiares en contextos novedosos, es una propiedad definitoria de los sistemas inteligentes. Aunque los modelos modernos se entrenan con conjuntos de datos masivos, estos solo cubren una fracción mínima del espacio combinatorio de entradas posibles, lo que plantea la pregunta de qué estructura deben tener las representaciones para sustentar la generalización a combinaciones no vistas. Formalizamos tres desiderátums para la generalización composicional bajo entrenamiento estándar (divisibilidad, transferibilidad, estabilidad) y demostramos que imponen restricciones geométricas necesarias: las representaciones deben descomponerse linealmente en componentes por concepto, y estos componentes deben ser ortogonales entre conceptos. Esto proporciona una base teórica para la Hipótesis de la Representación Lineal: la estructura lineal ampliamente observada en las representaciones neuronales es una consecuencia necesaria de la generalización composicional. Además, derivamos cotas dimensionales que vinculan el número de conceptos composicionales con la geometría del *embedding*. Empíricamente, evaluamos estas predicciones en modelos de visión modernos (CLIP, SigLIP, DINO) y encontramos que las representaciones exhiben una factorización lineal parcial con factores por concepto de bajo rango y casi ortogonales, y que el grado de esta estructura se correlaciona con la generalización composicional en combinaciones no vistas. A medida que los modelos continúan escalando, estas condiciones predicen la geometría representacional a la que pueden converger. El código está disponible en https://github.com/oshapio/necessary-compositionality.
English
Compositional generalization, the ability to recognize familiar parts in novel contexts, is a defining property of intelligent systems. Although modern models are trained on massive datasets, they still cover only a tiny fraction of the combinatorial space of possible inputs, raising the question of what structure representations must have to support generalization to unseen combinations. We formalize three desiderata for compositional generalization under standard training (divisibility, transferability, stability) and show they impose necessary geometric constraints: representations must decompose linearly into per-concept components, and these components must be orthogonal across concepts. This provides theoretical grounding for the Linear Representation Hypothesis: the linear structure widely observed in neural representations is a necessary consequence of compositional generalization. We further derive dimension bounds linking the number of composable concepts to the embedding geometry. Empirically, we evaluate these predictions across modern vision models (CLIP, SigLIP, DINO) and find that representations exhibit partial linear factorization with low-rank, near-orthogonal per-concept factors, and that the degree of this structure correlates with compositional generalization on unseen combinations. As models continue to scale, these conditions predict the representational geometry they may converge to. Code is available at https://github.com/oshapio/necessary-compositionality.