Más allá del límite de separabilidad lineal
Beyond the Linear Separability Ceiling
July 10, 2025
Autores: Enrico Vompa, Tanel Tammet, Mohit Vaishnav
cs.AI
Resumen
La mayoría de los modelos visual-lingüísticos (VLMs) más avanzados parecen estar limitados por la separabilidad lineal de sus incrustaciones visuales en tareas de razonamiento abstracto. Este trabajo investiga este "cuello de botella de razonamiento lineal" mediante la introducción del Techo de Separabilidad Lineal (LSC), que mide el rendimiento de un clasificador lineal simple sobre las incrustaciones visuales de un VLM. Descubrimos que este cuello de botella es generalizado y no se debe a una percepción deficiente, sino a fallos en las vías de razonamiento del modelo lingüístico. Demostramos que se trata de un problema de alineación solucionable. Sin embargo, la intervención requerida depende de la tarea: activar vías existentes es suficiente para conceptos semánticos, mientras que el razonamiento relacional complejo requiere adaptar los pesos centrales del modelo. Utilizando el ajuste posfijo como control metodológico, encontramos evidencia sólida de la existencia de potentes vías de razonamiento latentes dentro de los VLMs. No obstante, para tareas relacionales complejas que requieren una adaptación más profunda, mejorar explícitamente la calidad de la representación hace que el modelo falle en nuevos formatos de instrucciones, a pesar de que sus incrustaciones permanezcan bien separadas. En última instancia, este trabajo proporciona una nueva perspectiva para el análisis de los VLMs, mostrando que un razonamiento robusto es cuestión de una alineación específica, no simplemente de una mejora en el aprendizaje de representaciones.
English
Most state-of-the-art Visual-Language Models (VLMs) are seemingly limited by
the linear separabilty of their visual embeddings on abstract reasoning tasks.
This work investigates this "linear reasoning bottleneck" by introducing the
Linear Separability Ceiling (LSC), the performance of a simple linear
classifier on a VLM's visual embeddings. We find this bottleneck is widespread
and stems not from poor perception, but from failures in the language model's
reasoning pathways. We demonstrate this is a solvable alignment issue. The
required intervention, however, is task-dependent: activating existing pathways
suffices for semantic concepts, while complex relational reasoning requires
adapting core model weights. Using postfix tuning as a methodological control,
we find strong evidence for powerful, dormant reasoning pathways within VLMs.
However, for complex relational tasks requiring deeper adaptation, explicitly
improving representation quality causes the model to fail on new prompt formats
despite its embeddings remaining well separated. Ultimately, this work provides
a new lens for VLM analysis, showing that robust reasoning is a matter of
targeted alignment, not simply improved representation learning.