Más allá del límite de separabilidad lineal

Resumen

La mayoría de los modelos visual-lingüísticos (VLMs) más avanzados parecen estar limitados por la separabilidad lineal de sus incrustaciones visuales en tareas de razonamiento abstracto. Este trabajo investiga este "cuello de botella de razonamiento lineal" mediante la introducción del Techo de Separabilidad Lineal (LSC), que mide el rendimiento de un clasificador lineal simple sobre las incrustaciones visuales de un VLM. Descubrimos que este cuello de botella es generalizado y no se debe a una percepción deficiente, sino a fallos en las vías de razonamiento del modelo lingüístico. Demostramos que se trata de un problema de alineación solucionable. Sin embargo, la intervención requerida depende de la tarea: activar vías existentes es suficiente para conceptos semánticos, mientras que el razonamiento relacional complejo requiere adaptar los pesos centrales del modelo. Utilizando el ajuste posfijo como control metodológico, encontramos evidencia sólida de la existencia de potentes vías de razonamiento latentes dentro de los VLMs. No obstante, para tareas relacionales complejas que requieren una adaptación más profunda, mejorar explícitamente la calidad de la representación hace que el modelo falle en nuevos formatos de instrucciones, a pesar de que sus incrustaciones permanezcan bien separadas. En última instancia, este trabajo proporciona una nueva perspectiva para el análisis de los VLMs, mostrando que un razonamiento robusto es cuestión de una alineación específica, no simplemente de una mejora en el aprendizaje de representaciones.

English

Most state-of-the-art Visual-Language Models (VLMs) are seemingly limited by the linear separabilty of their visual embeddings on abstract reasoning tasks. This work investigates this "linear reasoning bottleneck" by introducing the Linear Separability Ceiling (LSC), the performance of a simple linear classifier on a VLM's visual embeddings. We find this bottleneck is widespread and stems not from poor perception, but from failures in the language model's reasoning pathways. We demonstrate this is a solvable alignment issue. The required intervention, however, is task-dependent: activating existing pathways suffices for semantic concepts, while complex relational reasoning requires adapting core model weights. Using postfix tuning as a methodological control, we find strong evidence for powerful, dormant reasoning pathways within VLMs. However, for complex relational tasks requiring deeper adaptation, explicitly improving representation quality causes the model to fail on new prompt formats despite its embeddings remaining well separated. Ultimately, this work provides a new lens for VLM analysis, showing that robust reasoning is a matter of targeted alignment, not simply improved representation learning.

Más allá del límite de separabilidad lineal

Beyond the Linear Separability Ceiling

Resumen

Support