Au-delà du plafond de séparabilité linéaire

papers.abstract

La plupart des modèles visuels-langues (VLMs) de pointe semblent limités par la séparabilité linéaire de leurs représentations visuelles dans des tâches de raisonnement abstrait. Ce travail étudie ce "goulot d'étranglement du raisonnement linéaire" en introduisant le Plafond de Séparabilité Linéaire (LSC), qui mesure la performance d'un classifieur linéaire simple sur les représentations visuelles d'un VLM. Nous constatons que ce goulot d'étranglement est répandu et ne découle pas d'une perception déficiente, mais plutôt de défaillances dans les voies de raisonnement du modèle de langage. Nous démontrons qu'il s'agit d'un problème d'alignement soluble. Cependant, l'intervention nécessaire dépend de la tâche : activer les voies existantes suffit pour les concepts sémantiques, tandis que le raisonnement relationnel complexe nécessite d'adapter les poids fondamentaux du modèle. En utilisant le postfix tuning comme contrôle méthodologique, nous trouvons des preuves solides de l'existence de voies de raisonnement puissantes mais dormantes au sein des VLMs. Cependant, pour les tâches relationnelles complexes nécessitant une adaptation plus profonde, l'amélioration explicite de la qualité des représentations entraîne l'échec du modèle sur de nouveaux formats d'invites, malgré la bonne séparation de ses représentations. En fin de compte, ce travail offre une nouvelle perspective pour l'analyse des VLMs, montrant qu'un raisonnement robuste est une question d'alignement ciblé, et non simplement d'amélioration de l'apprentissage des représentations.

English

Most state-of-the-art Visual-Language Models (VLMs) are seemingly limited by the linear separabilty of their visual embeddings on abstract reasoning tasks. This work investigates this "linear reasoning bottleneck" by introducing the Linear Separability Ceiling (LSC), the performance of a simple linear classifier on a VLM's visual embeddings. We find this bottleneck is widespread and stems not from poor perception, but from failures in the language model's reasoning pathways. We demonstrate this is a solvable alignment issue. The required intervention, however, is task-dependent: activating existing pathways suffices for semantic concepts, while complex relational reasoning requires adapting core model weights. Using postfix tuning as a methodological control, we find strong evidence for powerful, dormant reasoning pathways within VLMs. However, for complex relational tasks requiring deeper adaptation, explicitly improving representation quality causes the model to fail on new prompt formats despite its embeddings remaining well separated. Ultimately, this work provides a new lens for VLM analysis, showing that robust reasoning is a matter of targeted alignment, not simply improved representation learning.

Au-delà du plafond de séparabilité linéaire

Beyond the Linear Separability Ceiling

papers.abstract

Support