Au-delà du plafond de séparabilité linéaire
Beyond the Linear Separability Ceiling
July 10, 2025
papers.authors: Enrico Vompa, Tanel Tammet, Mohit Vaishnav
cs.AI
papers.abstract
La plupart des modèles visuels-langues (VLMs) de pointe semblent limités par la séparabilité linéaire de leurs représentations visuelles dans des tâches de raisonnement abstrait. Ce travail étudie ce "goulot d'étranglement du raisonnement linéaire" en introduisant le Plafond de Séparabilité Linéaire (LSC), qui mesure la performance d'un classifieur linéaire simple sur les représentations visuelles d'un VLM. Nous constatons que ce goulot d'étranglement est répandu et ne découle pas d'une perception déficiente, mais plutôt de défaillances dans les voies de raisonnement du modèle de langage. Nous démontrons qu'il s'agit d'un problème d'alignement soluble. Cependant, l'intervention nécessaire dépend de la tâche : activer les voies existantes suffit pour les concepts sémantiques, tandis que le raisonnement relationnel complexe nécessite d'adapter les poids fondamentaux du modèle. En utilisant le postfix tuning comme contrôle méthodologique, nous trouvons des preuves solides de l'existence de voies de raisonnement puissantes mais dormantes au sein des VLMs. Cependant, pour les tâches relationnelles complexes nécessitant une adaptation plus profonde, l'amélioration explicite de la qualité des représentations entraîne l'échec du modèle sur de nouveaux formats d'invites, malgré la bonne séparation de ses représentations. En fin de compte, ce travail offre une nouvelle perspective pour l'analyse des VLMs, montrant qu'un raisonnement robuste est une question d'alignement ciblé, et non simplement d'amélioration de l'apprentissage des représentations.
English
Most state-of-the-art Visual-Language Models (VLMs) are seemingly limited by
the linear separabilty of their visual embeddings on abstract reasoning tasks.
This work investigates this "linear reasoning bottleneck" by introducing the
Linear Separability Ceiling (LSC), the performance of a simple linear
classifier on a VLM's visual embeddings. We find this bottleneck is widespread
and stems not from poor perception, but from failures in the language model's
reasoning pathways. We demonstrate this is a solvable alignment issue. The
required intervention, however, is task-dependent: activating existing pathways
suffices for semantic concepts, while complex relational reasoning requires
adapting core model weights. Using postfix tuning as a methodological control,
we find strong evidence for powerful, dormant reasoning pathways within VLMs.
However, for complex relational tasks requiring deeper adaptation, explicitly
improving representation quality causes the model to fail on new prompt formats
despite its embeddings remaining well separated. Ultimately, this work provides
a new lens for VLM analysis, showing that robust reasoning is a matter of
targeted alignment, not simply improved representation learning.