Voorbij het Plafond van Lineaire Scheidbaarheid

Samenvatting

De meeste state-of-the-art Visueel-Taalmodellen (VLMs) lijken beperkt te worden door de lineaire scheidbaarheid van hun visuele embeddings bij abstracte redeneertaken. Dit onderzoek verkent dit "lineaire redeneerknelpunt" door het introduceren van het Lineaire Scheidbaarheidsplafond (LSC), de prestaties van een eenvoudige lineaire classifier op de visuele embeddings van een VLM. We ontdekken dat dit knelpunt wijdverspreid is en niet voortkomt uit slechte perceptie, maar uit tekortkomingen in de redeneerpaden van het taalmodel. We tonen aan dat dit een oplosbaar aligneringsprobleem is. De benodigde interventie is echter taakafhankelijk: het activeren van bestaande paden volstaat voor semantische concepten, terwijl complex relationeel redeneren aanpassing van de kernmodelgewichten vereist. Door postfix-tuning als methodologische controle te gebruiken, vinden we sterke aanwijzingen voor krachtige, sluimerende redeneerpaden binnen VLMs. Voor complexe relationele taken die diepere aanpassing vereisen, leidt het expliciet verbeteren van de representatiekwaliteit echter tot falen van het model bij nieuwe promptformaten, ondanks dat de embeddings goed gescheiden blijven. Uiteindelijk biedt dit werk een nieuwe lens voor VLM-analyse, waaruit blijkt dat robuust redeneren een kwestie is van gerichte alignering, niet simpelweg van verbeterd representatieleren.

English

Most state-of-the-art Visual-Language Models (VLMs) are seemingly limited by the linear separabilty of their visual embeddings on abstract reasoning tasks. This work investigates this "linear reasoning bottleneck" by introducing the Linear Separability Ceiling (LSC), the performance of a simple linear classifier on a VLM's visual embeddings. We find this bottleneck is widespread and stems not from poor perception, but from failures in the language model's reasoning pathways. We demonstrate this is a solvable alignment issue. The required intervention, however, is task-dependent: activating existing pathways suffices for semantic concepts, while complex relational reasoning requires adapting core model weights. Using postfix tuning as a methodological control, we find strong evidence for powerful, dormant reasoning pathways within VLMs. However, for complex relational tasks requiring deeper adaptation, explicitly improving representation quality causes the model to fail on new prompt formats despite its embeddings remaining well separated. Ultimately, this work provides a new lens for VLM analysis, showing that robust reasoning is a matter of targeted alignment, not simply improved representation learning.

Voorbij het Plafond van Lineaire Scheidbaarheid

Beyond the Linear Separability Ceiling

Samenvatting

Support