Oltre il Limite della Separabilità Lineare
Beyond the Linear Separability Ceiling
July 10, 2025
Autori: Enrico Vompa, Tanel Tammet, Mohit Vaishnav
cs.AI
Abstract
La maggior parte dei modelli visivo-linguistici (VLM) all'avanguardia sembrano essere limitati dalla separabilità lineare dei loro embedding visivi nei compiti di ragionamento astratto. Questo lavoro indaga questo "collo di bottiglia del ragionamento lineare" introducendo il "Linear Separability Ceiling" (LSC), ovvero la performance di un semplice classificatore lineare sugli embedding visivi di un VLM. Scopriamo che questo collo di bottiglia è diffuso e non deriva da una percezione scadente, ma da fallimenti nei percorsi di ragionamento del modello linguistico. Dimostriamo che si tratta di un problema di allineamento risolvibile. L'intervento necessario, tuttavia, dipende dal compito: attivare percorsi esistenti è sufficiente per concetti semantici, mentre il ragionamento relazionale complesso richiede l'adattamento dei pesi principali del modello. Utilizzando il postfix tuning come controllo metodologico, troviamo forti prove dell'esistenza di potenti percorsi di ragionamento dormienti all'interno dei VLM. Tuttavia, per compiti relazionali complessi che richiedono un adattamento più profondo, migliorare esplicitamente la qualità della rappresentazione fa sì che il modello fallisca su nuovi formati di prompt nonostante i suoi embedding rimangano ben separati. In definitiva, questo lavoro fornisce una nuova prospettiva per l'analisi dei VLM, dimostrando che un ragionamento robusto è una questione di allineamento mirato, non semplicemente di miglioramento dell'apprendimento delle rappresentazioni.
English
Most state-of-the-art Visual-Language Models (VLMs) are seemingly limited by
the linear separabilty of their visual embeddings on abstract reasoning tasks.
This work investigates this "linear reasoning bottleneck" by introducing the
Linear Separability Ceiling (LSC), the performance of a simple linear
classifier on a VLM's visual embeddings. We find this bottleneck is widespread
and stems not from poor perception, but from failures in the language model's
reasoning pathways. We demonstrate this is a solvable alignment issue. The
required intervention, however, is task-dependent: activating existing pathways
suffices for semantic concepts, while complex relational reasoning requires
adapting core model weights. Using postfix tuning as a methodological control,
we find strong evidence for powerful, dormant reasoning pathways within VLMs.
However, for complex relational tasks requiring deeper adaptation, explicitly
improving representation quality causes the model to fail on new prompt formats
despite its embeddings remaining well separated. Ultimately, this work provides
a new lens for VLM analysis, showing that robust reasoning is a matter of
targeted alignment, not simply improved representation learning.