ChatPaper.aiChatPaper

Além do Limiar de Separação Linear

Beyond the Linear Separability Ceiling

July 10, 2025
Autores: Enrico Vompa, Tanel Tammet, Mohit Vaishnav
cs.AI

Resumo

A maioria dos modelos estado da arte de Visão e Linguagem (VLMs) parecem ser limitados pela separabilidade linear de seus embeddings visuais em tarefas de raciocínio abstrato. Este trabalho investiga esse "gargalo de raciocínio linear" introduzindo o Teto de Separabilidade Linear (LSC), o desempenho de um classificador linear simples sobre os embeddings visuais de um VLM. Descobrimos que esse gargalo é generalizado e não decorre de uma percepção deficiente, mas de falhas nos caminhos de raciocínio do modelo de linguagem. Demonstramos que se trata de um problema de alinhamento solucionável. A intervenção necessária, no entanto, depende da tarefa: ativar caminhos existentes é suficiente para conceitos semânticos, enquanto o raciocínio relacional complexo requer a adaptação dos pesos centrais do modelo. Usando o ajuste pós-fixo como controle metodológico, encontramos fortes evidências de poderosos caminhos de raciocínio dormentes dentro dos VLMs. No entanto, para tarefas relacionais complexas que exigem uma adaptação mais profunda, melhorar explicitamente a qualidade da representação faz com que o modelo falhe em novos formatos de prompt, apesar de seus embeddings permanecerem bem separados. Em última análise, este trabalho fornece uma nova perspectiva para a análise de VLMs, mostrando que o raciocínio robusto é uma questão de alinhamento direcionado, e não simplesmente de aprendizado de representação aprimorado.
English
Most state-of-the-art Visual-Language Models (VLMs) are seemingly limited by the linear separabilty of their visual embeddings on abstract reasoning tasks. This work investigates this "linear reasoning bottleneck" by introducing the Linear Separability Ceiling (LSC), the performance of a simple linear classifier on a VLM's visual embeddings. We find this bottleneck is widespread and stems not from poor perception, but from failures in the language model's reasoning pathways. We demonstrate this is a solvable alignment issue. The required intervention, however, is task-dependent: activating existing pathways suffices for semantic concepts, while complex relational reasoning requires adapting core model weights. Using postfix tuning as a methodological control, we find strong evidence for powerful, dormant reasoning pathways within VLMs. However, for complex relational tasks requiring deeper adaptation, explicitly improving representation quality causes the model to fail on new prompt formats despite its embeddings remaining well separated. Ultimately, this work provides a new lens for VLM analysis, showing that robust reasoning is a matter of targeted alignment, not simply improved representation learning.
PDF41July 11, 2025