ChatPaper.aiChatPaper

За пределами предела линейной разделимости

Beyond the Linear Separability Ceiling

July 10, 2025
Авторы: Enrico Vompa, Tanel Tammet, Mohit Vaishnav
cs.AI

Аннотация

Большинство современных визуально-языковых моделей (VLM) кажутся ограниченными линейной разделимостью их визуальных эмбеддингов в задачах абстрактного рассуждения. В данной работе исследуется этот "линейный барьер рассуждения" путем введения понятия "Потолок линейной разделимости" (Linear Separability Ceiling, LSC), который представляет собой производительность простого линейного классификатора на визуальных эмбеддингах VLM. Мы обнаруживаем, что этот барьер широко распространен и обусловлен не слабым восприятием, а сбоями в путях рассуждения языковой модели. Мы демонстрируем, что это решаемая проблема согласования. Однако требуемое вмешательство зависит от задачи: активация существующих путей достаточна для семантических концепций, тогда как сложное реляционное рассуждение требует адаптации основных весов модели. Используя постфиксную настройку в качестве методологического контроля, мы находим убедительные доказательства наличия мощных, но неактивных путей рассуждения в VLM. Однако для сложных реляционных задач, требующих более глубокой адаптации, явное улучшение качества представления приводит к сбоям модели на новых форматах запросов, несмотря на хорошую разделимость эмбеддингов. В конечном итоге, данная работа предлагает новый подход к анализу VLM, показывая, что устойчивое рассуждение является вопросом целенаправленного согласования, а не просто улучшенного обучения представлениям.
English
Most state-of-the-art Visual-Language Models (VLMs) are seemingly limited by the linear separabilty of their visual embeddings on abstract reasoning tasks. This work investigates this "linear reasoning bottleneck" by introducing the Linear Separability Ceiling (LSC), the performance of a simple linear classifier on a VLM's visual embeddings. We find this bottleneck is widespread and stems not from poor perception, but from failures in the language model's reasoning pathways. We demonstrate this is a solvable alignment issue. The required intervention, however, is task-dependent: activating existing pathways suffices for semantic concepts, while complex relational reasoning requires adapting core model weights. Using postfix tuning as a methodological control, we find strong evidence for powerful, dormant reasoning pathways within VLMs. However, for complex relational tasks requiring deeper adaptation, explicitly improving representation quality causes the model to fail on new prompt formats despite its embeddings remaining well separated. Ultimately, this work provides a new lens for VLM analysis, showing that robust reasoning is a matter of targeted alignment, not simply improved representation learning.
PDF31July 11, 2025