ChatPaper.aiChatPaper

Jenseits der Grenze der linearen Separierbarkeit

Beyond the Linear Separability Ceiling

July 10, 2025
papers.authors: Enrico Vompa, Tanel Tammet, Mohit Vaishnav
cs.AI

papers.abstract

Die meisten modernsten Visual-Language-Modelle (VLMs) scheinen durch die lineare Separierbarkeit ihrer visuellen Einbettungen bei abstrakten Denkaufgaben begrenzt zu sein. Diese Arbeit untersucht diesen „linearen Denkengpass“ durch die Einführung der Linear Separability Ceiling (LSC), der Leistung eines einfachen linearen Klassifikators auf den visuellen Einbettungen eines VLM. Wir stellen fest, dass dieser Engpass weit verbreitet ist und nicht auf eine schlechte Wahrnehmung, sondern auf Fehler in den Denkpfaden des Sprachmodells zurückzuführen ist. Wir zeigen, dass es sich um ein lösbares Alignment-Problem handelt. Die erforderliche Intervention ist jedoch aufgabenabhängig: Für semantische Konzepte reicht es aus, bestehende Pfade zu aktivieren, während komplexes relationales Denken eine Anpassung der Kernmodellgewichte erfordert. Durch die Verwendung von Postfix-Tuning als methodische Kontrolle finden wir starke Hinweise auf leistungsstarke, aber inaktive Denkpfade innerhalb von VLMs. Bei komplexen relationalen Aufgaben, die eine tiefere Anpassung erfordern, führt eine explizite Verbesserung der Repräsentationsqualität jedoch dazu, dass das Modell bei neuen Prompt-Formaten versagt, obwohl seine Einbettungen weiterhin gut separiert bleiben. Letztlich bietet diese Arbeit eine neue Perspektive für die Analyse von VLMs und zeigt, dass robustes Denken eine Frage des gezielten Alignments ist und nicht einfach einer verbesserten Repräsentationslernens.
English
Most state-of-the-art Visual-Language Models (VLMs) are seemingly limited by the linear separabilty of their visual embeddings on abstract reasoning tasks. This work investigates this "linear reasoning bottleneck" by introducing the Linear Separability Ceiling (LSC), the performance of a simple linear classifier on a VLM's visual embeddings. We find this bottleneck is widespread and stems not from poor perception, but from failures in the language model's reasoning pathways. We demonstrate this is a solvable alignment issue. The required intervention, however, is task-dependent: activating existing pathways suffices for semantic concepts, while complex relational reasoning requires adapting core model weights. Using postfix tuning as a methodological control, we find strong evidence for powerful, dormant reasoning pathways within VLMs. However, for complex relational tasks requiring deeper adaptation, explicitly improving representation quality causes the model to fail on new prompt formats despite its embeddings remaining well separated. Ultimately, this work provides a new lens for VLM analysis, showing that robust reasoning is a matter of targeted alignment, not simply improved representation learning.
PDF41July 11, 2025