ChatPaper.aiChatPaper

Blenden Sie Ihren VLA nicht: Ausrichtung visueller Repräsentationen für OOD-Generalisation

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

October 29, 2025
papers.authors: Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI

papers.abstract

Der zunehmende Erfolg von Vision-Language-Action (VLA)-Modellen resultiert aus der Annahme, dass vortrainierte Vision-Language Models (VLMs) Agenten übertragbares Weltwissen und Vision-Language (VL)-Grundierung vermitteln können, was eine Grundlage für Aktionsmodelle mit breiterer Generalisierungsfähigkeit schafft. Wenn diese VLMs jedoch für die Aktionsmodalität adaptiert werden, bleibt unklar, in welchem Umfang ihre ursprünglichen VL-Repräsentationen und ihr Wissen erhalten bleiben. In dieser Arbeit führen wir eine systematische Untersuchung zur Beibehaltung von Repräsentationen während des VLA-Fine-Tunings durch und zeigen, dass naives Aktions-Fine-Tuning zu einer Verschlechterung der visuellen Repräsentationen führt. Um diese Effekte zu charakterisieren und zu messen, untersuchen wir die verborgenen Repräsentationen von VLA-Modellen und analysieren Attention-Maps. Darüber hinaus entwickeln wir eine Reihe gezielter Aufgaben und Methoden, die VLA-Modelle mit ihren VLM-Gegenstücken vergleichen, um durch das Aktions-Fine-Tuning induzierte Veränderungen der VL-Fähigkeiten zu isolieren. Wir evaluieren weiterhin eine Reihe von Strategien zur Ausrichtung visueller Repräsentationen und führen eine einfache, aber effektive Methode ein, die die Verschlechterung mildert und eine verbesserte Generalisierung für Out-of-Distribution (OOD)-Szenarien ermöglicht. Zusammengenommen klärt unsere Analyse den Kompromiss zwischen Aktions-Fine-Tuning und der Verschlechterung von VL-Repräsentationen und hebt praktische Ansätze hervor, um die vererbten VL-Fähigkeiten wiederherzustellen. Der Code ist öffentlich verfügbar: https://blind-vla-paper.github.io
English
The growing success of Vision-Language-Action (VLA) models stems from the promise that pretrained Vision-Language Models (VLMs) can endow agents with transferable world knowledge and vision-language (VL) grounding, laying a foundation for action models with broader generalization. Yet when these VLMs are adapted to the action modality, it remains unclear to what extent their original VL representations and knowledge are preserved. In this work, we conduct a systematic study of representation retention during VLA fine-tuning, showing that naive action fine-tuning leads to degradation of visual representations. To characterize and measure these effects, we probe VLA's hidden representations and analyze attention maps, further, we design a set of targeted tasks and methods that contrast VLA models with their counterpart VLMs, isolating changes in VL capabilities induced by action fine-tuning. We further evaluate a range of strategies for aligning visual representations and introduce a simple yet effective method that mitigates degradation and yields improved generalization to out-of-distribution (OOD) scenarios. Taken together, our analysis clarifies the trade-off between action fine-tuning and the degradation of VL representations and highlights practical approaches to recover inherited VL capabilities. Code is publicly available: https://blind-vla-paper.github.io
PDF953December 2, 2025