ChatPaper.aiChatPaper

Verblind uw VLA niet: Het afstemmen van visuele representaties voor generalisatie buiten de verdeling

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

October 29, 2025
Auteurs: Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI

Samenvatting

Het groeiende succes van Vision-Language-Action (VLA) modellen komt voort uit de belofte dat voorgetrainde Vision-Language Modellen (VLM's) agents kunnen voorzien van overdraagbare wereldkennis en vision-language (VL) grounding, wat een basis legt voor actiemodellen met een bredere generalisatie. Toch blijft het onduidelijk in hoeverre hun oorspronkelijke VL-representaties en kennis behouden blijven wanneer deze VLM's worden geadapteerd aan de actiemodaliteit. In dit werk voeren we een systematische studie uit naar het behoud van representaties tijdens VLA fine-tuning, waaruit blijkt dat naïeve actie-fine-tuning leidt tot degradatie van visuele representaties. Om deze effecten te karakteriseren en te meten, onderzoeken we de verborgen representaties van VLA en analyseren we aandachtspunten; verder ontwerpen we een reeks gerichte taken en methoden die VLA-modellen vergelijken met hun tegenhangers, de VLM's, om veranderingen in VL-capaciteiten veroorzaakt door actie-fine-tuning te isoleren. We evalueren verder een reeks strategieën voor het uitlijnen van visuele representaties en introduceren een eenvoudige maar effectieve methode die degradatie vermindert en verbeterde generalisatie naar out-of-distribution (OOD) scenario's oplevert. Samen genomen verduidelijkt onze analyse de afweging tussen actie-fine-tuning en de degradatie van VL-representaties en belicht het praktische benaderingen om de geërfde VL-capaciteiten te herstellen. Code is publiekelijk beschikbaar: https://blind-vla-paper.github.io
English
The growing success of Vision-Language-Action (VLA) models stems from the promise that pretrained Vision-Language Models (VLMs) can endow agents with transferable world knowledge and vision-language (VL) grounding, laying a foundation for action models with broader generalization. Yet when these VLMs are adapted to the action modality, it remains unclear to what extent their original VL representations and knowledge are preserved. In this work, we conduct a systematic study of representation retention during VLA fine-tuning, showing that naive action fine-tuning leads to degradation of visual representations. To characterize and measure these effects, we probe VLA's hidden representations and analyze attention maps, further, we design a set of targeted tasks and methods that contrast VLA models with their counterpart VLMs, isolating changes in VL capabilities induced by action fine-tuning. We further evaluate a range of strategies for aligning visual representations and introduce a simple yet effective method that mitigates degradation and yields improved generalization to out-of-distribution (OOD) scenarios. Taken together, our analysis clarifies the trade-off between action fine-tuning and the degradation of VL representations and highlights practical approaches to recover inherited VL capabilities. Code is publicly available: https://blind-vla-paper.github.io
PDF953December 2, 2025