ChatPaper.aiChatPaper

VLA의 시야를 가리지 말라: 외부 분포 일반화를 위한 시각 표현 정렬

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

October 29, 2025
저자: Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI

초록

비전-언어-행동(VLA) 모델의 성장하는 성공은 사전 학습된 비전-언어 모델(VLM)이 에이전트에게 전이 가능한 세계 지식과 비전-언어(VL) 접지를 제공함으로써 더 넓은 일반화를 가진 행동 모델의 기반을 마련할 수 있다는 기대에서 비롯됩니다. 그러나 이러한 VLM이 행동 양식에 적용될 때, 원래의 VL 표현과 지식이 어느 정도 보존되는지는 여전히 불분명합니다. 본 연구에서는 VLA 미세 조정 과정에서의 표현 보존에 대한 체계적인 연구를 수행하며, 단순한 행동 미세 조정이 시각 표현의 저하를 초래함을 보여줍니다. 이러한 효과를 규명하고 측정하기 위해 우리는 VLA의 은닉 표현을 탐색하고 어텐션 맵을 분석하며, 나아가 목표 지향적인 작업 세트와 방법을 설계하여 VLA 모델과 대응되는 VLM을 대조함으로써 행동 미세 조정에 의해 유발된 VL 능력의 변화를 분리합니다. 우리는 또한 시각 표현 정렬을 위한 다양한 전략을 추가로 평가하고, 저하를 완화하고 분포 외(OOD) 시나리오에 대한 개선된 일반화를 제공하는 간단하면서 효과적인 방법을 소개합니다. 종합적으로, 우리의 분석은 행동 미세 조정과 VL 표현 저하 사이의 상충 관계를 명확히 하고, 상속된 VL 능력을 회복하기 위한 실용적인 접근법을 강조합니다. 코드는 공개되어 있습니다: https://blind-vla-paper.github.io
English
The growing success of Vision-Language-Action (VLA) models stems from the promise that pretrained Vision-Language Models (VLMs) can endow agents with transferable world knowledge and vision-language (VL) grounding, laying a foundation for action models with broader generalization. Yet when these VLMs are adapted to the action modality, it remains unclear to what extent their original VL representations and knowledge are preserved. In this work, we conduct a systematic study of representation retention during VLA fine-tuning, showing that naive action fine-tuning leads to degradation of visual representations. To characterize and measure these effects, we probe VLA's hidden representations and analyze attention maps, further, we design a set of targeted tasks and methods that contrast VLA models with their counterpart VLMs, isolating changes in VL capabilities induced by action fine-tuning. We further evaluate a range of strategies for aligning visual representations and introduce a simple yet effective method that mitigates degradation and yields improved generalization to out-of-distribution (OOD) scenarios. Taken together, our analysis clarifies the trade-off between action fine-tuning and the degradation of VL representations and highlights practical approaches to recover inherited VL capabilities. Code is publicly available: https://blind-vla-paper.github.io
PDF953December 2, 2025