ChatPaper.aiChatPaper

VLAの視覚表現を盲目化しない:OOD汎化のためのアライメント

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

October 29, 2025
著者: Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI

要旨

視覚言語行動(VLA)モデルの成功が拡大している背景には、事前学習済みの視覚言語モデル(VLM)がエージェントに転移可能な世界知識と視覚言語(VL)基盤を付与し、より広範な汎化性を持つ行動モデルの基盤を築けるという期待がある。しかし、これらのVLMを行動モダリティに適応させる際、元のVL表現と知識がどの程度保持されるかは未解明である。本研究では、VLAファインチューニング時の表現保持について体系的な検証を行い、単純な行動ファインチューニングが視覚表現の劣化を招くことを示す。これらの効果を特徴付け測定するため、VLAの隠れ表現をプローブし注意マップを分析するとともに、VLAモデルと対応するVLMを比較するターゲットタスク群と手法を設計し、行動ファインチューニングによって誘発されるVL能力の変化を分離して評価する。さらに、視覚表現の整合性を確保する各種戦略を評価し、劣化を緩和して分布外(OOD)シナリオへの汎化性向上をもたらす簡潔かつ効果的手法を提案する。総合的に、本研究は行動ファインチューニングとVL表現劣化のトレードオフを明確にし、継承されたVL能力を回復する実用的アプローチを提示する。コードは公開済み:https://blind-vla-paper.github.io
English
The growing success of Vision-Language-Action (VLA) models stems from the promise that pretrained Vision-Language Models (VLMs) can endow agents with transferable world knowledge and vision-language (VL) grounding, laying a foundation for action models with broader generalization. Yet when these VLMs are adapted to the action modality, it remains unclear to what extent their original VL representations and knowledge are preserved. In this work, we conduct a systematic study of representation retention during VLA fine-tuning, showing that naive action fine-tuning leads to degradation of visual representations. To characterize and measure these effects, we probe VLA's hidden representations and analyze attention maps, further, we design a set of targeted tasks and methods that contrast VLA models with their counterpart VLMs, isolating changes in VL capabilities induced by action fine-tuning. We further evaluate a range of strategies for aligning visual representations and introduce a simple yet effective method that mitigates degradation and yields improved generalization to out-of-distribution (OOD) scenarios. Taken together, our analysis clarifies the trade-off between action fine-tuning and the degradation of VL representations and highlights practical approaches to recover inherited VL capabilities. Code is publicly available: https://blind-vla-paper.github.io
PDF953December 2, 2025