ChatPaper.aiChatPaper

Ne Pas Aveugler Votre VLA : Aligner les Représentations Visuelles pour la Généralisation Hors-Distribution

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

October 29, 2025
papers.authors: Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI

papers.abstract

Le succès croissant des modèles Vision-Langage-Action (VLA) découle de la promesse que les modèles Vision-Langage (VLM) pré-entraînés peuvent doter les agents de connaissances transférables sur le monde et d'un ancrage vision-langage (VL), posant ainsi les bases de modèles d'action dotés d'une plus grande capacité de généralisation. Pourtant, lorsque ces VLM sont adaptés à la modalité d'action, on ignore encore dans quelle mesure leurs représentations et connaissances VL originales sont préservées. Dans ce travail, nous menons une étude systématique de la rétention des représentations lors du fine-tuning des modèles VLA, montrant qu'un fine-tuning naïf pour l'action entraîne une dégradation des représentations visuelles. Pour caractériser et mesurer ces effets, nous sondons les représentations cachées des modèles VLA et analysons les cartes d'attention ; de plus, nous concevons un ensemble de tâches et de méthodes ciblées qui comparent les modèles VLA à leurs contreparties VLM, isolant ainsi les changements dans les capacités VL induits par le fine-tuning pour l'action. Nous évaluons ensuite une gamme de stratégies pour aligner les représentations visuelles et présentons une méthode simple mais efficace qui atténue la dégradation et permet une meilleure généralisation à des scénarios hors distribution (OOD). Globalement, notre analyse clarifie le compromis entre le fine-tuning pour l'action et la dégradation des représentations VL et met en lumière des approches pratiques pour retrouver les capacités VL héritées. Le code est publiquement disponible : https://blind-vla-paper.github.io
English
The growing success of Vision-Language-Action (VLA) models stems from the promise that pretrained Vision-Language Models (VLMs) can endow agents with transferable world knowledge and vision-language (VL) grounding, laying a foundation for action models with broader generalization. Yet when these VLMs are adapted to the action modality, it remains unclear to what extent their original VL representations and knowledge are preserved. In this work, we conduct a systematic study of representation retention during VLA fine-tuning, showing that naive action fine-tuning leads to degradation of visual representations. To characterize and measure these effects, we probe VLA's hidden representations and analyze attention maps, further, we design a set of targeted tasks and methods that contrast VLA models with their counterpart VLMs, isolating changes in VL capabilities induced by action fine-tuning. We further evaluate a range of strategies for aligning visual representations and introduce a simple yet effective method that mitigates degradation and yields improved generalization to out-of-distribution (OOD) scenarios. Taken together, our analysis clarifies the trade-off between action fine-tuning and the degradation of VL representations and highlights practical approaches to recover inherited VL capabilities. Code is publicly available: https://blind-vla-paper.github.io
PDF953December 2, 2025