No Ciegues Tu VLA: Alineando Representaciones Visuales para la Generalización Fuera de Distribución
Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization
October 29, 2025
Autores: Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI
Resumen
El creciente éxito de los modelos Visión-Lenguaje-Acción (VLA) surge de la premisa de que los modelos de lenguaje visual (VLM) preentrenados pueden dotar a los agentes de conocimiento del mundo transferible y de una base de visión-lenguaje (VL), sentando las bases para modelos de acción con una generalización más amplia. Sin embargo, cuando estos VLM se adaptan a la modalidad de acción, sigue sin estar claro hasta qué punto se conservan sus representaciones y conocimientos VL originales. En este trabajo, realizamos un estudio sistemático de la retención de representaciones durante el ajuste fino de modelos VLA, demostrando que un ajuste fino de la acción ingenuo conduce a la degradación de las representaciones visuales. Para caracterizar y medir estos efectos, examinamos las representaciones ocultas de los VLA y analizamos los mapas de atención; además, diseñamos un conjunto de tareas y métodos específicos que contrastan los modelos VLA con sus VLM equivalentes, aislando los cambios en las capacidades VL inducidos por el ajuste fino de la acción. Evaluamos además una gama de estrategias para alinear las representaciones visuales e introducimos un método simple pero efectivo que mitiga la degradación y produce una mejor generalización a escenarios fuera de distribución (OOD). En conjunto, nuestro análisis clarifica la compensación entre el ajuste fino de la acción y la degradación de las representaciones VL y destaca enfoques prácticos para recuperar las capacidades VL heredadas. El código está disponible públicamente: https://blind-vla-paper.github.io
English
The growing success of Vision-Language-Action (VLA) models stems from the
promise that pretrained Vision-Language Models (VLMs) can endow agents with
transferable world knowledge and vision-language (VL) grounding, laying a
foundation for action models with broader generalization. Yet when these VLMs
are adapted to the action modality, it remains unclear to what extent their
original VL representations and knowledge are preserved. In this work, we
conduct a systematic study of representation retention during VLA fine-tuning,
showing that naive action fine-tuning leads to degradation of visual
representations. To characterize and measure these effects, we probe VLA's
hidden representations and analyze attention maps, further, we design a set of
targeted tasks and methods that contrast VLA models with their counterpart
VLMs, isolating changes in VL capabilities induced by action fine-tuning. We
further evaluate a range of strategies for aligning visual representations and
introduce a simple yet effective method that mitigates degradation and yields
improved generalization to out-of-distribution (OOD) scenarios. Taken together,
our analysis clarifies the trade-off between action fine-tuning and the
degradation of VL representations and highlights practical approaches to
recover inherited VL capabilities. Code is publicly available:
https://blind-vla-paper.github.io