No Ciegues Tu VLA: Alineando Representaciones Visuales para la Generalización Fuera de Distribución

Resumen

El creciente éxito de los modelos Visión-Lenguaje-Acción (VLA) surge de la premisa de que los modelos de lenguaje visual (VLM) preentrenados pueden dotar a los agentes de conocimiento del mundo transferible y de una base de visión-lenguaje (VL), sentando las bases para modelos de acción con una generalización más amplia. Sin embargo, cuando estos VLM se adaptan a la modalidad de acción, sigue sin estar claro hasta qué punto se conservan sus representaciones y conocimientos VL originales. En este trabajo, realizamos un estudio sistemático de la retención de representaciones durante el ajuste fino de modelos VLA, demostrando que un ajuste fino de la acción ingenuo conduce a la degradación de las representaciones visuales. Para caracterizar y medir estos efectos, examinamos las representaciones ocultas de los VLA y analizamos los mapas de atención; además, diseñamos un conjunto de tareas y métodos específicos que contrastan los modelos VLA con sus VLM equivalentes, aislando los cambios en las capacidades VL inducidos por el ajuste fino de la acción. Evaluamos además una gama de estrategias para alinear las representaciones visuales e introducimos un método simple pero efectivo que mitiga la degradación y produce una mejor generalización a escenarios fuera de distribución (OOD). En conjunto, nuestro análisis clarifica la compensación entre el ajuste fino de la acción y la degradación de las representaciones VL y destaca enfoques prácticos para recuperar las capacidades VL heredadas. El código está disponible públicamente: https://blind-vla-paper.github.io

English

The growing success of Vision-Language-Action (VLA) models stems from the promise that pretrained Vision-Language Models (VLMs) can endow agents with transferable world knowledge and vision-language (VL) grounding, laying a foundation for action models with broader generalization. Yet when these VLMs are adapted to the action modality, it remains unclear to what extent their original VL representations and knowledge are preserved. In this work, we conduct a systematic study of representation retention during VLA fine-tuning, showing that naive action fine-tuning leads to degradation of visual representations. To characterize and measure these effects, we probe VLA's hidden representations and analyze attention maps, further, we design a set of targeted tasks and methods that contrast VLA models with their counterpart VLMs, isolating changes in VL capabilities induced by action fine-tuning. We further evaluate a range of strategies for aligning visual representations and introduce a simple yet effective method that mitigates degradation and yields improved generalization to out-of-distribution (OOD) scenarios. Taken together, our analysis clarifies the trade-off between action fine-tuning and the degradation of VL representations and highlights practical approaches to recover inherited VL capabilities. Code is publicly available: https://blind-vla-paper.github.io

No Ciegues Tu VLA: Alineando Representaciones Visuales para la Generalización Fuera de Distribución

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

Resumen

Support