Não Cegue Seu VLA: Alinhando Representações Visuais para Generalização Fora da Distribuição
Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization
October 29, 2025
Autores: Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, Alexey K. Kovalev, Aleksandr I. Panov
cs.AI
Resumo
O crescente sucesso dos modelos Visão-Linguagem-Ação (VLA) decorre da promessa de que os modelos de Visão-Linguagem (VLM) pré-treinados podem dotar os agentes com conhecimento do mundo transferível e fundamentação visão-linguagem (VL, do inglês *Vision-Language*), estabelecendo uma base para modelos de ação com maior capacidade de generalização. No entanto, quando esses VLMs são adaptados para a modalidade de ação, permanece incerto até que ponto suas representações e conhecimento VL originais são preservados. Neste trabalho, conduzimos um estudo sistemático da retenção de representações durante o ajuste fino (*fine-tuning*) para VLA, demonstrando que um ajuste fino de ação ingênuo leva à degradação das representações visuais. Para caracterizar e medir esses efeitos, investigamos as representações internas dos modelos VLA e analisamos mapas de atenção; além disso, projetamos um conjunto de tarefas e métodos direcionados que contrastam modelos VLA com seus equivalentes VLMs, isolando as mudanças nas capacidades VL induzidas pelo ajuste fino de ação. Avaliamos ainda uma série de estratégias para alinhar representações visuais e introduzimos um método simples, porém eficaz, que mitiga a degradação e resulta em uma melhor generalização para cenários fora da distribuição (*Out-of-Distribution*, OOD). Em conjunto, nossa análise esclarece a relação de compromisso (*trade-off*) entre o ajuste fino de ação e a degradação das representações VL e destaca abordagens práticas para recuperar as capacidades VL herdadas. O código está publicamente disponível: https://blind-vla-paper.github.io
English
The growing success of Vision-Language-Action (VLA) models stems from the
promise that pretrained Vision-Language Models (VLMs) can endow agents with
transferable world knowledge and vision-language (VL) grounding, laying a
foundation for action models with broader generalization. Yet when these VLMs
are adapted to the action modality, it remains unclear to what extent their
original VL representations and knowledge are preserved. In this work, we
conduct a systematic study of representation retention during VLA fine-tuning,
showing that naive action fine-tuning leads to degradation of visual
representations. To characterize and measure these effects, we probe VLA's
hidden representations and analyze attention maps, further, we design a set of
targeted tasks and methods that contrast VLA models with their counterpart
VLMs, isolating changes in VL capabilities induced by action fine-tuning. We
further evaluate a range of strategies for aligning visual representations and
introduce a simple yet effective method that mitigates degradation and yields
improved generalization to out-of-distribution (OOD) scenarios. Taken together,
our analysis clarifies the trade-off between action fine-tuning and the
degradation of VL representations and highlights practical approaches to
recover inherited VL capabilities. Code is publicly available:
https://blind-vla-paper.github.io