Não Cegue Seu VLA: Alinhando Representações Visuais para Generalização Fora da Distribuição

Resumo

O crescente sucesso dos modelos Visão-Linguagem-Ação (VLA) decorre da promessa de que os modelos de Visão-Linguagem (VLM) pré-treinados podem dotar os agentes com conhecimento do mundo transferível e fundamentação visão-linguagem (VL, do inglês *Vision-Language*), estabelecendo uma base para modelos de ação com maior capacidade de generalização. No entanto, quando esses VLMs são adaptados para a modalidade de ação, permanece incerto até que ponto suas representações e conhecimento VL originais são preservados. Neste trabalho, conduzimos um estudo sistemático da retenção de representações durante o ajuste fino (*fine-tuning*) para VLA, demonstrando que um ajuste fino de ação ingênuo leva à degradação das representações visuais. Para caracterizar e medir esses efeitos, investigamos as representações internas dos modelos VLA e analisamos mapas de atenção; além disso, projetamos um conjunto de tarefas e métodos direcionados que contrastam modelos VLA com seus equivalentes VLMs, isolando as mudanças nas capacidades VL induzidas pelo ajuste fino de ação. Avaliamos ainda uma série de estratégias para alinhar representações visuais e introduzimos um método simples, porém eficaz, que mitiga a degradação e resulta em uma melhor generalização para cenários fora da distribuição (*Out-of-Distribution*, OOD). Em conjunto, nossa análise esclarece a relação de compromisso (*trade-off*) entre o ajuste fino de ação e a degradação das representações VL e destaca abordagens práticas para recuperar as capacidades VL herdadas. O código está publicamente disponível: https://blind-vla-paper.github.io

English

The growing success of Vision-Language-Action (VLA) models stems from the promise that pretrained Vision-Language Models (VLMs) can endow agents with transferable world knowledge and vision-language (VL) grounding, laying a foundation for action models with broader generalization. Yet when these VLMs are adapted to the action modality, it remains unclear to what extent their original VL representations and knowledge are preserved. In this work, we conduct a systematic study of representation retention during VLA fine-tuning, showing that naive action fine-tuning leads to degradation of visual representations. To characterize and measure these effects, we probe VLA's hidden representations and analyze attention maps, further, we design a set of targeted tasks and methods that contrast VLA models with their counterpart VLMs, isolating changes in VL capabilities induced by action fine-tuning. We further evaluate a range of strategies for aligning visual representations and introduce a simple yet effective method that mitigates degradation and yields improved generalization to out-of-distribution (OOD) scenarios. Taken together, our analysis clarifies the trade-off between action fine-tuning and the degradation of VL representations and highlights practical approaches to recover inherited VL capabilities. Code is publicly available: https://blind-vla-paper.github.io

Não Cegue Seu VLA: Alinhando Representações Visuais para Generalização Fora da Distribuição

Don't Blind Your VLA: Aligning Visual Representations for OOD Generalization

Resumo

Support