IVRA: Melhoria das Relações Visual-Token para Políticas de Ação Robótica com Orientação Baseada em Dicas sem Treinamento
IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance
January 22, 2026
Autores: Jongwoo Park, Kanchana Ranasinghe, Jinhyeok Jang, Cristina Mata, Yoo Sung Jang, Michael S Ryoo
cs.AI
Resumo
Muitos modelos Visão-Linguagem-Ação (VLA) achatam os patches de imagem em uma sequência unidimensional de tokens, enfraquecendo as pistas espaciais 2D necessárias para uma manipulação precisa. Apresentamos o IVRA, um método leve e livre de treinamento que melhora a compreensão espacial explorando dicas de afinidade já disponíveis no codificador visual integrado do modelo, sem exigir qualquer codificador externo ou retreinamento. O IVRA injeta seletivamente esses sinais de afinidade em uma camada do modelo de linguagem onde residem as características em nível de instância. Esta intervenção em tempo de inferência realinha as interações visual-token e preserva melhor a estrutura geométrica, mantendo todos os parâmetros do modelo fixos. Demonstramos a generalidade do IVRA aplicando-o a diversas arquiteturas VLA (LLaRA, OpenVLA e FLOWER) em benchmarks simulados abrangendo manipulação 2D e 3D (VIMA e LIBERO) e em várias tarefas com robôs reais. No VIMA 2D, o IVRA melhora o sucesso médio em +4,2% sobre a linha de base LLaRA em um regime de poucos dados. No LIBERO 3D, produz ganhos consistentes sobre as linhas de base OpenVLA e FLOWER, incluindo melhorias quando a precisão da linha de base está próxima da saturação (96,3% para 97,1%). Todo o código e modelos serão liberados publicamente. Visualizações estão disponíveis em: jongwoopark7978.github.io/IVRA.
English
Many Vision-Language-Action (VLA) models flatten image patches into a 1D token sequence, weakening the 2D spatial cues needed for precise manipulation. We introduce IVRA, a lightweight, training-free method that improves spatial understanding by exploiting affinity hints already available in the model's built-in vision encoder, without requiring any external encoder or retraining. IVRA selectively injects these affinity signals into a language-model layer in which instance-level features reside. This inference-time intervention realigns visual-token interactions and better preserves geometric structure while keeping all model parameters fixed. We demonstrate the generality of IVRA by applying it to diverse VLA architectures (LLaRA, OpenVLA, and FLOWER) across simulated benchmarks spanning both 2D and 3D manipulation (VIMA and LIBERO) and on various real-robot tasks. On 2D VIMA, IVRA improves average success by +4.2% over the baseline LLaRA in a low-data regime. On 3D LIBERO, it yields consistent gains over the OpenVLA and FLOWER baselines, including improvements when baseline accuracy is near saturation (96.3% to 97.1%). All code and models will be released publicly. Visualizations are available at: jongwoopark7978.github.io/IVRA