VLA^2: Potenciando Modelos Visión-Lenguaje-Acción con un Marco Agéntico para la Manipulación de Conceptos No Vistos
VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation
October 16, 2025
Autores: Han Zhao, Jiaxuan Zhang, Wenxuan Song, Pengxiang Ding, Donglin Wang
cs.AI
Resumen
Los modelos actuales de visión-lenguaje-acción (VLA, por sus siglas en inglés), preentrenados con datos robóticos a gran escala, exhiben fuertes capacidades multitarea y se generalizan bien a variaciones en instrucciones visuales y lingüísticas para la manipulación. Sin embargo, su tasa de éxito disminuye significativamente cuando se enfrentan a conceptos de objetos fuera de los datos de entrenamiento, como descripciones y texturas de objetos no vistos en el conjunto de datos. Para abordar este problema, proponemos un marco agente novedoso, VLA^2, que aprovecha OpenVLA como columna vertebral de ejecución y utiliza eficazmente módulos externos, como la recuperación web y la detección de objetos, para proporcionar conocimiento visual y textual sobre los objetos objetivo al VLA. Este enfoque mitiga el fallo de generalización al manejar objetos fuera de la distribución. Basándonos en el entorno de simulación LIBERO, introdujimos nuevos objetos y descripciones de objetos para construir un nuevo punto de referencia de evaluación con tres niveles de dificultad para probar la efectividad de nuestro método. Nuestro marco superó con éxito los modelos más avanzados actuales en nuestro punto de referencia de generalización de nivel difícil. En comparación con la línea base independiente de OpenVLA, VLA^2 logra una mejora del 44.2% en la tasa de éxito en el punto de referencia de nivel difícil y una mejora promedio del 20.2% en todos los entornos personalizados, sin ninguna degradación del rendimiento en tareas dentro del dominio. Sitio web del proyecto: https://vla-2.github.io.
English
Current vision-language-action (VLA) models, pre-trained on large-scale
robotic data, exhibit strong multi-task capabilities and generalize well to
variations in visual and language instructions for manipulation. However, their
success rate drops significantly when faced with object concepts outside the
training data, such as unseen object descriptions and textures in the dataset.
To address this, we propose a novel agentic framework, VLA^2, which leverages
OpenVLA as the execution backbone and effectively leverages external modules
such as web retrieval and object detection to provide visual and textual
knowledge about target objects to the VLA. This approach mitigates
generalization failure when handling out-of-distribution objects. Based on the
LIBERO simulation environment, we introduced novel objects and object
descriptions to construct a new evaluation benchmark with three difficulty
levels to test the effectiveness of our method. Our framework successfully
outperformed the current state-of-the-art models on our designed hard-level
generalization benchmark. Compared to the standalone OpenVLA baseline, VLA^2
achieves a 44.2% improvement in the success rate in the hard-level benchmark
and an average improvement of 20.2% in all customized environments without any
performance degradation on in-domain tasks. Project website:
https://vla-2.github.io.