VLA^2: 보이지 않는 개념 조작을 위한 에이전트 프레임워크로 강화된 시각-언어-행동 모델
VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation
October 16, 2025
저자: Han Zhao, Jiaxuan Zhang, Wenxuan Song, Pengxiang Ding, Donglin Wang
cs.AI
초록
대규모 로봇 데이터로 사전 학습된 현재의 시각-언어-행동(VLA) 모델은 강력한 다중 작업 능력을 보여주며, 시각적 및 언어적 조작 지침의 변화에 잘 일반화됩니다. 그러나 이러한 모델은 학습 데이터에 포함되지 않은 객체 개념(예: 데이터셋에서 보지 못한 객체 설명 및 질감)에 직면할 경우 성공률이 크게 떨어집니다. 이를 해결하기 위해, 우리는 OpenVLA를 실행 백본으로 활용하고 웹 검색 및 객체 감지와 같은 외부 모듈을 효과적으로 활용하여 VLA에 대상 객체에 대한 시각적 및 텍스트 지식을 제공하는 새로운 에이전트 프레임워크인 VLA^2를 제안합니다. 이 접근 방식은 분포 외 객체를 처리할 때 발생하는 일반화 실패를 완화합니다. LIBERO 시뮬레이션 환경을 기반으로, 우리는 새로운 객체와 객체 설명을 도입하여 세 가지 난이도로 구성된 새로운 평가 벤치마크를 구축하여 우리 방법의 효과를 테스트했습니다. 우리의 프레임워크는 설계한 하드 레벨 일반화 벤치마크에서 현재 최첨단 모델을 성공적으로 능가했습니다. 독립형 OpenVLA 기준선과 비교하여, VLA^2는 하드 레벨 벤치마크에서 성공률이 44.2% 향상되었으며, 모든 맞춤형 환경에서 평균 20.2%의 개선을 달성했고, 도메인 내 작업에서 성능 저하 없이 이를 실현했습니다. 프로젝트 웹사이트: https://vla-2.github.io.
English
Current vision-language-action (VLA) models, pre-trained on large-scale
robotic data, exhibit strong multi-task capabilities and generalize well to
variations in visual and language instructions for manipulation. However, their
success rate drops significantly when faced with object concepts outside the
training data, such as unseen object descriptions and textures in the dataset.
To address this, we propose a novel agentic framework, VLA^2, which leverages
OpenVLA as the execution backbone and effectively leverages external modules
such as web retrieval and object detection to provide visual and textual
knowledge about target objects to the VLA. This approach mitigates
generalization failure when handling out-of-distribution objects. Based on the
LIBERO simulation environment, we introduced novel objects and object
descriptions to construct a new evaluation benchmark with three difficulty
levels to test the effectiveness of our method. Our framework successfully
outperformed the current state-of-the-art models on our designed hard-level
generalization benchmark. Compared to the standalone OpenVLA baseline, VLA^2
achieves a 44.2% improvement in the success rate in the hard-level benchmark
and an average improvement of 20.2% in all customized environments without any
performance degradation on in-domain tasks. Project website:
https://vla-2.github.io.