ChatPaper.aiChatPaper

VLA^2: Vision-Language-Action Modellen Versterken met een Agentisch Framework voor de Manipulatie van Ongeziene Concepten

VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation

October 16, 2025
Auteurs: Han Zhao, Jiaxuan Zhang, Wenxuan Song, Pengxiang Ding, Donglin Wang
cs.AI

Samenvatting

Huidige vision-language-action (VLA) modellen, vooraf getraind op grootschalige robotgegevens, vertonen sterke multitask-mogelijkheden en generaliseren goed naar variaties in visuele en taal-instructies voor manipulatie. Hun slagingspercentage daalt echter aanzienlijk wanneer ze worden geconfronteerd met objectconcepten buiten de trainingsgegevens, zoals onbekende objectbeschrijvingen en texturen in de dataset. Om dit aan te pakken, stellen we een nieuw agentisch framework voor, VLA^2, dat OpenVLA gebruikt als uitvoeringsbackbone en effectief gebruik maakt van externe modules zoals webretrieval en objectdetectie om visuele en tekstuele kennis over doelobjecten aan de VLA te leveren. Deze aanpak vermindert generalisatiefouten bij het omgaan met out-of-distribution objecten. Gebaseerd op de LIBERO-simulatieomgeving, introduceerden we nieuwe objecten en objectbeschrijvingen om een nieuwe evaluatiebenchmark met drie moeilijkheidsniveaus te construeren om de effectiviteit van onze methode te testen. Ons framework presteerde succesvol beter dan de huidige state-of-the-art modellen op onze ontworpen hard-level generalisatiebenchmark. Vergeleken met de standalone OpenVLA-baseline, behaalt VLA^2 een verbetering van 44,2% in het slagingspercentage in de hard-level benchmark en een gemiddelde verbetering van 20,2% in alle aangepaste omgevingen zonder enige prestatievermindering op in-domeintaken. Projectwebsite: https://vla-2.github.io.
English
Current vision-language-action (VLA) models, pre-trained on large-scale robotic data, exhibit strong multi-task capabilities and generalize well to variations in visual and language instructions for manipulation. However, their success rate drops significantly when faced with object concepts outside the training data, such as unseen object descriptions and textures in the dataset. To address this, we propose a novel agentic framework, VLA^2, which leverages OpenVLA as the execution backbone and effectively leverages external modules such as web retrieval and object detection to provide visual and textual knowledge about target objects to the VLA. This approach mitigates generalization failure when handling out-of-distribution objects. Based on the LIBERO simulation environment, we introduced novel objects and object descriptions to construct a new evaluation benchmark with three difficulty levels to test the effectiveness of our method. Our framework successfully outperformed the current state-of-the-art models on our designed hard-level generalization benchmark. Compared to the standalone OpenVLA baseline, VLA^2 achieves a 44.2% improvement in the success rate in the hard-level benchmark and an average improvement of 20.2% in all customized environments without any performance degradation on in-domain tasks. Project website: https://vla-2.github.io.
PDF132October 17, 2025