Guava : un harnais efficace et universel pour la manipulation incarnée

Résumé

Les modèles de langue entraînés sur des données vision-langage à grande échelle ont démontré un fort potentiel pour les agents incarnés. L'exploitation de modèles via l'utilisation d'outils incarnés offre une alternative prometteuse aux systèmes vision-langage-action de bout en bout, en combinant un raisonnement de haut niveau avec des modules externes pour la perception, la planification et le contrôle. Cependant, il reste flou ce qui constitue un cadre efficace pour la manipulation incarnée, et dans quelle mesure un tel cadre peut libérer des capacités incarnées dans un large éventail de modèles de raisonnement. Dans ce travail, nous présentons Guava, un cadre d'exploitation pour l'utilisation d'outils incarnés, développé par une exploration systématique de l'espace de conception des flux de travail, des espaces d'action et des espaces d'observation des agents. Notre étude identifie trois ingrédients clés pour des agents incarnés efficaces : les boucles itératives perception-raisonnement-action, les abstractions d'actions sémantiques et les observations multimodales. Afin de comprendre si ces principes de conception sont universels, même pour les petits modèles, nous développons un pipeline d'entraînement de bout en bout qui distille les capacités de manipulation incarnée dans un modèle open-source de 4B paramètres en utilisant moins de 2000 trajectoires collectées entièrement en simulation. Les résultats expérimentaux, tant en simulation qu'en environnements réels, montrent des performances comparables aux modèles propriétaires de pointe, tout en faisant preuve d'une forte généralisation à des objets inédits, des instructions nouvelles et des tâches à long horizon. Les résultats suggèrent qu'un cadre bien conçu peut servir d'interface évolutive et indépendante du modèle pour la manipulation incarnée, permettant de fortes capacités incarnées émergentes dans des modèles open-source compacts avec un minimum de données d'entraînement.

English

Language models trained on large-scale vision-language data have demonstrated strong potential for embodied agents. Harnessing models through embodied tools use offers a promising alternative to end-to-end vision-language-action systems by combining high-level reasoning with external modules for perception, planning, and control. However, it remains unclear what makes an effective harness for embodied manipulation, and to what extent such a harness can unlock embodied capabilities in a wide range of reasoning models. In this work, we present Guava, a harness framework for embodied tool use developed through systematic exploration of the design space of agent workflows, action spaces, and observation spaces. Our study identifies three key ingredients for effective embodied agents: iterative perception-reasoning-action loops, semantic action abstractions, and multimodal observations. To understand whether these design principles are universal even to small models, we develop an end-to-end training pipeline that distills embodied manipulation capabilities into a 4B open-source model using fewer than 2K trajectories collected entirely in simulation. Experimental results in both simulation and real-world environments show performance comparable to frontier proprietary models while exhibiting strong generalization to unseen objects, novel instructions, and long-horizon tasks. Results suggest that a well-designed harness can serve as a scalable, model-agnostic interface for embodied manipulation, enabling strong emergent embodied capabilities in compact open-source models with minimal training data.