Guava: Un Arnés Efectivo y Universal para la Manipulación Corporeizada

Resumen

Los modelos de lenguaje entrenados con datos visuales y lingüísticos a gran escala han demostrado un gran potencial para los agentes encarnados. Aprovechar estos modelos mediante el uso de herramientas encarnadas ofrece una alternativa prometedora a los sistemas integrados de visión-lenguaje-acción, combinando razonamiento de alto nivel con módulos externos para percepción, planificación y control. Sin embargo, aún no está claro qué constituye un marco de aprovechamiento eficaz para la manipulación encarnada, ni hasta qué punto dicho marco puede desbloquear capacidades encarnadas en una amplia gama de modelos de razonamiento. En este trabajo presentamos Guava, un marco de aprovechamiento para el uso de herramientas encarnadas desarrollado mediante la exploración sistemática del espacio de diseño de flujos de trabajo de agentes, espacios de acción y espacios de observación. Nuestro estudio identifica tres ingredientes clave para agentes encarnados eficaces: bucles iterativos de percepción-razonamiento-acción, abstracciones semánticas de acciones y observaciones multimodales. Para comprender si estos principios de diseño son universales incluso para modelos pequeños, desarrollamos un canal de entrenamiento integral que destila capacidades de manipulación encarnada en un modelo de código abierto de 4B utilizando menos de 2.000 trayectorias recolectadas enteramente en simulación. Los resultados experimentales tanto en entornos simulados como reales muestran un rendimiento comparable al de modelos propietarios de vanguardia, al tiempo que exhiben una sólida generalización a objetos no vistos, instrucciones novedosas y tareas de largo horizonte. Los resultados sugieren que un marco de aprovechamiento bien diseñado puede servir como interfaz escalable e independiente del modelo para la manipulación encarnada, permitiendo capacidades encarnadas emergentes sólidas en modelos compactos de código abierto con datos de entrenamiento mínimos.

English

Language models trained on large-scale vision-language data have demonstrated strong potential for embodied agents. Harnessing models through embodied tools use offers a promising alternative to end-to-end vision-language-action systems by combining high-level reasoning with external modules for perception, planning, and control. However, it remains unclear what makes an effective harness for embodied manipulation, and to what extent such a harness can unlock embodied capabilities in a wide range of reasoning models. In this work, we present Guava, a harness framework for embodied tool use developed through systematic exploration of the design space of agent workflows, action spaces, and observation spaces. Our study identifies three key ingredients for effective embodied agents: iterative perception-reasoning-action loops, semantic action abstractions, and multimodal observations. To understand whether these design principles are universal even to small models, we develop an end-to-end training pipeline that distills embodied manipulation capabilities into a 4B open-source model using fewer than 2K trajectories collected entirely in simulation. Experimental results in both simulation and real-world environments show performance comparable to frontier proprietary models while exhibiting strong generalization to unseen objects, novel instructions, and long-horizon tasks. Results suggest that a well-designed harness can serve as a scalable, model-agnostic interface for embodied manipulation, enabling strong emergent embodied capabilities in compact open-source models with minimal training data.