Embodied-Reasoner: Sinergizando Búsqueda Visual, Razonamiento y Acción para Tareas Interactivas de Embodiment

Resumen

Los recientes avances en los modelos de pensamiento profundo han demostrado capacidades de razonamiento notables en tareas matemáticas y de codificación. Sin embargo, su efectividad en dominios encarnados que requieren interacción continua con entornos a través de trayectorias intercaladas de imágenes y acciones sigue siendo en gran medida inexplorada. Presentamos Embodied Reasoner, un modelo que extiende el razonamiento estilo o1 a tareas de búsqueda encarnada interactiva. A diferencia del razonamiento matemático que se basa principalmente en la deducción lógica, los escenarios encarnados exigen comprensión espacial, razonamiento temporal y reflexión continua basada en el historial de interacciones. Para abordar estos desafíos, sintetizamos 9.3k trayectorias coherentes de Observación-Pensamiento-Acción que contienen 64k imágenes interactivas y 90k procesos de pensamiento diversos (análisis, razonamiento espacial, reflexión, planificación y verificación). Desarrollamos una canalización de entrenamiento de tres etapas que mejora progresivamente las capacidades del modelo a través del aprendizaje por imitación, la autoexploración mediante muestreo por rechazo y la autocorrección mediante ajuste de reflexión. La evaluación muestra que nuestro modelo supera significativamente a los modelos avanzados de razonamiento visual, por ejemplo, supera a OpenAI o1, o3-mini y Claude-3.7 en un +9%, 24% y +13%, respectivamente. El análisis revela que nuestro modelo exhibe menos búsquedas repetidas e inconsistencias lógicas, con ventajas particulares en tareas complejas de largo horizonte. Los entornos del mundo real también muestran nuestra superioridad, exhibiendo menos casos de búsquedas repetidas e inconsistencias lógicas.

English

Recent advances in deep thinking models have demonstrated remarkable reasoning capabilities on mathematical and coding tasks. However, their effectiveness in embodied domains which require continuous interaction with environments through image action interleaved trajectories remains largely -unexplored. We present Embodied Reasoner, a model that extends o1 style reasoning to interactive embodied search tasks. Unlike mathematical reasoning that relies primarily on logical deduction, embodied scenarios demand spatial understanding, temporal reasoning, and ongoing self-reflection based on interaction history. To address these challenges, we synthesize 9.3k coherent Observation-Thought-Action trajectories containing 64k interactive images and 90k diverse thinking processes (analysis, spatial reasoning, reflection, planning, and verification). We develop a three-stage training pipeline that progressively enhances the model's capabilities through imitation learning, self-exploration via rejection sampling, and self-correction through reflection tuning. The evaluation shows that our model significantly outperforms those advanced visual reasoning models, e.g., it exceeds OpenAI o1, o3-mini, and Claude-3.7 by +9\%, 24\%, and +13\%. Analysis reveals our model exhibits fewer repeated searches and logical inconsistencies, with particular advantages in complex long-horizon tasks. Real-world environments also show our superiority while exhibiting fewer repeated searches and logical inconsistency cases.

Embodied-Reasoner: Sinergizando Búsqueda Visual, Razonamiento y Acción para Tareas Interactivas de Embodiment

Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

Resumen

Support