Embodied-Reasoner: Sinergizando Búsqueda Visual, Razonamiento y Acción para Tareas Interactivas de Embodiment
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks
March 27, 2025
Autores: Wenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang
cs.AI
Resumen
Los recientes avances en los modelos de pensamiento profundo han demostrado capacidades de razonamiento notables en tareas matemáticas y de codificación. Sin embargo, su efectividad en dominios encarnados que requieren interacción continua con entornos a través de trayectorias intercaladas de imágenes y acciones sigue siendo en gran medida inexplorada. Presentamos Embodied Reasoner, un modelo que extiende el razonamiento estilo o1 a tareas de búsqueda encarnada interactiva. A diferencia del razonamiento matemático que se basa principalmente en la deducción lógica, los escenarios encarnados exigen comprensión espacial, razonamiento temporal y reflexión continua basada en el historial de interacciones. Para abordar estos desafíos, sintetizamos 9.3k trayectorias coherentes de Observación-Pensamiento-Acción que contienen 64k imágenes interactivas y 90k procesos de pensamiento diversos (análisis, razonamiento espacial, reflexión, planificación y verificación). Desarrollamos una canalización de entrenamiento de tres etapas que mejora progresivamente las capacidades del modelo a través del aprendizaje por imitación, la autoexploración mediante muestreo por rechazo y la autocorrección mediante ajuste de reflexión. La evaluación muestra que nuestro modelo supera significativamente a los modelos avanzados de razonamiento visual, por ejemplo, supera a OpenAI o1, o3-mini y Claude-3.7 en un +9%, 24% y +13%, respectivamente. El análisis revela que nuestro modelo exhibe menos búsquedas repetidas e inconsistencias lógicas, con ventajas particulares en tareas complejas de largo horizonte. Los entornos del mundo real también muestran nuestra superioridad, exhibiendo menos casos de búsquedas repetidas e inconsistencias lógicas.
English
Recent advances in deep thinking models have demonstrated remarkable
reasoning capabilities on mathematical and coding tasks. However, their
effectiveness in embodied domains which require continuous interaction with
environments through image action interleaved trajectories remains largely
-unexplored. We present Embodied Reasoner, a model that extends o1 style
reasoning to interactive embodied search tasks. Unlike mathematical reasoning
that relies primarily on logical deduction, embodied scenarios demand spatial
understanding, temporal reasoning, and ongoing self-reflection based on
interaction history. To address these challenges, we synthesize 9.3k coherent
Observation-Thought-Action trajectories containing 64k interactive images and
90k diverse thinking processes (analysis, spatial reasoning, reflection,
planning, and verification). We develop a three-stage training pipeline that
progressively enhances the model's capabilities through imitation learning,
self-exploration via rejection sampling, and self-correction through reflection
tuning. The evaluation shows that our model significantly outperforms those
advanced visual reasoning models, e.g., it exceeds OpenAI o1, o3-mini, and
Claude-3.7 by +9\%, 24\%, and +13\%. Analysis reveals our model exhibits fewer
repeated searches and logical inconsistencies, with particular advantages in
complex long-horizon tasks. Real-world environments also show our superiority
while exhibiting fewer repeated searches and logical inconsistency cases.Summary
AI-Generated Summary