Embodied-Reasoner: Het combineren van visuele zoekopdrachten, redeneren en actie voor belichaamde interactieve taken
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks
March 27, 2025
Auteurs: Wenqi Zhang, Mengna Wang, Gangao Liu, Xu Huixin, Yiwei Jiang, Yongliang Shen, Guiyang Hou, Zhe Zheng, Hang Zhang, Xin Li, Weiming Lu, Peng Li, Yueting Zhuang
cs.AI
Samenvatting
Recente vooruitgang in diepe denkmodellen heeft opmerkelijke redeneervaardigheden aangetoond bij wiskundige en programmeertaken. Hun effectiviteit in belichaamde domeinen, die continue interactie met omgevingen vereisen via beeld-actie-verweven trajecten, blijft echter grotendeels onontgonnen. Wij presenteren Embodied Reasoner, een model dat o1-stijl redeneren uitbreidt naar interactieve belichaamde zoektaken. In tegenstelling tot wiskundig redeneren, dat voornamelijk afhankelijk is van logische deductie, vereisen belichaamde scenario's ruimtelijk begrip, temporeel redeneren en voortdurende zelfreflectie gebaseerd op interactiegeschiedenis. Om deze uitdagingen aan te pakken, synthetiseren we 9,3k samenhangende Observatie-Gedachte-Actie-trajecten met 64k interactieve beelden en 90k diverse denkprocessen (analyse, ruimtelijk redeneren, reflectie, planning en verificatie). We ontwikkelen een drietraps trainingspijplijn die de capaciteiten van het model geleidelijk verbetert via imitatieleren, zelfexploratie via afwijzingssteekproeven en zelfcorrectie door reflectieafstemming. De evaluatie toont aan dat ons model aanzienlijk beter presteert dan geavanceerde visuele redeneermodellen, bijvoorbeeld het overtreft OpenAI o1, o3-mini en Claude-3.7 met respectievelijk +9%, 24% en +13%. Analyse onthult dat ons model minder herhaalde zoekacties en logische inconsistenties vertoont, met bijzondere voordelen in complexe langetermijntaken. Ook in real-world omgevingen toont ons model zijn superioriteit, terwijl het minder herhaalde zoekacties en gevallen van logische inconsistentie vertoont.
English
Recent advances in deep thinking models have demonstrated remarkable
reasoning capabilities on mathematical and coding tasks. However, their
effectiveness in embodied domains which require continuous interaction with
environments through image action interleaved trajectories remains largely
-unexplored. We present Embodied Reasoner, a model that extends o1 style
reasoning to interactive embodied search tasks. Unlike mathematical reasoning
that relies primarily on logical deduction, embodied scenarios demand spatial
understanding, temporal reasoning, and ongoing self-reflection based on
interaction history. To address these challenges, we synthesize 9.3k coherent
Observation-Thought-Action trajectories containing 64k interactive images and
90k diverse thinking processes (analysis, spatial reasoning, reflection,
planning, and verification). We develop a three-stage training pipeline that
progressively enhances the model's capabilities through imitation learning,
self-exploration via rejection sampling, and self-correction through reflection
tuning. The evaluation shows that our model significantly outperforms those
advanced visual reasoning models, e.g., it exceeds OpenAI o1, o3-mini, and
Claude-3.7 by +9\%, 24\%, and +13\%. Analysis reveals our model exhibits fewer
repeated searches and logical inconsistencies, with particular advantages in
complex long-horizon tasks. Real-world environments also show our superiority
while exhibiting fewer repeated searches and logical inconsistency cases.Summary
AI-Generated Summary