Embodied-Reasoner: Het combineren van visuele zoekopdrachten, redeneren en actie voor belichaamde interactieve taken

Samenvatting

Recente vooruitgang in diepe denkmodellen heeft opmerkelijke redeneervaardigheden aangetoond bij wiskundige en programmeertaken. Hun effectiviteit in belichaamde domeinen, die continue interactie met omgevingen vereisen via beeld-actie-verweven trajecten, blijft echter grotendeels onontgonnen. Wij presenteren Embodied Reasoner, een model dat o1-stijl redeneren uitbreidt naar interactieve belichaamde zoektaken. In tegenstelling tot wiskundig redeneren, dat voornamelijk afhankelijk is van logische deductie, vereisen belichaamde scenario's ruimtelijk begrip, temporeel redeneren en voortdurende zelfreflectie gebaseerd op interactiegeschiedenis. Om deze uitdagingen aan te pakken, synthetiseren we 9,3k samenhangende Observatie-Gedachte-Actie-trajecten met 64k interactieve beelden en 90k diverse denkprocessen (analyse, ruimtelijk redeneren, reflectie, planning en verificatie). We ontwikkelen een drietraps trainingspijplijn die de capaciteiten van het model geleidelijk verbetert via imitatieleren, zelfexploratie via afwijzingssteekproeven en zelfcorrectie door reflectieafstemming. De evaluatie toont aan dat ons model aanzienlijk beter presteert dan geavanceerde visuele redeneermodellen, bijvoorbeeld het overtreft OpenAI o1, o3-mini en Claude-3.7 met respectievelijk +9%, 24% en +13%. Analyse onthult dat ons model minder herhaalde zoekacties en logische inconsistenties vertoont, met bijzondere voordelen in complexe langetermijntaken. Ook in real-world omgevingen toont ons model zijn superioriteit, terwijl het minder herhaalde zoekacties en gevallen van logische inconsistentie vertoont.

English

Recent advances in deep thinking models have demonstrated remarkable reasoning capabilities on mathematical and coding tasks. However, their effectiveness in embodied domains which require continuous interaction with environments through image action interleaved trajectories remains largely -unexplored. We present Embodied Reasoner, a model that extends o1 style reasoning to interactive embodied search tasks. Unlike mathematical reasoning that relies primarily on logical deduction, embodied scenarios demand spatial understanding, temporal reasoning, and ongoing self-reflection based on interaction history. To address these challenges, we synthesize 9.3k coherent Observation-Thought-Action trajectories containing 64k interactive images and 90k diverse thinking processes (analysis, spatial reasoning, reflection, planning, and verification). We develop a three-stage training pipeline that progressively enhances the model's capabilities through imitation learning, self-exploration via rejection sampling, and self-correction through reflection tuning. The evaluation shows that our model significantly outperforms those advanced visual reasoning models, e.g., it exceeds OpenAI o1, o3-mini, and Claude-3.7 by +9\%, 24\%, and +13\%. Analysis reveals our model exhibits fewer repeated searches and logical inconsistencies, with particular advantages in complex long-horizon tasks. Real-world environments also show our superiority while exhibiting fewer repeated searches and logical inconsistency cases.

Embodied-Reasoner: Het combineren van visuele zoekopdrachten, redeneren en actie voor belichaamde interactieve taken

Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

Samenvatting

Support