Ego-R1: Chain-of-Tool-Thought für die Ultra-Lange Egocentrische Video-Analyse
Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning
June 16, 2025
Autoren: Shulin Tian, Ruiqi Wang, Hongming Guo, Penghao Wu, Yuhao Dong, Xiuying Wang, Jingkang Yang, Hao Zhang, Hongyuan Zhu, Ziwei Liu
cs.AI
Zusammenfassung
Wir stellen Ego-R1 vor, ein neuartiges Framework für das Schlussfolgern über ultra-lange (d.h. Tage und Wochen umfassende) egocentrische Videos, das einen strukturierten Chain-of-Tool-Thought (CoTT)-Prozess nutzt, der von einem Ego-R1-Agenten orchestriert wird, der mittels Reinforcement Learning (RL) trainiert wurde. Inspiriert von menschlichen Problemlösungsstrategien zerlegt CoTT komplexes Schlussfolgern in modulare Schritte, wobei der RL-Agent in jedem Schritt spezifische Werkzeuge aufruft, um iterativ und kollaborativ Teilfragen zu beantworten, die Aufgaben wie zeitliche Abrufung und multimodales Verständnis bewältigen. Wir entwerfen ein zweistufiges Trainingsparadigma, das eine überwachte Feinabstimmung (SFT) eines vortrainierten Sprachmodells unter Verwendung von CoTT-Daten und RL umfasst, um unseren Agenten zu befähigen, schrittweise Werkzeuge für langfristiges Schlussfolgern dynamisch vorzuschlagen. Um das Training zu erleichtern, erstellen wir einen Datensatz namens Ego-R1 Data, der aus Ego-CoTT-25K für SFT und Ego-QA-4.4K für RL besteht. Darüber hinaus wird unser Ego-R1-Agent auf einem neu kuratierten, wochenlangen Video-QA-Benchmark, Ego-R1 Bench, evaluiert, der menschlich verifizierte QA-Paare aus hybriden Quellen enthält. Umfangreiche Ergebnisse zeigen, dass das dynamische, werkzeuggestützte Chain-of-Thought-Schlussfolgern unseres Ego-R1-Agenten die einzigartigen Herausforderungen des Verstehens ultra-langer egocentrischer Videos effektiv bewältigen kann und die zeitliche Abdeckung signifikant von wenigen Stunden auf eine Woche erweitert.
English
We introduce Ego-R1, a novel framework for reasoning over ultra-long (i.e.,
in days and weeks) egocentric videos, which leverages a structured
Chain-of-Tool-Thought (CoTT) process, orchestrated by an Ego-R1 Agent trained
via reinforcement learning (RL). Inspired by human problem-solving strategies,
CoTT decomposes complex reasoning into modular steps, with the RL agent
invoking specific tools, one per step, to iteratively and collaboratively
answer sub-questions tackling such tasks as temporal retrieval and multi-modal
understanding. We design a two-stage training paradigm involving supervised
finetuning (SFT) of a pretrained language model using CoTT data and RL to
enable our agent to dynamically propose step-by-step tools for long-range
reasoning. To facilitate training, we construct a dataset called Ego-R1 Data,
which consists of Ego-CoTT-25K for SFT and Ego-QA-4.4K for RL. Furthermore, our
Ego-R1 agent is evaluated on a newly curated week-long video QA benchmark,
Ego-R1 Bench, which contains human-verified QA pairs from hybrid sources.
Extensive results demonstrate that the dynamic, tool-augmented chain-of-thought
reasoning by our Ego-R1 Agent can effectively tackle the unique challenges of
understanding ultra-long egocentric videos, significantly extending the time
coverage from few hours to a week.