ChatPaper.aiChatPaper

Ego-R1: Chain-of-Tool-Thought für die Ultra-Lange Egocentrische Video-Analyse

Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning

June 16, 2025
Autoren: Shulin Tian, Ruiqi Wang, Hongming Guo, Penghao Wu, Yuhao Dong, Xiuying Wang, Jingkang Yang, Hao Zhang, Hongyuan Zhu, Ziwei Liu
cs.AI

Zusammenfassung

Wir stellen Ego-R1 vor, ein neuartiges Framework für das Schlussfolgern über ultra-lange (d.h. Tage und Wochen umfassende) egocentrische Videos, das einen strukturierten Chain-of-Tool-Thought (CoTT)-Prozess nutzt, der von einem Ego-R1-Agenten orchestriert wird, der mittels Reinforcement Learning (RL) trainiert wurde. Inspiriert von menschlichen Problemlösungsstrategien zerlegt CoTT komplexes Schlussfolgern in modulare Schritte, wobei der RL-Agent in jedem Schritt spezifische Werkzeuge aufruft, um iterativ und kollaborativ Teilfragen zu beantworten, die Aufgaben wie zeitliche Abrufung und multimodales Verständnis bewältigen. Wir entwerfen ein zweistufiges Trainingsparadigma, das eine überwachte Feinabstimmung (SFT) eines vortrainierten Sprachmodells unter Verwendung von CoTT-Daten und RL umfasst, um unseren Agenten zu befähigen, schrittweise Werkzeuge für langfristiges Schlussfolgern dynamisch vorzuschlagen. Um das Training zu erleichtern, erstellen wir einen Datensatz namens Ego-R1 Data, der aus Ego-CoTT-25K für SFT und Ego-QA-4.4K für RL besteht. Darüber hinaus wird unser Ego-R1-Agent auf einem neu kuratierten, wochenlangen Video-QA-Benchmark, Ego-R1 Bench, evaluiert, der menschlich verifizierte QA-Paare aus hybriden Quellen enthält. Umfangreiche Ergebnisse zeigen, dass das dynamische, werkzeuggestützte Chain-of-Thought-Schlussfolgern unseres Ego-R1-Agenten die einzigartigen Herausforderungen des Verstehens ultra-langer egocentrischer Videos effektiv bewältigen kann und die zeitliche Abdeckung signifikant von wenigen Stunden auf eine Woche erweitert.
English
We introduce Ego-R1, a novel framework for reasoning over ultra-long (i.e., in days and weeks) egocentric videos, which leverages a structured Chain-of-Tool-Thought (CoTT) process, orchestrated by an Ego-R1 Agent trained via reinforcement learning (RL). Inspired by human problem-solving strategies, CoTT decomposes complex reasoning into modular steps, with the RL agent invoking specific tools, one per step, to iteratively and collaboratively answer sub-questions tackling such tasks as temporal retrieval and multi-modal understanding. We design a two-stage training paradigm involving supervised finetuning (SFT) of a pretrained language model using CoTT data and RL to enable our agent to dynamically propose step-by-step tools for long-range reasoning. To facilitate training, we construct a dataset called Ego-R1 Data, which consists of Ego-CoTT-25K for SFT and Ego-QA-4.4K for RL. Furthermore, our Ego-R1 agent is evaluated on a newly curated week-long video QA benchmark, Ego-R1 Bench, which contains human-verified QA pairs from hybrid sources. Extensive results demonstrate that the dynamic, tool-augmented chain-of-thought reasoning by our Ego-R1 Agent can effectively tackle the unique challenges of understanding ultra-long egocentric videos, significantly extending the time coverage from few hours to a week.
PDF392June 17, 2025