Ego-R1 : Chaîne de pensée-outil pour le raisonnement sur des vidéos égocentriques ultra-longues
Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning
June 16, 2025
Auteurs: Shulin Tian, Ruiqi Wang, Hongming Guo, Penghao Wu, Yuhao Dong, Xiuying Wang, Jingkang Yang, Hao Zhang, Hongyuan Zhu, Ziwei Liu
cs.AI
Résumé
Nous présentons Ego-R1, un nouveau cadre pour le raisonnement sur des vidéos égocentriques ultra-longues (c'est-à-dire s'étalant sur des jours et des semaines), qui exploite un processus structuré de Chaîne de Pensée d'Outils (Chain-of-Tool-Thought, CoTT), orchestré par un Agent Ego-R1 entraîné via apprentissage par renforcement (Reinforcement Learning, RL). Inspiré par les stratégies de résolution de problèmes humaines, CoTT décompose le raisonnement complexe en étapes modulaires, avec l'agent RL invoquant des outils spécifiques, un par étape, pour répondre de manière itérative et collaborative à des sous-questions abordant des tâches telles que la récupération temporelle et la compréhension multi-modale. Nous concevons un paradigme d'entraînement en deux étapes impliquant un affinage supervisé (Supervised Finetuning, SFT) d'un modèle de langage pré-entraîné utilisant des données CoTT et du RL pour permettre à notre agent de proposer dynamiquement des outils étape par étape pour un raisonnement à long terme. Pour faciliter l'entraînement, nous construisons un ensemble de données appelé Ego-R1 Data, qui comprend Ego-CoTT-25K pour le SFT et Ego-QA-4.4K pour le RL. De plus, notre agent Ego-R1 est évalué sur un nouveau benchmark de questions-réponses sur des vidéos d'une semaine, Ego-R1 Bench, qui contient des paires de questions-réponses vérifiées par des humains provenant de sources hybrides. Les résultats approfondis démontrent que le raisonnement dynamique et augmenté par des outils de notre Agent Ego-R1 peut efficacement relever les défis uniques de la compréhension des vidéos égocentriques ultra-longues, étendant significativement la couverture temporelle de quelques heures à une semaine.
English
We introduce Ego-R1, a novel framework for reasoning over ultra-long (i.e.,
in days and weeks) egocentric videos, which leverages a structured
Chain-of-Tool-Thought (CoTT) process, orchestrated by an Ego-R1 Agent trained
via reinforcement learning (RL). Inspired by human problem-solving strategies,
CoTT decomposes complex reasoning into modular steps, with the RL agent
invoking specific tools, one per step, to iteratively and collaboratively
answer sub-questions tackling such tasks as temporal retrieval and multi-modal
understanding. We design a two-stage training paradigm involving supervised
finetuning (SFT) of a pretrained language model using CoTT data and RL to
enable our agent to dynamically propose step-by-step tools for long-range
reasoning. To facilitate training, we construct a dataset called Ego-R1 Data,
which consists of Ego-CoTT-25K for SFT and Ego-QA-4.4K for RL. Furthermore, our
Ego-R1 agent is evaluated on a newly curated week-long video QA benchmark,
Ego-R1 Bench, which contains human-verified QA pairs from hybrid sources.
Extensive results demonstrate that the dynamic, tool-augmented chain-of-thought
reasoning by our Ego-R1 Agent can effectively tackle the unique challenges of
understanding ultra-long egocentric videos, significantly extending the time
coverage from few hours to a week.