ChatPaper.aiChatPaper

Ego-R1: Catena di Pensiero Strumentale per il Ragionamento su Video Egocentrici Ultra-Lunghi

Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning

June 16, 2025
Autori: Shulin Tian, Ruiqi Wang, Hongming Guo, Penghao Wu, Yuhao Dong, Xiuying Wang, Jingkang Yang, Hao Zhang, Hongyuan Zhu, Ziwei Liu
cs.AI

Abstract

Presentiamo Ego-R1, un nuovo framework per il ragionamento su video egocentrici ultra-lunghi (cioè di giorni e settimane), che sfrutta un processo strutturato di Catena-di-Pensiero-Strumentale (CoTT), orchestrato da un Agente Ego-R1 addestrato tramite apprendimento per rinforzo (RL). Ispirato dalle strategie umane di risoluzione dei problemi, CoTT scompone il ragionamento complesso in passi modulari, con l'agente RL che invoca strumenti specifici, uno per passo, per rispondere in modo iterativo e collaborativo a sotto-domande affrontando compiti come il recupero temporale e la comprensione multi-modale. Progettiamo un paradigma di addestramento in due fasi che include il fine-tuning supervisionato (SFT) di un modello linguistico preaddestrato utilizzando dati CoTT e RL per consentire al nostro agente di proporre dinamicamente strumenti passo-passo per il ragionamento a lungo raggio. Per facilitare l'addestramento, costruiamo un dataset chiamato Ego-R1 Data, che consiste in Ego-CoTT-25K per SFT e Ego-QA-4.4K per RL. Inoltre, il nostro agente Ego-R1 viene valutato su un nuovo benchmark di QA su video di una settimana, Ego-R1 Bench, che contiene coppie QA verificate da esseri umani provenienti da fonti ibride. I risultati estesi dimostrano che il ragionamento dinamico e potenziato da strumenti tramite Catena-di-Pensiero del nostro Agente Ego-R1 può affrontare efficacemente le sfide uniche della comprensione di video egocentrici ultra-lunghi, estendendo significativamente la copertura temporale da poche ore a una settimana.
English
We introduce Ego-R1, a novel framework for reasoning over ultra-long (i.e., in days and weeks) egocentric videos, which leverages a structured Chain-of-Tool-Thought (CoTT) process, orchestrated by an Ego-R1 Agent trained via reinforcement learning (RL). Inspired by human problem-solving strategies, CoTT decomposes complex reasoning into modular steps, with the RL agent invoking specific tools, one per step, to iteratively and collaboratively answer sub-questions tackling such tasks as temporal retrieval and multi-modal understanding. We design a two-stage training paradigm involving supervised finetuning (SFT) of a pretrained language model using CoTT data and RL to enable our agent to dynamically propose step-by-step tools for long-range reasoning. To facilitate training, we construct a dataset called Ego-R1 Data, which consists of Ego-CoTT-25K for SFT and Ego-QA-4.4K for RL. Furthermore, our Ego-R1 agent is evaluated on a newly curated week-long video QA benchmark, Ego-R1 Bench, which contains human-verified QA pairs from hybrid sources. Extensive results demonstrate that the dynamic, tool-augmented chain-of-thought reasoning by our Ego-R1 Agent can effectively tackle the unique challenges of understanding ultra-long egocentric videos, significantly extending the time coverage from few hours to a week.
PDF422June 17, 2025