ChatPaper.aiChatPaper

Ego-R1: Cadena de Pensamiento de Herramientas para el Razonamiento en Videos Egocéntricos de Ultra Larga Duración

Ego-R1: Chain-of-Tool-Thought for Ultra-Long Egocentric Video Reasoning

June 16, 2025
Autores: Shulin Tian, Ruiqi Wang, Hongming Guo, Penghao Wu, Yuhao Dong, Xiuying Wang, Jingkang Yang, Hao Zhang, Hongyuan Zhu, Ziwei Liu
cs.AI

Resumen

Presentamos Ego-R1, un marco novedoso para el razonamiento sobre videos egocéntricos ultra-largos (es decir, de días y semanas), el cual aprovecha un proceso estructurado de Cadena-de-Pensamiento-de-Herramientas (CoTT, por sus siglas en inglés), orquestado por un Agente Ego-R1 entrenado mediante aprendizaje por refuerzo (RL, por sus siglas en inglés). Inspirado en estrategias humanas de resolución de problemas, CoTT descompone el razonamiento complejo en pasos modulares, donde el agente de RL invoca herramientas específicas, una por paso, para responder de manera iterativa y colaborativa subpreguntas que abordan tareas como la recuperación temporal y la comprensión multimodal. Diseñamos un paradigma de entrenamiento en dos etapas que incluye el ajuste fino supervisado (SFT, por sus siglas en inglés) de un modelo de lenguaje preentrenado utilizando datos de CoTT y RL para permitir que nuestro agente proponga dinámicamente herramientas paso a paso para el razonamiento de largo alcance. Para facilitar el entrenamiento, construimos un conjunto de datos llamado Ego-R1 Data, que consiste en Ego-CoTT-25K para SFT y Ego-QA-4.4K para RL. Además, nuestro agente Ego-R1 es evaluado en un nuevo punto de referencia de preguntas y respuestas (QA, por sus siglas en inglés) sobre videos de una semana de duración, Ego-R1 Bench, que contiene pares de preguntas y respuestas verificadas por humanos provenientes de fuentes híbridas. Los resultados extensivos demuestran que el razonamiento dinámico y aumentado con herramientas mediante la cadena de pensamiento de nuestro Agente Ego-R1 puede abordar efectivamente los desafíos únicos de comprender videos egocéntricos ultra-largos, extendiendo significativamente la cobertura temporal de unas pocas horas a una semana.
English
We introduce Ego-R1, a novel framework for reasoning over ultra-long (i.e., in days and weeks) egocentric videos, which leverages a structured Chain-of-Tool-Thought (CoTT) process, orchestrated by an Ego-R1 Agent trained via reinforcement learning (RL). Inspired by human problem-solving strategies, CoTT decomposes complex reasoning into modular steps, with the RL agent invoking specific tools, one per step, to iteratively and collaboratively answer sub-questions tackling such tasks as temporal retrieval and multi-modal understanding. We design a two-stage training paradigm involving supervised finetuning (SFT) of a pretrained language model using CoTT data and RL to enable our agent to dynamically propose step-by-step tools for long-range reasoning. To facilitate training, we construct a dataset called Ego-R1 Data, which consists of Ego-CoTT-25K for SFT and Ego-QA-4.4K for RL. Furthermore, our Ego-R1 agent is evaluated on a newly curated week-long video QA benchmark, Ego-R1 Bench, which contains human-verified QA pairs from hybrid sources. Extensive results demonstrate that the dynamic, tool-augmented chain-of-thought reasoning by our Ego-R1 Agent can effectively tackle the unique challenges of understanding ultra-long egocentric videos, significantly extending the time coverage from few hours to a week.
PDF392June 17, 2025