LongVideoAgent: Razonamiento Multiagente con Videos Largos
LongVideoAgent: Multi-Agent Reasoning with Long Videos
December 23, 2025
Autores: Runtao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen
cs.AI
Resumen
Los recientes avances en LLM multimodales y sistemas que utilizan herramientas para QA de videos largos apuntan al potencial del razonamiento sobre episodios de una hora de duración. Sin embargo, muchos métodos aún comprimen el contenido en resúmenes con pérdida de información o dependen de conjuntos de herramientas limitados, lo que debilita la localización temporal y pierde indicios detallados. Proponemos un marco multiagente en el que un LLM maestro coordina a un agente de localización para segmentos relevantes a la pregunta y a un agente de visión para extraer observaciones textuales específicas. El agente maestro planifica con un límite de pasos y se entrena con aprendizaje por refuerzo para fomentar una cooperación multiagente concisa, correcta y eficiente. Este diseño ayuda al agente maestro a enfocarse en clips relevantes mediante localización, complementa los subtítulos con detalles visuales y produce trayectorias interpretables. En nuestros conjuntos de datos LongTVQA y LongTVQA+ propuestos, que son conjuntos a nivel de episodio agregados a partir de TVQA/TVQA+, nuestro sistema multiagente supera significativamente a sólidas líneas base no agentes. Los experimentos también muestran que el aprendizaje por refuerzo fortalece aún más el razonamiento y la planificación para el agente entrenado. El código y los datos se compartirán en https://longvideoagent.github.io/.
English
Recent advances in multimodal LLMs and systems that use tools for long-video QA point to the promise of reasoning over hour-long episodes. However, many methods still compress content into lossy summaries or rely on limited toolsets, weakening temporal grounding and missing fine-grained cues. We propose a multi-agent framework in which a master LLM coordinates a grounding agent to localize question-relevant segments and a vision agent to extract targeted textual observations. The master agent plans with a step limit, and is trained with reinforcement learning to encourage concise, correct, and efficient multi-agent cooperation. This design helps the master agent focus on relevant clips via grounding, complements subtitles with visual detail, and yields interpretable trajectories. On our proposed LongTVQA and LongTVQA+ which are episode-level datasets aggregated from TVQA/TVQA+, our multi-agent system significantly outperforms strong non-agent baselines. Experiments also show reinforcement learning further strengthens reasoning and planning for the trained agent. Code and data will be shared at https://longvideoagent.github.io/.