LongVideoAgent : Raisonnement multi-agent avec des vidéos longues
LongVideoAgent: Multi-Agent Reasoning with Long Videos
December 23, 2025
papers.authors: Runtao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen
cs.AI
papers.abstract
Les récentes avancées des modèles de langage multimodaux et des systèmes utilisant des outils pour la réponse à des questions sur de longues vidéos montrent le potentiel du raisonnement sur des épisodes d'une heure. Cependant, de nombreuses méthodes compressent encore le contenu en résumés avec perte ou s'appuient sur des ensembles d'outils limités, affaiblissant l'ancrage temporel et négligeant les indices fins. Nous proposons un cadre multi-agents dans lequel un modèle de langage maître coordonne un agent d'ancrage pour localiser les segments pertinents pour la question et un agent visuel pour extraire des observations textuelles ciblées. L'agent maître planifie avec une limite d'étapes et est entraîné par apprentissage par renforcement pour favoriser une coopération multi-agents concise, correcte et efficace. Cette conception aide l'agent maître à se concentrer sur les extraits pertinents via l'ancrage, complète les sous-titres par des détails visuels et produit des trajectoires interprétables. Sur nos ensembles de données LongTVQA et LongTVQA+, agrégés au niveau des épisodes à partir de TVQA/TVQA+, notre système multi-agents surpasse significativement des bases solides non-agent. Les expériences montrent également que l'apprentissage par renforcement renforce davantage le raisonnement et la planification de l'agent entraîné. Le code et les données seront partagés sur https://longvideoagent.github.io/.
English
Recent advances in multimodal LLMs and systems that use tools for long-video QA point to the promise of reasoning over hour-long episodes. However, many methods still compress content into lossy summaries or rely on limited toolsets, weakening temporal grounding and missing fine-grained cues. We propose a multi-agent framework in which a master LLM coordinates a grounding agent to localize question-relevant segments and a vision agent to extract targeted textual observations. The master agent plans with a step limit, and is trained with reinforcement learning to encourage concise, correct, and efficient multi-agent cooperation. This design helps the master agent focus on relevant clips via grounding, complements subtitles with visual detail, and yields interpretable trajectories. On our proposed LongTVQA and LongTVQA+ which are episode-level datasets aggregated from TVQA/TVQA+, our multi-agent system significantly outperforms strong non-agent baselines. Experiments also show reinforcement learning further strengthens reasoning and planning for the trained agent. Code and data will be shared at https://longvideoagent.github.io/.