ChatPaper.aiChatPaper

LongVideoAgent: Multi-Agent Redeneren met Lange Video's

LongVideoAgent: Multi-Agent Reasoning with Long Videos

December 23, 2025
Auteurs: Runtao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen
cs.AI

Samenvatting

Recente vooruitgang in multimodale LLM's en systemen die gebruikmaken van tools voor lange-video QA wijst op de belofte van redeneren over uur-lange afleveringen. Echter, veel methoden comprimeren inhoud nog steeds in lossy samenvattingen of vertrouwen op beperkte toolsetten, wat de temporele verankering verzwakt en fijnmazige aanwijzingen mist. Wij stellen een multi-agent raamwerk voor waarin een hoofd-LLM een verankeringsagent coördineert om vraagrelevante segmenten te lokaliseren en een visie-agent om gerichte tekstuele observaties te extraheren. De hoofdagent plant met een stapgrens, en wordt getraind met reinforcement learning om beknopte, correcte en efficiënte multi-agent samenwerking aan te moedigen. Dit ontwerp helpt de hoofdagent zich te concentreren op relevante fragmenten via verankering, complementeert ondertitels met visuele details, en levert interpreteerbare trajecten op. Op onze voorgestelde LongTVQA en LongTVQA+, wat afleveringsniveau datasets zijn samengesteld uit TVQA/TVQA+, presteert ons multi-agent systeem aanzienlijk beter dan sterke non-agent baseline methoden. Experimenten tonen ook aan dat reinforcement learning het redeneren en plannen voor de getrainde agent verder versterkt. Code en data worden gedeeld op https://longvideoagent.github.io/.
English
Recent advances in multimodal LLMs and systems that use tools for long-video QA point to the promise of reasoning over hour-long episodes. However, many methods still compress content into lossy summaries or rely on limited toolsets, weakening temporal grounding and missing fine-grained cues. We propose a multi-agent framework in which a master LLM coordinates a grounding agent to localize question-relevant segments and a vision agent to extract targeted textual observations. The master agent plans with a step limit, and is trained with reinforcement learning to encourage concise, correct, and efficient multi-agent cooperation. This design helps the master agent focus on relevant clips via grounding, complements subtitles with visual detail, and yields interpretable trajectories. On our proposed LongTVQA and LongTVQA+ which are episode-level datasets aggregated from TVQA/TVQA+, our multi-agent system significantly outperforms strong non-agent baselines. Experiments also show reinforcement learning further strengthens reasoning and planning for the trained agent. Code and data will be shared at https://longvideoagent.github.io/.
PDF381December 25, 2025