LongVideoAgent: Multi-Agenten-Reasoning mit langen Videos
LongVideoAgent: Multi-Agent Reasoning with Long Videos
December 23, 2025
papers.authors: Runtao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen
cs.AI
papers.abstract
Jüngste Fortschritte bei multimodalen LLMs und Systemen, die Werkzeuge für die Beantwortung von Fragen zu langen Videos nutzen, deuten auf das Potenzial des Schlussfolgerns über stundenlange Episoden hin. Viele Methoden komprimieren Inhalte jedoch nach wie vor zu verlustbehafteten Zusammenfassungen oder stützen sich auf begrenzte Werkzeugsätze, was die zeitliche Verankerung schwächt und fein granulare Hinweise übersieht. Wir schlagen ein Multi-Agenten-Framework vor, in dem ein Master-LLM einen Verankerungsagenten zur Lokalisierung von fragerelevanten Segmenten und einen Visonsagenten zur Extraktion gezielter textueller Beobachtungen koordiniert. Der Master-Agent plant mit einem Schritthimit und wird mit bestärkendem Lernen trainiert, um präzise, korrekte und effiziente Multi-Agenten-Kooperation zu fördern. Dieses Design hilft dem Master-Agenten, sich über die Verankerung auf relevante Clips zu konzentrieren, ergänzt Untertitel durch visuelle Details und liefert interpretierbare Trajektorien. Auf unseren vorgeschlagenen LongTVQA- und LongTVQA+-Datensätzen, die auf Episodenebene aus TVQA/TVQA+ aggregiert wurden, übertrifft unser Multi-Agenten-System starke Nicht-Agenten-Baselines deutlich. Experimente zeigen zudem, dass bestärkendes Lernen das Schlussfolgern und die Planung des trainierten Agenten weiter stärkt. Code und Daten werden unter https://longvideoagent.github.io/ bereitgestellt.
English
Recent advances in multimodal LLMs and systems that use tools for long-video QA point to the promise of reasoning over hour-long episodes. However, many methods still compress content into lossy summaries or rely on limited toolsets, weakening temporal grounding and missing fine-grained cues. We propose a multi-agent framework in which a master LLM coordinates a grounding agent to localize question-relevant segments and a vision agent to extract targeted textual observations. The master agent plans with a step limit, and is trained with reinforcement learning to encourage concise, correct, and efficient multi-agent cooperation. This design helps the master agent focus on relevant clips via grounding, complements subtitles with visual detail, and yields interpretable trajectories. On our proposed LongTVQA and LongTVQA+ which are episode-level datasets aggregated from TVQA/TVQA+, our multi-agent system significantly outperforms strong non-agent baselines. Experiments also show reinforcement learning further strengthens reasoning and planning for the trained agent. Code and data will be shared at https://longvideoagent.github.io/.