LongVideoAgent: 장기 비디오를 활용한 다중 에이전트 추론
LongVideoAgent: Multi-Agent Reasoning with Long Videos
December 23, 2025
저자: Runtao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen
cs.AI
초록
최근 멀티모달 LLM과 도구를 활용한 장편 비디오 질의응답 시스템의 발전은 한 시간 이상의 에피소드에 대한 추론 가능성을 보여주고 있습니다. 그러나 많은 방법론이 여전히 콘텐츠를 손실 압축된 요약본으로 축소하거나 제한된 도구 세트에 의존함으로써 시간적 정확성을 약화시키고 세밀한 단서를 놓치고 있습니다. 우리는 마스터 LLM이 질의 관련 세그먼트를 지역화하는 그라운딩 에이전트와 표적 텍스트 관측값을 추출하는 비전 에이전트를 조정하는 다중 에이전트 프레임워크를 제안합니다. 마스터 에이전트는 단계 제한을 두고 계획을 수립하며, 간결하고 정확하며 효율적인 다중 에이전트 협력을 장려하기 위해 강화 학습으로 훈련됩니다. 이 설계는 마스터 에이전트가 그라운딩을 통해 관련 클립에 집중하도록 돕고, 자막을 시각적 세부 사항으로 보완하며, 해석 가능한 궤적을 생성합니다. TVQA/TVQA+에서 집계된 에피소드 수준 데이터셋인 우리가 제안한 LongTVQA 및 LongTVQA+에서 우리의 다중 에이전트 시스템은 강력한 비-에이전트 베이스라인을 크게 능가합니다. 실험 결과는 강화 학습이 훈련된 에이전트의 추론 및 계획 능력을 추가로 강화함을 보여줍니다. 코드와 데이터는 https://longvideoagent.github.io/에서 공유될 예정입니다.
English
Recent advances in multimodal LLMs and systems that use tools for long-video QA point to the promise of reasoning over hour-long episodes. However, many methods still compress content into lossy summaries or rely on limited toolsets, weakening temporal grounding and missing fine-grained cues. We propose a multi-agent framework in which a master LLM coordinates a grounding agent to localize question-relevant segments and a vision agent to extract targeted textual observations. The master agent plans with a step limit, and is trained with reinforcement learning to encourage concise, correct, and efficient multi-agent cooperation. This design helps the master agent focus on relevant clips via grounding, complements subtitles with visual detail, and yields interpretable trajectories. On our proposed LongTVQA and LongTVQA+ which are episode-level datasets aggregated from TVQA/TVQA+, our multi-agent system significantly outperforms strong non-agent baselines. Experiments also show reinforcement learning further strengthens reasoning and planning for the trained agent. Code and data will be shared at https://longvideoagent.github.io/.