ChatPaper.aiChatPaper

A²RD: 에이전틱 자기회귀 확산을 통한 장시간 동영상 일관성 유지

A^2RD: Agentic Autoregressive Diffusion for Long Video Consistency

May 7, 2026
저자: Do Xuan Long, Yale Song, Min-Yen Kan, Tomas Pfister, Long T. Le
cs.AI

초록

일관되고 연속적인 긴 비디오를 합성하는 것은 여전히 근본적인 도전 과제로 남아 있다. 기존 방법은 긴 시간적 범위에 걸쳐 의미적 표류(semantic drift)와 서사적 붕괴(narrative collapse)를 겪는다. 우리는 창의적 합성과 일관성 유지를 분리하는 에이전트 기반 자기회귀 확산(A^2RD) 아키텍처를 제안한다. A^2RD는 긴 비디오 합성을 검색-합성-정제-갱신(Retrieve-Synthesize-Refine-Update) 주기를 통해 비디오 세그먼트를 순차적으로 합성하고 스스로 개선하는 폐쇄 루프 프로세스로 정식화한다. 이는 세 가지 핵심 구성 요소로 이루어진다: (i) 여러 모달에 걸쳐 비디오 진행 상황을 추적하는 다중 모달 비디오 메모리, (ii) 자연스러운 진행과 시각적 일관성을 위해 생성 모드를 전환하는 적응형 세그먼트 생성, (iii) 오류 전파를 방지하기 위해 각 세그먼트를 프레임 및 비디오 수준에서 자체 개선하는 계층적 테스트 시간 자가 개선. 또한 장시간 일관성을 시험하기 위해 비선형 개체 및 환경 전이를 포함한 도전적 벤치마크인 LVBench-C를 도입한다. 1분에서 10분 분량의 비디오를 포괄하는 공공 벤치마크와 LVBench-C에서 A^2RD는 최신 기준선 대비 일관성에서 최대 30%, 서사적 일관성에서 20% 더 우수한 성능을 보인다. 인간 평가는 이러한 성과를 확인할 뿐만 아니라 움직임 및 전환의 매끄러움에서도 현저한 개선을 보여준다.
English
Synthesizing consistent and coherent long video remains a fundamental challenge. Existing methods suffer from semantic drift and narrative collapse over long horizons. We present A^2RD, an Agentic Auto-Regressive Diffusion architecture that decouples creative synthesis from consistency enforcement. A^2RD formulates long video synthesis as a closed-loop process that synthesizes and self-improves video segment-by-segment through a Retrieve--Synthesize--Refine--Update cycle. It comprises three core components: (i) Multimodal Video Memory that tracks video progression across modalities; (ii) Adaptive Segment Generation that switches among generation modes for natural progression and visual consistency; and (iii) Hierarchical Test-Time Self-Improvement that self-improves each segment at frame and video levels to prevent error propagation. We further introduce LVBench-C, a challenging benchmark with non-linear entity and environment transitions to stress-test long-horizon consistency. Across public and LVBench-C benchmarks spanning one- to ten-minute videos, A^2RD outperforms state-of-the-art baselines by up to 30% in consistency and 20% in narrative coherence. Human evaluations corroborate these gains while also highlighting notable improvements in motion and transition smoothness.
PDF121May 12, 2026