ChatPaper.aiChatPaper

LongVPO: 고정된 단서에서 자가 추론으로의 장편 영화 선호도 최적화

LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization

February 2, 2026
저자: Zhenpeng Huang, Jiaqi Li, Zihan Jia, Xinhao Li, Desen Meng, Lingxue Song, Xi Chen, Liang Li, Limin Wang
cs.AI

초록

우리는 단일 단기 영상에 기반한 시각-언어 모델이 장기 영상 주석 없이도 초장기 영상을 강건하게 이해할 수 있도록 하는 새로운 2단계 직접 선호도 최적화(DPO) 프레임워크인 LongVPO를 제안한다. 1단계에서는 질문을 개별 단일 클립에 고정하고, 이를 방해 요소들과 교차 배치하며, 시각적 유사도 및 질문 특이성 필터링을 적용하여 위치 편향을 완화하고 명확한 지도를 보장하는 방식으로 선호도 삼항 데이터를 합성한다. 또한 기준 모델의 장기 문맥 점수 평가를 고정 클립만으로 근사화하여 계산 부담을 줄인다. 2단계에서는 장기 영상에 대해 재귀적 캡션 생성 파이프라인을 적용하여 장면 수준 메타데이터를 생성한 후, 대규모 언어 모델을 활용하여 다중 세그먼트 추론 질의와 비선호 응답을 생성함으로써 다중 세그먼트 추론 과제를 통해 모델의 선호도를 정렬한다. 단 16K개의 합성 예시와 값비싼 인간 주석 없이도 LongVPO는 여러 장기 영상 벤치마크에서 최첨단 오픈소스 모델들을 능가하며, 강력한 단기 영상 성능(예: MVBench 기준)을 유지함으로써 효율적인 장편 영상 이해를 위한 확장 가능한 패러다임을 제시한다.
English
We present LongVPO, a novel two-stage Direct Preference Optimization framework that enables short-context vision-language models to robustly understand ultra-long videos without any long-video annotations. In Stage 1, we synthesize preference triples by anchoring questions to individual short clips, interleaving them with distractors, and applying visual-similarity and question-specificity filtering to mitigate positional bias and ensure unambiguous supervision. We also approximate the reference model's scoring over long contexts by evaluating only the anchor clip, reducing computational overhead. In Stage 2, we employ a recursive captioning pipeline on long videos to generate scene-level metadata, then use a large language model to craft multi-segment reasoning queries and dispreferred responses, aligning the model's preferences through multi-segment reasoning tasks. With only 16K synthetic examples and no costly human labels, LongVPO outperforms the state-of-the-art open-source models on multiple long-video benchmarks, while maintaining strong short-video performance (e.g., on MVBench), offering a scalable paradigm for efficient long-form video understanding.
PDF11February 6, 2026