LongVPO: 固定された手がかりから自己推論へ向かう長尺動画選好最適化
LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization
February 2, 2026
著者: Zhenpeng Huang, Jiaqi Li, Zihan Jia, Xinhao Li, Desen Meng, Lingxue Song, Xi Chen, Liang Li, Limin Wang
cs.AI
要旨
本論文では、超長編動画を注釈データなしで頑健に理解可能な短期コンテキスト視覚言語モデルのための新規2段階Direct Preference Optimizationフレームワーク「LongVPO」を提案する。第1段階では、個々の短いクリップに質問を固定し、それらを分散要素で交互に配置し、視覚的類似性と質問特異性フィルタリングを適用することで選好トリプルを合成し、位置バイアスを軽減するとともに明確な監督を保証する。また、参照モデルの長文コンテキストにおけるスコアリングをアンカークリップのみで評価することで近似し、計算コストを削減する。第2段階では、長編動画に対して再帰的キャプションピプラインを適用してシーンレベルのメタデータを生成し、大規模言語モデルを用いて複数セグメントの推論クエリと非選好応答を構築することで、マルチセグメント推論タスクを通じてモデルの選好を整合させる。僅か16Kの合成事例と高コストな人手ラベルなしで、LongVPOは複数の長編動画ベンチマークにおいて最先端のオープンソースモデルを凌駕しつつ(例:MVBench)、強力な短編動画性能も維持する。これにより、効率的な長編動画理解のためのスケーラブルなパラダイムを提供する。
English
We present LongVPO, a novel two-stage Direct Preference Optimization framework that enables short-context vision-language models to robustly understand ultra-long videos without any long-video annotations. In Stage 1, we synthesize preference triples by anchoring questions to individual short clips, interleaving them with distractors, and applying visual-similarity and question-specificity filtering to mitigate positional bias and ensure unambiguous supervision. We also approximate the reference model's scoring over long contexts by evaluating only the anchor clip, reducing computational overhead. In Stage 2, we employ a recursive captioning pipeline on long videos to generate scene-level metadata, then use a large language model to craft multi-segment reasoning queries and dispreferred responses, aligning the model's preferences through multi-segment reasoning tasks. With only 16K synthetic examples and no costly human labels, LongVPO outperforms the state-of-the-art open-source models on multiple long-video benchmarks, while maintaining strong short-video performance (e.g., on MVBench), offering a scalable paradigm for efficient long-form video understanding.