ChatPaper.aiChatPaper

回答する前に視覚的に確認する:視覚的基盤に基づく事後学習からの学び

Watch Before You Answer: Learning from Visually Grounded Post-Training

April 6, 2026
著者: Yuxuan Zhang, EunJeong Hwang, Huaisong Zhang, Penghui Du, Yiming Jia, Dongfu Jiang, Xuan He, Shenhui Zhang, Ping Nie, Peter West, Kelsey R. Allen
cs.AI

要旨

視覚言語モデル(VLM)にとって、視覚的・時間的・テキスト的な手がかりを包括的に理解することは極めて重要である。しかし、マルチモーダルモデリングが急速に進歩しているにもかかわらず、映像理解の性能は依然としてテキストベースの推論に後れを取っている。本研究では、この進歩が従来考えられていた以上に遅れていることを明らかにする:一般的に報告されている長尺映像理解ベンチマークの40〜60%の問題は、テキスト手がかりのみで回答可能である。さらに、この問題が広く利用されているポストトレーニングデータセットにも蔓延しており、ポストトレーニングがVLMの映像理解性能を向上させる能力を潜在的に損なっている可能性がある。この観察に基づき、我々はVidGroundをシンプルかつ効果的な解決策として提案する:言語的バイアスを一切含まない、純粋に視覚に基づいた問題のみをポストトレーニングに利用する。RLベースのポストトレーニングアルゴリズムと併用した場合、このシンプルな技術は、全データセットを使用する場合と比較して最大6.2ポイントの性能向上をもたらし、しかも元のポストトレーニングデータの69.1%のみを使用する。さらに、シンプルなポストトレーニングアルゴリズムを用いたデータ精選が、いくつかのより複雑なポストトレーニング技術を上回ることを示し、データ品質がVLMの映像理解を改善する上での主要なボトルネックであることを浮き彫りにする。これらの結果は、より優れたVLMの開発を推進するためには、真に視覚的基盤を必要とするポストトレーニングデータと評価ベンチマークを精選することの重要性を強調している。プロジェクトページ: http://vidground.etuagi.com
English
It is critical for vision-language models (VLMs) to comprehensively understand visual, temporal, and textual cues. However, despite rapid progress in multimodal modeling, video understanding performance still lags behind text-based reasoning. In this work, we find that progress is even worse than previously assumed: commonly reported long video understanding benchmarks contain 40-60% of questions that can be answered using text cues alone. Furthermore, we find that these issues are also pervasive in widely used post-training datasets, potentially undercutting the ability of post-training to improve VLM video understanding performance. Guided by this observation, we introduce VidGround as a simple yet effective solution: using only the actual visually grounded questions without any linguistic biases for post-training. When used in tandem with RL-based post-training algorithms, this simple technique improves performance by up to 6.2 points relative to using the full dataset, while using only 69.1% of the original post-training data. Moreover, we show that data curation with a simple post-training algorithm outperforms several more complex post-training techniques, highlighting that data quality is a major bottleneck for improving video understanding in VLMs. These results underscore the importance of curating post-training data and evaluation benchmarks that truly require visual grounding to advance the development of more capable VLMs. Project page: http://vidground.etuagi.com.
PDF241April 9, 2026