Regardez avant de répondre : Apprentissage par post-formation visuellement ancrée
Watch Before You Answer: Learning from Visually Grounded Post-Training
April 6, 2026
Auteurs: Yuxuan Zhang, EunJeong Hwang, Huaisong Zhang, Penghui Du, Yiming Jia, Dongfu Jiang, Xuan He, Shenhui Zhang, Ping Nie, Peter West, Kelsey R. Allen
cs.AI
Résumé
Il est crucial que les modèles vision-langage (VLM) comprennent de manière exhaustive les indices visuels, temporels et textuels. Cependant, malgré les progrès rapides en modélisation multimodale, les performances en compréhension vidéo restent à la traîne par rapport au raisonnement basé sur le texte. Dans ce travail, nous constatons que la situation est pire que ce qui était supposé : les benchmarks couramment rapportés pour la compréhension de vidéos longues contiennent 40 à 60 % de questions pouvant être résolues en utilisant les seuls indices textuels. De plus, nous observons que ces problèmes sont également omniprésents dans les ensembles de données de post-formation largement utilisés, compromettant potentiellement leur capacité à améliorer les performances des VLM en compréhension vidéo. Guidés par cette observation, nous présentons VidGround comme une solution simple mais efficace : n'utiliser pour la post-formation que les questions réellement ancrées visuellement, sans aucun biais linguistique. Employée conjointement avec des algorithmes de post-formation par apprentissage par renforcement, cette technique simple améliore les performances jusqu'à 6,2 points par rapport à l'utilisation du jeu de données complet, tout en n'utilisant que 69,1 % des données de post-formation originales. Par ailleurs, nous montrons qu'une curation des données avec un algorithme de post-formation simple surpasse plusieurs techniques de post-formation plus complexes, soulignant que la qualité des données est un goulot d'étranglement majeur pour l'amélioration de la compréhension vidéo des VLM. Ces résultats soulignent l'importance de curer les données de post-formation et les benchmarks d'évaluation qui exigent véritablement un ancrage visuel pour faire progresser le développement de VLM plus performants. Page du projet : http://vidground.etuagi.com.
English
It is critical for vision-language models (VLMs) to comprehensively understand visual, temporal, and textual cues. However, despite rapid progress in multimodal modeling, video understanding performance still lags behind text-based reasoning. In this work, we find that progress is even worse than previously assumed: commonly reported long video understanding benchmarks contain 40-60% of questions that can be answered using text cues alone. Furthermore, we find that these issues are also pervasive in widely used post-training datasets, potentially undercutting the ability of post-training to improve VLM video understanding performance. Guided by this observation, we introduce VidGround as a simple yet effective solution: using only the actual visually grounded questions without any linguistic biases for post-training. When used in tandem with RL-based post-training algorithms, this simple technique improves performance by up to 6.2 points relative to using the full dataset, while using only 69.1% of the original post-training data. Moreover, we show that data curation with a simple post-training algorithm outperforms several more complex post-training techniques, highlighting that data quality is a major bottleneck for improving video understanding in VLMs. These results underscore the importance of curating post-training data and evaluation benchmarks that truly require visual grounding to advance the development of more capable VLMs. Project page: http://vidground.etuagi.com.