Bevor Sie antworten: Lernen aus visuell fundiertem Nachträglichem Training
Watch Before You Answer: Learning from Visually Grounded Post-Training
April 6, 2026
Autoren: Yuxuan Zhang, EunJeong Hwang, Huaisong Zhang, Penghui Du, Yiming Jia, Dongfu Jiang, Xuan He, Shenhui Zhang, Ping Nie, Peter West, Kelsey R. Allen
cs.AI
Zusammenfassung
Es ist entscheidend für Vision-Language-Modelle (VLMs), visuelle, zeitliche und textuelle Hinweise umfassend zu verstehen. Trotz rasanter Fortschritte in der multimodalen Modellierung bleibt die Video-Verstehensleistung jedoch hinter textbasiertem Schließen zurück. In dieser Arbeit stellen wir fest, dass die Fortschritte sogar schlechter sind als bisher angenommen: Häufig berichtete Benchmarks zum Verstehen langer Videos enthalten 40–60 % der Fragen, die allein mit Textinformationen beantwortet werden können. Darüber hinaus stellen wir fest, dass diese Probleme auch in weit verbreiteten Post-Training-Datensätzen allgegenwärtig sind, was die Fähigkeit des Post-Trainings, die Video-Verstehensleistung von VLMs zu verbessern, potenziell beeinträchtigt. Aufbauend auf dieser Beobachtung führen wir VidGround als einfache, aber effektive Lösung ein: Es werden ausschließlich die tatsächlich visuell verankerten Fragen ohne sprachliche Verzerrungen für das Post-Training verwendet. Wenn diese Technik in Verbindung mit RL-basierten Post-Training-Algorithmen eingesetzt wird, verbessert sie die Leistung um bis zu 6,2 Punkte im Vergleich zur Verwendung des vollständigen Datensatzes, wobei nur 69,1 % der ursprünglichen Post-Training-Daten genutzt werden. Darüber hinaus zeigen wir, dass die Datenkuratierung mit einem einfachen Post-Training-Algorithmus mehrere komplexere Post-Training-Techniken übertrifft, was verdeutlicht, dass die Datenqualität ein Hauptengpass für die Verbesserung des Video-Verstehens in VLMs ist. Diese Ergebnisse unterstreichen die Bedeutung der Kuratierung von Post-Training-Daten und Evaluierungsbenchmarks, die tatsächlich visuelle Verankerung erfordern, um die Entwicklung leistungsfähigerer VLMs voranzutreiben. Projektseite: http://vidground.etuagi.com.
English
It is critical for vision-language models (VLMs) to comprehensively understand visual, temporal, and textual cues. However, despite rapid progress in multimodal modeling, video understanding performance still lags behind text-based reasoning. In this work, we find that progress is even worse than previously assumed: commonly reported long video understanding benchmarks contain 40-60% of questions that can be answered using text cues alone. Furthermore, we find that these issues are also pervasive in widely used post-training datasets, potentially undercutting the ability of post-training to improve VLM video understanding performance. Guided by this observation, we introduce VidGround as a simple yet effective solution: using only the actual visually grounded questions without any linguistic biases for post-training. When used in tandem with RL-based post-training algorithms, this simple technique improves performance by up to 6.2 points relative to using the full dataset, while using only 69.1% of the original post-training data. Moreover, we show that data curation with a simple post-training algorithm outperforms several more complex post-training techniques, highlighting that data quality is a major bottleneck for improving video understanding in VLMs. These results underscore the importance of curating post-training data and evaluation benchmarks that truly require visual grounding to advance the development of more capable VLMs. Project page: http://vidground.etuagi.com.