Guarda Prima di Rispondere: Apprendimento da Addestramento Postumo con Base Visiva

Abstract

È fondamentale che i modelli visione-linguaggio (VLM) comprendano in modo completo gli indizi visivi, temporali e testuali. Tuttavia, nonostante i rapidi progressi nella modellazione multimodale, le prestazioni nella comprensione video rimangono inferiori rispetto al ragionamento basato sul testo. In questo lavoro, scopriamo che i progressi sono persino peggiori di quanto precedentemente ipotizzato: i benchmark comunemente riportati per la comprensione di video lunghi contengono il 40-60% di domande a cui è possibile rispondere utilizzando solo indizi testuali. Inoltre, riscontriamo che questi problemi sono pervasivi anche nei dataset di post-training ampiamente utilizzati, potenzialmente compromettendo la capacità del post-training di migliorare le prestazioni di comprensione video dei VLM. Guidati da questa osservazione, introduciamo VidGround come soluzione semplice ma efficace: utilizzando solo le domande effettivamente ancorate al visivo, senza alcun bias linguistico, per il post-training. Quando utilizzata in tandem con algoritmi di post-training basati su RL, questa semplice tecnica migliora le prestazioni fino a 6,2 punti rispetto all'utilizzo del dataset completo, pur impiegando solo il 69,1% dei dati originali di post-training. Inoltre, dimostriamo che la cura dei dati abbinata a un semplice algoritmo di post-training supera diverse tecniche di post-training più complesse, evidenziando come la qualità dei dati sia un collo di bottiglia principale per migliorare la comprensione video nei VLM. Questi risultati sottolineano l'importanza di curare i dati di post-training e i benchmark di valutazione che richiedono veramente un ancoraggio visivo per favorire lo sviluppo di VLM più capaci. Pagina del progetto: http://vidground.etuagi.com.

English

It is critical for vision-language models (VLMs) to comprehensively understand visual, temporal, and textual cues. However, despite rapid progress in multimodal modeling, video understanding performance still lags behind text-based reasoning. In this work, we find that progress is even worse than previously assumed: commonly reported long video understanding benchmarks contain 40-60% of questions that can be answered using text cues alone. Furthermore, we find that these issues are also pervasive in widely used post-training datasets, potentially undercutting the ability of post-training to improve VLM video understanding performance. Guided by this observation, we introduce VidGround as a simple yet effective solution: using only the actual visually grounded questions without any linguistic biases for post-training. When used in tandem with RL-based post-training algorithms, this simple technique improves performance by up to 6.2 points relative to using the full dataset, while using only 69.1% of the original post-training data. Moreover, we show that data curation with a simple post-training algorithm outperforms several more complex post-training techniques, highlighting that data quality is a major bottleneck for improving video understanding in VLMs. These results underscore the importance of curating post-training data and evaluation benchmarks that truly require visual grounding to advance the development of more capable VLMs. Project page: http://vidground.etuagi.com.

Guarda Prima di Rispondere: Apprendimento da Addestramento Postumo con Base Visiva

Watch Before You Answer: Learning from Visually Grounded Post-Training

Abstract

Support