Antes de Responder: Aprendizaje a Partir de Postentrenamiento con Base Visual

Resumen

Es fundamental que los modelos de visión y lenguaje (VLM, por sus siglas en inglés) comprendan exhaustivamente las señales visuales, temporales y textuales. Sin embargo, a pesar del rápido progreso en el modelado multimodal, el rendimiento en la comprensión de vídeos sigue estando por detrás del razonamiento basado en texto. En este trabajo, descubrimos que el progreso es incluso peor de lo que se suponía: los puntos de referencia de comprensión de vídeos largos comúnmente reportados contienen entre un 40% y un 60% de preguntas que pueden responderse utilizando únicamente señales de texto. Además, encontramos que estos problemas también son omnipresentes en los conjuntos de datos de post-entrenamiento de uso generalizado, lo que potencialmente socava la capacidad del post-entrenamiento para mejorar el rendimiento de los VLM en la comprensión de vídeos. Guiados por esta observación, presentamos VidGround como una solución simple pero efectiva: utilizar solo las preguntas realmente ancladas en lo visual, sin ningún sesgo lingüístico, para el post-entrenamiento. Cuando se utiliza junto con algoritmos de post-entrenamiento basados en aprendizaje por refuerzo, esta técnica simple mejora el rendimiento hasta en 6.2 puntos en comparación con el uso del conjunto de datos completo, mientras utiliza solo el 69.1% de los datos originales de post-entrenamiento. Además, demostramos que la curación de datos con un algoritmo de post-entrenamiento simple supera a varias técnicas de post-entrenamiento más complejas, destacando que la calidad de los datos es un cuello de botella principal para mejorar la comprensión de vídeos en los VLM. Estos resultados subrayan la importancia de curar tanto los datos de post-entrenamiento como los puntos de referencia de evaluación que realmente requieren un anclaje visual para impulsar el desarrollo de VLM más capaces. Página del proyecto: http://vidground.etuagi.com.

English

It is critical for vision-language models (VLMs) to comprehensively understand visual, temporal, and textual cues. However, despite rapid progress in multimodal modeling, video understanding performance still lags behind text-based reasoning. In this work, we find that progress is even worse than previously assumed: commonly reported long video understanding benchmarks contain 40-60% of questions that can be answered using text cues alone. Furthermore, we find that these issues are also pervasive in widely used post-training datasets, potentially undercutting the ability of post-training to improve VLM video understanding performance. Guided by this observation, we introduce VidGround as a simple yet effective solution: using only the actual visually grounded questions without any linguistic biases for post-training. When used in tandem with RL-based post-training algorithms, this simple technique improves performance by up to 6.2 points relative to using the full dataset, while using only 69.1% of the original post-training data. Moreover, we show that data curation with a simple post-training algorithm outperforms several more complex post-training techniques, highlighting that data quality is a major bottleneck for improving video understanding in VLMs. These results underscore the importance of curating post-training data and evaluation benchmarks that truly require visual grounding to advance the development of more capable VLMs. Project page: http://vidground.etuagi.com.

Antes de Responder: Aprendizaje a Partir de Postentrenamiento con Base Visual

Watch Before You Answer: Learning from Visually Grounded Post-Training

Resumen

Support