Antes de Responder: Aprendizado com Pós-treinamento Visualmente Fundamentado
Watch Before You Answer: Learning from Visually Grounded Post-Training
April 6, 2026
Autores: Yuxuan Zhang, EunJeong Hwang, Huaisong Zhang, Penghui Du, Yiming Jia, Dongfu Jiang, Xuan He, Shenhui Zhang, Ping Nie, Peter West, Kelsey R. Allen
cs.AI
Resumo
É fundamental que os modelos visão-linguagem (VLMs) compreendam de forma abrangente os sinais visuais, temporais e textuais. No entanto, apesar do rápido progresso na modelagem multimodal, o desempenho na compreensão de vídeo ainda fica aquém do raciocínio baseado em texto. Neste trabalho, descobrimos que o progresso é ainda pior do que se supunha anteriormente: os benchmarks de compreensão de vídeos longos comumente relatados contêm 40 a 60% das perguntas que podem ser respondidas usando apenas sinais textuais. Além disso, descobrimos que essas questões também são predominantes em conjuntos de dados de pós-treinamento amplamente utilizados, potencialmente prejudicando a capacidade do pós-treinamento de melhorar o desempenho de compreensão de vídeo dos VLMs. Guiados por essa observação, introduzimos o VidGround como uma solução simples, mas eficaz: utilizando apenas as perguntas visualmente fundamentadas reais, sem quaisquer vieses linguísticos para o pós-treinamento. Quando usado em conjunto com algoritmos de pós-treinamento baseados em RL, esta técnica simples melhora o desempenho em até 6,2 pontos em relação ao uso do conjunto de dados completo, utilizando apenas 69,1% dos dados originais de pós-treinamento. Além disso, mostramos que a curadoria de dados com um algoritmo de pós-treinamento simples supera várias técnicas de pós-treinamento mais complexas, destacando que a qualidade dos dados é um grande gargalo para melhorar a compreensão de vídeo em VLMs. Esses resultados ressaltam a importância de realizar a curadoria de dados de pós-treinamento e benchmarks de avaliação que realmente exijam fundamentação visual para avançar o desenvolvimento de VLMs mais capazes. Página do projeto: http://vidground.etuagi.com.
English
It is critical for vision-language models (VLMs) to comprehensively understand visual, temporal, and textual cues. However, despite rapid progress in multimodal modeling, video understanding performance still lags behind text-based reasoning. In this work, we find that progress is even worse than previously assumed: commonly reported long video understanding benchmarks contain 40-60% of questions that can be answered using text cues alone. Furthermore, we find that these issues are also pervasive in widely used post-training datasets, potentially undercutting the ability of post-training to improve VLM video understanding performance. Guided by this observation, we introduce VidGround as a simple yet effective solution: using only the actual visually grounded questions without any linguistic biases for post-training. When used in tandem with RL-based post-training algorithms, this simple technique improves performance by up to 6.2 points relative to using the full dataset, while using only 69.1% of the original post-training data. Moreover, we show that data curation with a simple post-training algorithm outperforms several more complex post-training techniques, highlighting that data quality is a major bottleneck for improving video understanding in VLMs. These results underscore the importance of curating post-training data and evaluation benchmarks that truly require visual grounding to advance the development of more capable VLMs. Project page: http://vidground.etuagi.com.