답변하기 전에 시각 정보를 확인하세요: 시각적 근거를 활용한 사후 학습
Watch Before You Answer: Learning from Visually Grounded Post-Training
April 6, 2026
저자: Yuxuan Zhang, EunJeong Hwang, Huaisong Zhang, Penghui Du, Yiming Jia, Dongfu Jiang, Xuan He, Shenhui Zhang, Ping Nie, Peter West, Kelsey R. Allen
cs.AI
초록
비전-언어 모델(VLM)이 시각적, 시간적, 텍스트적 단서를 포괄적으로 이해하는 것은 매우 중요합니다. 그러나 다중모달 모델링의 급속한 발전에도 불구하고, 비디오 이해 성능은 여전히 텍스트 기반 추론에 뒤처지고 있습니다. 본 연구에서는 기존에 인식되었던 것보다 실제 진전이 더 더디다는 점을 발견했습니다: 일반적으로 보고되는 장편 비디오 이해 벤치마크의 40-60%에 해당하는 질문들은 텍스트 단서만으로도 답변이 가능합니다. 더 나아가, 이러한 문제점이 널리 사용되는 사후 학습 데이터셋에서도 만연해 있어, 사후 학습이 VLM의 비디오 이해 성능을 향상시키는 능력을 잠재적으로 약화시키고 있음을 확인했습니다. 이러한 관찰을 바탕으로 우리는 간단하면서도 효과적인 해결책인 VidGround를 제안합니다. 이는 언어적 편향 없이 오직 실제 시각적으로 근거(grounding)가 필요한 질문만을 선별하여 사후 학습에 활용하는 방법입니다. RL 기반 사후 학습 알고리즘과 함께 사용할 때, 이 간단한 기법은 전체 데이터셋을 사용하는 대비 최대 6.2점의 성능 향상을 달성했으며, 원본 사후 학습 데이터의 69.1%만을 사용했습니다. 또한, 간단한 사후 학습 알고리즘과 함께 데이터를 정제하는 것이 여러 복잡한 사후 학습 기법들을 능가함을 보여주며, 데이터 품질이 VLM의 비디오 이해 능력 향상에 있어 주요 병목 현상임을 강조합니다. 이러한 결과들은 더 능력 있는 VLM의 발전을 촉진하기 위해 진정으로 시각적 근거를 필요로 하는 사후 학습 데이터와 평가 벤치마크를 정교하게 구성하는 것의 중요성을 부각합니다. 프로젝트 페이지: http://vidground.etuagi.com.
English
It is critical for vision-language models (VLMs) to comprehensively understand visual, temporal, and textual cues. However, despite rapid progress in multimodal modeling, video understanding performance still lags behind text-based reasoning. In this work, we find that progress is even worse than previously assumed: commonly reported long video understanding benchmarks contain 40-60% of questions that can be answered using text cues alone. Furthermore, we find that these issues are also pervasive in widely used post-training datasets, potentially undercutting the ability of post-training to improve VLM video understanding performance. Guided by this observation, we introduce VidGround as a simple yet effective solution: using only the actual visually grounded questions without any linguistic biases for post-training. When used in tandem with RL-based post-training algorithms, this simple technique improves performance by up to 6.2 points relative to using the full dataset, while using only 69.1% of the original post-training data. Moreover, we show that data curation with a simple post-training algorithm outperforms several more complex post-training techniques, highlighting that data quality is a major bottleneck for improving video understanding in VLMs. These results underscore the importance of curating post-training data and evaluation benchmarks that truly require visual grounding to advance the development of more capable VLMs. Project page: http://vidground.etuagi.com.