Смотри, прежде чем отвечать: обучение на основе визуально обоснованных данных после тренировки
Watch Before You Answer: Learning from Visually Grounded Post-Training
April 6, 2026
Авторы: Yuxuan Zhang, EunJeong Hwang, Huaisong Zhang, Penghui Du, Yiming Jia, Dongfu Jiang, Xuan He, Shenhui Zhang, Ping Nie, Peter West, Kelsey R. Allen
cs.AI
Аннотация
Для моделей, объединяющих зрение и язык (Vision-Language Models, VLM), критически важно всестороннее понимание визуальных, временных и текстовых сигналов. Однако, несмотря на быстрый прогресс в мультимодальном моделировании, производительность в задачах понимания видео по-прежнему отстает от текстовых рассуждений. В данной работе мы обнаруживаем, что прогресс еще хуже, чем предполагалось ранее: в общепринятых бенчмарках для оценки понимания длинных видео 40–60% вопросов могут быть решены с использованием исключительно текстовых сигналов. Более того, мы выясняем, что эти проблемы широко распространены в популярных наборах данных для пост-обучения, что потенциально подрывает способность пост-обучения улучшать понимание видео в VLM. Руководствуясь этим наблюдением, мы представляем VidGround как простое, но эффективное решение: для пост-обучения используются только вопросы, действительно требующие визуального заземления, без каких-либо лингвистических смещений. При использовании в tandem с алгоритмами пост-обучения на основе обучения с подкреплением (RL) эта простая методика повышает производительность до 6.2 пунктов по сравнению с использованием полного набора данных, при этом задействуя лишь 69.1% исходных данных для пост-обучения. Более того, мы показываем, что курирование данных в сочетании с простым алгоритмом пост-обучения превосходит несколько более сложных методов, что подчеркивает: качество данных является основным узким местом для улучшения понимания видео в VLM. Эти результаты подтверждают важность тщательного отбора данных для пост-обучения и оценочных бенчмарков, которые действительно требуют визуального заземления, для продвижения в разработке более совершенных VLM. Страница проекта: http://vidground.etuagi.com.
English
It is critical for vision-language models (VLMs) to comprehensively understand visual, temporal, and textual cues. However, despite rapid progress in multimodal modeling, video understanding performance still lags behind text-based reasoning. In this work, we find that progress is even worse than previously assumed: commonly reported long video understanding benchmarks contain 40-60% of questions that can be answered using text cues alone. Furthermore, we find that these issues are also pervasive in widely used post-training datasets, potentially undercutting the ability of post-training to improve VLM video understanding performance. Guided by this observation, we introduce VidGround as a simple yet effective solution: using only the actual visually grounded questions without any linguistic biases for post-training. When used in tandem with RL-based post-training algorithms, this simple technique improves performance by up to 6.2 points relative to using the full dataset, while using only 69.1% of the original post-training data. Moreover, we show that data curation with a simple post-training algorithm outperforms several more complex post-training techniques, highlighting that data quality is a major bottleneck for improving video understanding in VLMs. These results underscore the importance of curating post-training data and evaluation benchmarks that truly require visual grounding to advance the development of more capable VLMs. Project page: http://vidground.etuagi.com.