Let op voordat je antwoordt: Leren van visueel ondersteunde nafundering

Samenvatting

Het is cruciaal voor vision-language modellen (VLM's) om visuele, temporele en tekstuele aanwijzingen volledig te begrijpen. Ondanks snelle vooruitgang in multimodale modellering blijft de prestaties op het gebied van videobegrip echter achter bij tekstgebaseerd redeneren. In dit werk constateren wij dat de vooruitgang zelfs slechter is dan voorheen werd aangenomen: algemeen gerapporteerde benchmarks voor lang videobegrip bevatten 40-60% van de vragen die uitsluitend met tekstuele aanwijzingen kunnen worden beantwoord. Bovendien stellen wij vast dat deze problemen ook wijdverbreid zijn in veelgebruikte post-training datasets, wat het vermogen van post-training om het videobegrip van VLM's te verbeteren potentieel ondermijnt. Geleid door deze observatie introduceren wij VidGround als een eenvoudige doch effectieve oplossing: het gebruik van alleen de daadwerkelijk visueel gegronde vragen, zonder linguïstische vertekeningen, voor post-training. Wanneer deze techniek in combinatie met RL-gebaseerde post-training algoritmen wordt gebruikt, verbetert de prestatie met tot 6,2 punten ten opzichte van het gebruik van de volledige dataset, terwijl slechts 69,1% van de oorspronkelijke post-training data wordt gebruikt. Bovendien tonen wij aan dat datacuratie met een eenvoudig post-training algoritme verschillende complexere post-training technieken overtreft, wat benadrukt dat data kwaliteit een grote bottleneck vormt voor het verbeteren van videobegrip in VLM's. Deze resultaten onderstrepen het belang van het samenstellen van post-training data en evaluatiebenchmarks die daadwerkelijk visuele gronding vereisen om de ontwikkeling van capabelere VLM's te bevorderen. Projectpagina: http://vidground.etuagi.com.

English

It is critical for vision-language models (VLMs) to comprehensively understand visual, temporal, and textual cues. However, despite rapid progress in multimodal modeling, video understanding performance still lags behind text-based reasoning. In this work, we find that progress is even worse than previously assumed: commonly reported long video understanding benchmarks contain 40-60% of questions that can be answered using text cues alone. Furthermore, we find that these issues are also pervasive in widely used post-training datasets, potentially undercutting the ability of post-training to improve VLM video understanding performance. Guided by this observation, we introduce VidGround as a simple yet effective solution: using only the actual visually grounded questions without any linguistic biases for post-training. When used in tandem with RL-based post-training algorithms, this simple technique improves performance by up to 6.2 points relative to using the full dataset, while using only 69.1% of the original post-training data. Moreover, we show that data curation with a simple post-training algorithm outperforms several more complex post-training techniques, highlighting that data quality is a major bottleneck for improving video understanding in VLMs. These results underscore the importance of curating post-training data and evaluation benchmarks that truly require visual grounding to advance the development of more capable VLMs. Project page: http://vidground.etuagi.com.

Let op voordat je antwoordt: Leren van visueel ondersteunde nafundering

Watch Before You Answer: Learning from Visually Grounded Post-Training

Samenvatting

Support