AV-Reasoner: Verbetering en Benchmarking van Clue-Gegronde Audio-Visuele Tellen voor MLLM's

Samenvatting

Ondanks vooruitgang in videobegrip, hebben huidige MLLM's moeite met tel taken. Bestaande benchmarks zijn beperkt door korte video's, gesloten vragen, gebrek aan aanwijzing annotaties en zwakke multimodale dekking. In dit artikel introduceren we CG-AV-Counting, een handmatig geannoteerde aanwijzing-gebaseerde tel benchmark met 1.027 multimodale vragen en 5.845 geannoteerde aanwijzingen over 497 lange video's. Het ondersteunt zowel black-box als white-box evaluatie, en dient als een uitgebreide testomgeving voor zowel end-to-end als redenering-gebaseerd tellen. Om manieren te verkennen om het telvermogen van modellen te verbeteren, stellen we AV-Reasoner voor, een model getraind met GRPO en curriculum learning om telvermogen te generaliseren vanuit gerelateerde taken. AV-Reasoner behaalt state-of-the-art resultaten over meerdere benchmarks, wat de effectiviteit van reinforcement learning aantoont. Experimenten laten echter zien dat op out-of-domain benchmarks, redeneren in de taalruimte geen prestatieverbeteringen oplevert. De code en benchmark zijn vrijgegeven op https://av-reasoner.github.io.

English

Despite progress in video understanding, current MLLMs struggle with counting tasks. Existing benchmarks are limited by short videos, close-set queries, lack of clue annotations, and weak multimodal coverage. In this paper, we introduce CG-AV-Counting, a manually-annotated clue-grounded counting benchmark with 1,027 multimodal questions and 5,845 annotated clues over 497 long videos. It supports both black-box and white-box evaluation, serving as a comprehensive testbed for both end-to-end and reasoning-based counting. To explore ways to improve model's counting capability, we propose AV-Reasoner, a model trained with GRPO and curriculum learning to generalize counting ability from related tasks. AV-Reasoner achieves state-of-the-art results across multiple benchmarks, demonstrating the effectiveness of reinforcement learning. However, experiments show that on out-of-domain benchmarks, reasoning in the language space fails to bring performance gains. The code and benchmark have been realeased on https://av-reasoner.github.io.

AV-Reasoner: Verbetering en Benchmarking van Clue-Gegronde Audio-Visuele Tellen voor MLLM's

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

Samenvatting

Support