AV-Reasoner: Verbetering en Benchmarking van Clue-Gegronde Audio-Visuele Tellen voor MLLM's
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
June 5, 2025
Auteurs: Lidong Lu, Guo Chen, Zhiqi Li, Yicheng Liu, Tong Lu
cs.AI
Samenvatting
Ondanks vooruitgang in videobegrip, hebben huidige MLLM's moeite met tel taken. Bestaande benchmarks zijn beperkt door korte video's, gesloten vragen, gebrek aan aanwijzing annotaties en zwakke multimodale dekking. In dit artikel introduceren we CG-AV-Counting, een handmatig geannoteerde aanwijzing-gebaseerde tel benchmark met 1.027 multimodale vragen en 5.845 geannoteerde aanwijzingen over 497 lange video's. Het ondersteunt zowel black-box als white-box evaluatie, en dient als een uitgebreide testomgeving voor zowel end-to-end als redenering-gebaseerd tellen. Om manieren te verkennen om het telvermogen van modellen te verbeteren, stellen we AV-Reasoner voor, een model getraind met GRPO en curriculum learning om telvermogen te generaliseren vanuit gerelateerde taken. AV-Reasoner behaalt state-of-the-art resultaten over meerdere benchmarks, wat de effectiviteit van reinforcement learning aantoont. Experimenten laten echter zien dat op out-of-domain benchmarks, redeneren in de taalruimte geen prestatieverbeteringen oplevert. De code en benchmark zijn vrijgegeven op https://av-reasoner.github.io.
English
Despite progress in video understanding, current MLLMs struggle with counting
tasks. Existing benchmarks are limited by short videos, close-set queries, lack
of clue annotations, and weak multimodal coverage. In this paper, we introduce
CG-AV-Counting, a manually-annotated clue-grounded counting benchmark with
1,027 multimodal questions and 5,845 annotated clues over 497 long videos. It
supports both black-box and white-box evaluation, serving as a comprehensive
testbed for both end-to-end and reasoning-based counting. To explore ways to
improve model's counting capability, we propose AV-Reasoner, a model trained
with GRPO and curriculum learning to generalize counting ability from related
tasks. AV-Reasoner achieves state-of-the-art results across multiple
benchmarks, demonstrating the effectiveness of reinforcement learning. However,
experiments show that on out-of-domain benchmarks, reasoning in the language
space fails to bring performance gains. The code and benchmark have been
realeased on https://av-reasoner.github.io.