ChatPaper.aiChatPaper

AV-Reasoner: Miglioramento e Benchmarking del Conteggio Audio-Visuale Basato su Indizi per i Modelli Multimodali di Linguaggio

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

June 5, 2025
Autori: Lidong Lu, Guo Chen, Zhiqi Li, Yicheng Liu, Tong Lu
cs.AI

Abstract

Nonostante i progressi nella comprensione video, gli attuali MLLM (Modelli Multimodali di Linguaggio) incontrano difficoltà nei compiti di conteggio. I benchmark esistenti sono limitati da video brevi, query a scelta chiusa, mancanza di annotazioni di indizi e una copertura multimodale debole. In questo articolo, introduciamo CG-AV-Counting, un benchmark di conteggio basato su indizi annotati manualmente, con 1.027 domande multimodali e 5.845 indizi annotati su 497 video lunghi. Supporta sia la valutazione in modalità black-box che white-box, fungendo da test completo sia per il conteggio end-to-end che basato sul ragionamento. Per esplorare modi per migliorare la capacità di conteggio dei modelli, proponiamo AV-Reasoner, un modello addestrato con GRPO e apprendimento curriculare per generalizzare la capacità di conteggio da compiti correlati. AV-Reasoner ottiene risultati all'avanguardia su più benchmark, dimostrando l'efficacia del reinforcement learning. Tuttavia, gli esperimenti mostrano che su benchmark fuori dominio, il ragionamento nello spazio linguistico non porta a miglioramenti delle prestazioni. Il codice e il benchmark sono stati rilasciati su https://av-reasoner.github.io.
English
Despite progress in video understanding, current MLLMs struggle with counting tasks. Existing benchmarks are limited by short videos, close-set queries, lack of clue annotations, and weak multimodal coverage. In this paper, we introduce CG-AV-Counting, a manually-annotated clue-grounded counting benchmark with 1,027 multimodal questions and 5,845 annotated clues over 497 long videos. It supports both black-box and white-box evaluation, serving as a comprehensive testbed for both end-to-end and reasoning-based counting. To explore ways to improve model's counting capability, we propose AV-Reasoner, a model trained with GRPO and curriculum learning to generalize counting ability from related tasks. AV-Reasoner achieves state-of-the-art results across multiple benchmarks, demonstrating the effectiveness of reinforcement learning. However, experiments show that on out-of-domain benchmarks, reasoning in the language space fails to bring performance gains. The code and benchmark have been realeased on https://av-reasoner.github.io.
PDF201June 6, 2025