AV-Reasoner: Aprimorando e Avaliando a Contagem Áudio-Visual Baseada em Pistas para MLLMs
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
June 5, 2025
Autores: Lidong Lu, Guo Chen, Zhiqi Li, Yicheng Liu, Tong Lu
cs.AI
Resumo
Apesar dos avanços na compreensão de vídeos, os MLLMs atuais enfrentam dificuldades em tarefas de contagem. Os benchmarks existentes são limitados por vídeos curtos, consultas de conjunto fechado, falta de anotações de pistas e cobertura multimodal fraca. Neste artigo, apresentamos o CG-AV-Counting, um benchmark de contagem baseado em pistas anotadas manualmente, com 1.027 questões multimodais e 5.845 pistas anotadas em 497 vídeos longos. Ele suporta avaliações de caixa preta e caixa branca, servindo como um ambiente de teste abrangente tanto para contagem de ponta a ponta quanto baseada em raciocínio. Para explorar maneiras de melhorar a capacidade de contagem dos modelos, propomos o AV-Reasoner, um modelo treinado com GRPO e aprendizado curricular para generalizar a habilidade de contagem a partir de tarefas relacionadas. O AV-Reasoner alcança resultados state-of-the-art em vários benchmarks, demonstrando a eficácia do aprendizado por reforço. No entanto, experimentos mostram que, em benchmarks fora do domínio, o raciocínio no espaço da linguagem não traz ganhos de desempenho. O código e o benchmark foram disponibilizados em https://av-reasoner.github.io.
English
Despite progress in video understanding, current MLLMs struggle with counting
tasks. Existing benchmarks are limited by short videos, close-set queries, lack
of clue annotations, and weak multimodal coverage. In this paper, we introduce
CG-AV-Counting, a manually-annotated clue-grounded counting benchmark with
1,027 multimodal questions and 5,845 annotated clues over 497 long videos. It
supports both black-box and white-box evaluation, serving as a comprehensive
testbed for both end-to-end and reasoning-based counting. To explore ways to
improve model's counting capability, we propose AV-Reasoner, a model trained
with GRPO and curriculum learning to generalize counting ability from related
tasks. AV-Reasoner achieves state-of-the-art results across multiple
benchmarks, demonstrating the effectiveness of reinforcement learning. However,
experiments show that on out-of-domain benchmarks, reasoning in the language
space fails to bring performance gains. The code and benchmark have been
realeased on https://av-reasoner.github.io.