AV-Reasoner: Aprimorando e Avaliando a Contagem Áudio-Visual Baseada em Pistas para MLLMs

Resumo

Apesar dos avanços na compreensão de vídeos, os MLLMs atuais enfrentam dificuldades em tarefas de contagem. Os benchmarks existentes são limitados por vídeos curtos, consultas de conjunto fechado, falta de anotações de pistas e cobertura multimodal fraca. Neste artigo, apresentamos o CG-AV-Counting, um benchmark de contagem baseado em pistas anotadas manualmente, com 1.027 questões multimodais e 5.845 pistas anotadas em 497 vídeos longos. Ele suporta avaliações de caixa preta e caixa branca, servindo como um ambiente de teste abrangente tanto para contagem de ponta a ponta quanto baseada em raciocínio. Para explorar maneiras de melhorar a capacidade de contagem dos modelos, propomos o AV-Reasoner, um modelo treinado com GRPO e aprendizado curricular para generalizar a habilidade de contagem a partir de tarefas relacionadas. O AV-Reasoner alcança resultados state-of-the-art em vários benchmarks, demonstrando a eficácia do aprendizado por reforço. No entanto, experimentos mostram que, em benchmarks fora do domínio, o raciocínio no espaço da linguagem não traz ganhos de desempenho. O código e o benchmark foram disponibilizados em https://av-reasoner.github.io.

English

Despite progress in video understanding, current MLLMs struggle with counting tasks. Existing benchmarks are limited by short videos, close-set queries, lack of clue annotations, and weak multimodal coverage. In this paper, we introduce CG-AV-Counting, a manually-annotated clue-grounded counting benchmark with 1,027 multimodal questions and 5,845 annotated clues over 497 long videos. It supports both black-box and white-box evaluation, serving as a comprehensive testbed for both end-to-end and reasoning-based counting. To explore ways to improve model's counting capability, we propose AV-Reasoner, a model trained with GRPO and curriculum learning to generalize counting ability from related tasks. AV-Reasoner achieves state-of-the-art results across multiple benchmarks, demonstrating the effectiveness of reinforcement learning. However, experiments show that on out-of-domain benchmarks, reasoning in the language space fails to bring performance gains. The code and benchmark have been realeased on https://av-reasoner.github.io.

AV-Reasoner: Aprimorando e Avaliando a Contagem Áudio-Visual Baseada em Pistas para MLLMs

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

Resumo

Support