ChatPaper.aiChatPaper

AV-Reasoner : Amélioration et évaluation comparative du décompte audio-visuel basé sur des indices pour les MLLM

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

June 5, 2025
Auteurs: Lidong Lu, Guo Chen, Zhiqi Li, Yicheng Liu, Tong Lu
cs.AI

Résumé

Malgré les progrès dans la compréhension vidéo, les modèles multilingues actuels (MLLMs) peinent à accomplir les tâches de décompte. Les benchmarks existants sont limités par des vidéos courtes, des requêtes fermées, l'absence d'annotations d'indices et une couverture multimodale insuffisante. Dans cet article, nous présentons CG-AV-Counting, un benchmark de décompte basé sur des indices, annoté manuellement, comprenant 1 027 questions multimodales et 5 845 indices annotés sur 497 vidéos longues. Il supporte à la fois l'évaluation en boîte noire et en boîte blanche, servant de plateforme de test complète pour le décompte de bout en bout et basé sur le raisonnement. Pour explorer des moyens d'améliorer la capacité de décompte des modèles, nous proposons AV-Reasoner, un modèle entraîné avec GRPO et l'apprentissage curriculaire pour généraliser la capacité de décompte à partir de tâches connexes. AV-Reasoner obtient des résultats de pointe sur plusieurs benchmarks, démontrant l'efficacité de l'apprentissage par renforcement. Cependant, les expériences montrent que sur des benchmarks hors domaine, le raisonnement dans l'espace linguistique n'apporte pas de gains de performance. Le code et le benchmark ont été publiés sur https://av-reasoner.github.io.
English
Despite progress in video understanding, current MLLMs struggle with counting tasks. Existing benchmarks are limited by short videos, close-set queries, lack of clue annotations, and weak multimodal coverage. In this paper, we introduce CG-AV-Counting, a manually-annotated clue-grounded counting benchmark with 1,027 multimodal questions and 5,845 annotated clues over 497 long videos. It supports both black-box and white-box evaluation, serving as a comprehensive testbed for both end-to-end and reasoning-based counting. To explore ways to improve model's counting capability, we propose AV-Reasoner, a model trained with GRPO and curriculum learning to generalize counting ability from related tasks. AV-Reasoner achieves state-of-the-art results across multiple benchmarks, demonstrating the effectiveness of reinforcement learning. However, experiments show that on out-of-domain benchmarks, reasoning in the language space fails to bring performance gains. The code and benchmark have been realeased on https://av-reasoner.github.io.
PDF201June 6, 2025