ChatPaper.aiChatPaper

AV-Reasoner: Verbesserung und Benchmarking der Hinweis-basierten Audio-Visuellen Zählung für MLLMs

AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs

June 5, 2025
Autoren: Lidong Lu, Guo Chen, Zhiqi Li, Yicheng Liu, Tong Lu
cs.AI

Zusammenfassung

Trotz Fortschritten im Bereich der Videoanalyse haben aktuelle Multimodale Large Language Models (MLLMs) Schwierigkeiten mit Zählaufgaben. Bestehende Benchmarks sind durch kurze Videos, geschlossene Fragestellungen, fehlende Hinweisannotationen und eine schwache multimodale Abdeckung eingeschränkt. In diesem Artikel stellen wir CG-AV-Counting vor, einen manuell annotierten, hinweisbasierten Zähl-Benchmark mit 1.027 multimodalen Fragen und 5.845 annotierten Hinweisen über 497 lange Videos. Er unterstützt sowohl Black-Box- als auch White-Box-Evaluierungen und dient als umfassende Testumgebung für sowohl end-to-end als auch auf Logik basierende Zählverfahren. Um Möglichkeiten zur Verbesserung der Zählfähigkeit von Modellen zu erforschen, schlagen wir AV-Reasoner vor, ein Modell, das mit GRPO und Curriculum Learning trainiert wurde, um die Zählfähigkeit von verwandten Aufgaben zu verallgemeinern. AV-Reasoner erzielt state-of-the-art Ergebnisse über mehrere Benchmarks hinweg und demonstriert die Wirksamkeit von Reinforcement Learning. Experimente zeigen jedoch, dass bei Benchmarks außerhalb des Trainingsbereichs das Schließen im Sprachraum keine Leistungssteigerungen bringt. Der Code und der Benchmark wurden unter https://av-reasoner.github.io veröffentlicht.
English
Despite progress in video understanding, current MLLMs struggle with counting tasks. Existing benchmarks are limited by short videos, close-set queries, lack of clue annotations, and weak multimodal coverage. In this paper, we introduce CG-AV-Counting, a manually-annotated clue-grounded counting benchmark with 1,027 multimodal questions and 5,845 annotated clues over 497 long videos. It supports both black-box and white-box evaluation, serving as a comprehensive testbed for both end-to-end and reasoning-based counting. To explore ways to improve model's counting capability, we propose AV-Reasoner, a model trained with GRPO and curriculum learning to generalize counting ability from related tasks. AV-Reasoner achieves state-of-the-art results across multiple benchmarks, demonstrating the effectiveness of reinforcement learning. However, experiments show that on out-of-domain benchmarks, reasoning in the language space fails to bring performance gains. The code and benchmark have been realeased on https://av-reasoner.github.io.
PDF201June 6, 2025