AV-Reasoner: Mejora y Evaluación Comparativa del Conteo Audio-Visual Basado en Pistas para MLLMs
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
June 5, 2025
Autores: Lidong Lu, Guo Chen, Zhiqi Li, Yicheng Liu, Tong Lu
cs.AI
Resumen
A pesar de los avances en la comprensión de videos, los modelos de lenguaje multimodal (MLLMs) actuales tienen dificultades con las tareas de conteo. Los puntos de referencia existentes están limitados por videos cortos, consultas de conjunto cerrado, falta de anotaciones de pistas y una cobertura multimodal débil. En este artículo, presentamos CG-AV-Counting, un punto de referencia de conteo basado en pistas y anotado manualmente, que incluye 1,027 preguntas multimodales y 5,845 pistas anotadas en 497 videos largos. Este soporta tanto la evaluación de caja negra como de caja blanca, sirviendo como un banco de pruebas integral para el conteo tanto de extremo a extremo como basado en razonamiento. Para explorar formas de mejorar la capacidad de conteo de los modelos, proponemos AV-Reasoner, un modelo entrenado con GRPO y aprendizaje curricular para generalizar la habilidad de conteo a partir de tareas relacionadas. AV-Reasoner logra resultados de vanguardia en múltiples puntos de referencia, demostrando la efectividad del aprendizaje por refuerzo. Sin embargo, los experimentos muestran que, en puntos de referencia fuera del dominio, el razonamiento en el espacio del lenguaje no aporta mejoras en el rendimiento. El código y el punto de referencia han sido publicados en https://av-reasoner.github.io.
English
Despite progress in video understanding, current MLLMs struggle with counting
tasks. Existing benchmarks are limited by short videos, close-set queries, lack
of clue annotations, and weak multimodal coverage. In this paper, we introduce
CG-AV-Counting, a manually-annotated clue-grounded counting benchmark with
1,027 multimodal questions and 5,845 annotated clues over 497 long videos. It
supports both black-box and white-box evaluation, serving as a comprehensive
testbed for both end-to-end and reasoning-based counting. To explore ways to
improve model's counting capability, we propose AV-Reasoner, a model trained
with GRPO and curriculum learning to generalize counting ability from related
tasks. AV-Reasoner achieves state-of-the-art results across multiple
benchmarks, demonstrating the effectiveness of reinforcement learning. However,
experiments show that on out-of-domain benchmarks, reasoning in the language
space fails to bring performance gains. The code and benchmark have been
realeased on https://av-reasoner.github.io.