AV-Reasoner: Улучшение и тестирование аудиовизуального подсчета на основе подсказок для мультимодальных языковых моделей

Аннотация

Несмотря на прогресс в понимании видео, современные MLLM (многоязыковые языковые модели) испытывают трудности с задачами подсчета. Существующие бенчмарки ограничены короткими видео, закрытыми запросами, отсутствием аннотаций ключевых подсказок и слабым мультимодальным охватом. В данной статье мы представляем CG-AV-Counting — вручную аннотированный бенчмарк для подсчета, основанный на ключевых подсказках, содержащий 1 027 мультимодальных вопросов и 5 845 аннотированных подсказок для 497 длинных видео. Он поддерживает как черный, так и белый ящик для оценки, служа комплексной тестовой платформой для подсчета как в режиме end-to-end, так и на основе рассуждений. Чтобы изучить способы улучшения способности моделей к подсчету, мы предлагаем AV-Reasoner — модель, обученную с использованием GRPO и поэтапного обучения для обобщения способности к подсчету на основе связанных задач. AV-Reasoner достигает наилучших результатов на нескольких бенчмарках, демонстрируя эффективность обучения с подкреплением. Однако эксперименты показывают, что на бенчмарках вне домена рассуждения в языковом пространстве не приводят к улучшению производительности. Код и бенчмарк доступны на https://av-reasoner.github.io.

English

Despite progress in video understanding, current MLLMs struggle with counting tasks. Existing benchmarks are limited by short videos, close-set queries, lack of clue annotations, and weak multimodal coverage. In this paper, we introduce CG-AV-Counting, a manually-annotated clue-grounded counting benchmark with 1,027 multimodal questions and 5,845 annotated clues over 497 long videos. It supports both black-box and white-box evaluation, serving as a comprehensive testbed for both end-to-end and reasoning-based counting. To explore ways to improve model's counting capability, we propose AV-Reasoner, a model trained with GRPO and curriculum learning to generalize counting ability from related tasks. AV-Reasoner achieves state-of-the-art results across multiple benchmarks, demonstrating the effectiveness of reinforcement learning. However, experiments show that on out-of-domain benchmarks, reasoning in the language space fails to bring performance gains. The code and benchmark have been realeased on https://av-reasoner.github.io.