К универсальным видеомногорежимным большим языковым моделям с инструкциями, структурированными по атрибутам и проверенными на качество
Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions
February 13, 2026
Авторы: Yunheng Li, Hengrui Zhang, Meng-Hao Guo, Wenzhao Gao, Shaoyong Jia, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng
cs.AI
Аннотация
Универсальное понимание видео требует моделирования детализированной визуальной и аудиоинформации во времени в разнообразных реальных сценариях. Однако производительность существующих моделей в основном ограничена данными в формате видео-инструкций, которые представляют сложное аудиовизуальное содержание в виде единых, неполных описаний, лишённых детализированной организации и достоверной разметки. Для решения этой проблемы мы представляем: (i) ASID-1M — открытую коллекцию из миллиона структурированных, детализированных аннотаций-инструкций для аудиовизуального контента с одно- и многокомпонентным контролем атрибутов; (ii) ASID-Verify — масштабируемый конвейер курации данных для аннотирования с автоматической верификацией и уточнением, обеспечивающий семантическую и временную согласованность между описаниями и соответствующим аудиовизуальным контентом; и (iii) ASID-Captioner — модель понимания видео, обученную методом контролируемого тонкого обучения (SFT) на ASID-1M. Эксперименты на семи тестовых наборах, охватывающих аудиовизуальное описательное аннотирование, аннотирование по атрибутам, вопросно-ответные задачи на основе описаний и временную привязку на основе описаний, показывают, что ASID-Captioner улучшает качество детализированных описаний, одновременно снижая количество галлюцинаций и улучшая следование инструкциям. Модель демонстрирует наилучшую производительность среди открытых моделей и конкурирует с Gemini-3-Pro.
English
Universal video understanding requires modeling fine-grained visual and audio information over time in diverse real-world scenarios. However, the performance of existing models is primarily constrained by video-instruction data that represents complex audiovisual content as single, incomplete descriptions, lacking fine-grained organization and reliable annotation. To address this, we introduce: (i) ASID-1M, an open-source collection of one million structured, fine-grained audiovisual instruction annotations with single- and multi-attribute supervision; (ii) ASID-Verify, a scalable data curation pipeline for annotation, with automatic verification and refinement that enforces semantic and temporal consistency between descriptions and the corresponding audiovisual content; and (iii) ASID-Captioner, a video understanding model trained via Supervised Fine-Tuning (SFT) on the ASID-1M. Experiments across seven benchmarks covering audiovisual captioning, attribute-wise captioning, caption-based QA, and caption-based temporal grounding show that ASID-Captioner improves fine-grained caption quality while reducing hallucinations and improving instruction following. It achieves state-of-the-art performance among open-source models and is competitive with Gemini-3-Pro.