Hacia MLLMs de Video Universales con Instrucciones Estructuradas por Atributos y Verificadas en Calidad
Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions
February 13, 2026
Autores: Yunheng Li, Hengrui Zhang, Meng-Hao Guo, Wenzhao Gao, Shaoyong Jia, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng
cs.AI
Resumen
La comprensión universal de video requiere modelar información visual y auditiva de grano fino a lo largo del tiempo en diversos escenarios del mundo real. Sin embargo, el rendimiento de los modelos existentes se ve limitado principalmente por datos de instrucción de video que representan contenido audiovisual complejo mediante descripciones únicas e incompletas, carentes de organización detallada y anotación confiable. Para abordar esto, presentamos: (i) ASID-1M, una colección de código abierto de un millón de anotaciones de instrucción audiovisual estructuradas y detalladas con supervisión de atributos únicos y múltiples; (ii) ASID-Verify, un pipeline escalable de curación de datos para anotación, con verificación y refinamiento automáticos que garantizan la consistencia semántica y temporal entre las descripciones y el contenido audiovisual correspondiente; y (iii) ASID-Captioner, un modelo de comprensión de video entrenado mediante Fine-Tuning Supervisado (SFT) en ASID-1M. Los experimentos en siete benchmarks que abarcan descripción audiovisual, descripción por atributos, preguntas y respuestas basadas en descripciones y localización temporal basada en descripciones muestran que ASID-Captioner mejora la calidad de las descripciones detalladas mientras reduce las alucinaciones y mejora el seguimiento de instrucciones. Logra un rendimiento de vanguardia entre los modelos de código abierto y es competitivo con Gemini-3-Pro.
English
Universal video understanding requires modeling fine-grained visual and audio information over time in diverse real-world scenarios. However, the performance of existing models is primarily constrained by video-instruction data that represents complex audiovisual content as single, incomplete descriptions, lacking fine-grained organization and reliable annotation. To address this, we introduce: (i) ASID-1M, an open-source collection of one million structured, fine-grained audiovisual instruction annotations with single- and multi-attribute supervision; (ii) ASID-Verify, a scalable data curation pipeline for annotation, with automatic verification and refinement that enforces semantic and temporal consistency between descriptions and the corresponding audiovisual content; and (iii) ASID-Captioner, a video understanding model trained via Supervised Fine-Tuning (SFT) on the ASID-1M. Experiments across seven benchmarks covering audiovisual captioning, attribute-wise captioning, caption-based QA, and caption-based temporal grounding show that ASID-Captioner improves fine-grained caption quality while reducing hallucinations and improving instruction following. It achieves state-of-the-art performance among open-source models and is competitive with Gemini-3-Pro.