ChatPaper.aiChatPaper

Hin zu universellen Video-MLLMs mit attributstrukturierten und qualitätsgeprüften Instruktionen

Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

February 13, 2026
papers.authors: Yunheng Li, Hengrui Zhang, Meng-Hao Guo, Wenzhao Gao, Shaoyong Jia, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng
cs.AI

papers.abstract

Umfassendes Videoverständnis erfordert die Modellierung feinkörniger visueller und auditiver Informationen über die Zeit hinweg in verschiedenen realen Szenarien. Die Leistung bestehender Modelle wird jedoch hauptsächlich durch Video-Instruktionsdaten eingeschränkt, die komplexen audiovisuellen Inhalt als einzelne, unvollständige Beschreibungen darstellen, denen eine feinkörnige Organisation und zuverlässige Annotation fehlt. Um dies zu adressieren, führen wir ein: (i) ASID-1M, eine Open-Source-Sammlung von einer Million strukturierter, feinkörniger audiovisueller Instruktionsannotationen mit Einzel- und Multi-Attribut-Aufsicht; (ii) ASID-Verify, eine skalierbare Datenkuratierungspipeline für die Annotation mit automatischer Verifikation und Verfeinerung, die semantische und zeitliche Konsistenz zwischen den Beschreibungen und dem entsprechenden audiovisuellen Inhalt erzwingt; und (iii) ASID-Captioner, ein Videoverständnismodell, das mittels Supervised Fine-Tuning (SFT) auf ASID-1M trainiert wurde. Experimente über sieben Benchmarks, die audiovisuelle Beschreibung, attributweise Beschreibung, beschreibungsbasierte Fragebeantwortung und beschreibungsbasiertes temporales Grounding abdecken, zeigen, dass ASID-Captioner die Qualität feinkörniger Beschreibungen verbessert, während Halluzinationen reduziert und die Befolgung von Instruktionen verbessert wird. Es erzielt state-of-the-art Leistung unter Open-Source-Modellen und ist mit Gemini-3-Pro wettbewerbsfähig.
English
Universal video understanding requires modeling fine-grained visual and audio information over time in diverse real-world scenarios. However, the performance of existing models is primarily constrained by video-instruction data that represents complex audiovisual content as single, incomplete descriptions, lacking fine-grained organization and reliable annotation. To address this, we introduce: (i) ASID-1M, an open-source collection of one million structured, fine-grained audiovisual instruction annotations with single- and multi-attribute supervision; (ii) ASID-Verify, a scalable data curation pipeline for annotation, with automatic verification and refinement that enforces semantic and temporal consistency between descriptions and the corresponding audiovisual content; and (iii) ASID-Captioner, a video understanding model trained via Supervised Fine-Tuning (SFT) on the ASID-1M. Experiments across seven benchmarks covering audiovisual captioning, attribute-wise captioning, caption-based QA, and caption-based temporal grounding show that ASID-Captioner improves fine-grained caption quality while reducing hallucinations and improving instruction following. It achieves state-of-the-art performance among open-source models and is competitive with Gemini-3-Pro.
PDF72February 17, 2026