Vers des MLLM vidéo universels avec des instructions structurées par attributs et vérifiées en qualité

Résumé

La compréhension vidéo universelle nécessite de modéliser des informations visuelles et auditives fines dans le temps, dans divers scénarios du monde réel. Cependant, les performances des modèles existants sont principalement limitées par des données d'instruction vidéo qui représentent un contenu audiovisuel complexe par des descriptions uniques et incomplètes, manquant d'organisation fine et d'annotations fiables. Pour résoudre ce problème, nous présentons : (i) ASID-1M, une collection open-source d'un million d'annotations d'instruction audiovisuelle structurées et granulaires, avec une supervision à attributs unique et multiples ; (ii) ASID-Verify, un pipeline d'enrichissement de données évolutif pour l'annotation, avec vérification et amélioration automatiques qui imposent une cohérence sémantique et temporelle entre les descriptions et le contenu audiovisuel correspondant ; et (iii) ASID-Captioner, un modèle de compréhension vidéo entraîné par Fine-Tuning Supervisé (SFT) sur ASID-1M. Les expériences sur sept benchmarks couvrant la description audiovisuelle, la description par attributs, les questions-réponses basées sur les descriptions et le repérage temporel basé sur les descriptions montrent qu'ASID-Captioner améliore la qualité des descriptions granulaires tout en réduisant les hallucinations et en améliorant le suivi des instructions. Il obtient des performances à l'état de l'art parmi les modèles open-source et est compétitif avec Gemini-3-Pro.

English

Universal video understanding requires modeling fine-grained visual and audio information over time in diverse real-world scenarios. However, the performance of existing models is primarily constrained by video-instruction data that represents complex audiovisual content as single, incomplete descriptions, lacking fine-grained organization and reliable annotation. To address this, we introduce: (i) ASID-1M, an open-source collection of one million structured, fine-grained audiovisual instruction annotations with single- and multi-attribute supervision; (ii) ASID-Verify, a scalable data curation pipeline for annotation, with automatic verification and refinement that enforces semantic and temporal consistency between descriptions and the corresponding audiovisual content; and (iii) ASID-Captioner, a video understanding model trained via Supervised Fine-Tuning (SFT) on the ASID-1M. Experiments across seven benchmarks covering audiovisual captioning, attribute-wise captioning, caption-based QA, and caption-based temporal grounding show that ASID-Captioner improves fine-grained caption quality while reducing hallucinations and improving instruction following. It achieves state-of-the-art performance among open-source models and is competitive with Gemini-3-Pro.

Vers des MLLM vidéo universels avec des instructions structurées par attributs et vérifiées en qualité

Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

Résumé

Support