Verso MLLM Video Universali con Istruzioni Strutturate per Attributi e Verificate per Qualità

Abstract

La comprensione universale dei video richiede la modellizzazione di informazioni visive e uditive granulari nel tempo in scenari reali diversificati. Tuttavia, le prestazioni dei modelli esistenti sono principalmente limitate da dati di istruzione video che rappresentano contenuti audiovisivi complessi come descrizioni singole e incomplete, prive di organizzazione granulare e annotazioni affidabili. Per affrontare questo problema, introduciamo: (i) ASID-1M, una collezione open-source di un milione di annotazioni di istruzioni audiovisive strutturate e granulari con supervisione a attributi singoli e multipli; (ii) ASID-Verify, una pipeline scalabile di curatela dei dati per l'annotazione, con verifica e raffinamento automatici che impongono coerenza semantica e temporale tra le descrizioni e il corrispondente contenuto audiovisivo; e (iii) ASID-Captioner, un modello di comprensione video addestrato tramite Fine-Tuning Supervisionato (SFT) su ASID-1M. Esperimenti su sette benchmark che coprono captioning audiovisivo, captioning per attributi, domande e risposte basate su captioning e grounding temporale basato su captioning mostrano che ASID-Captioner migliora la qualità delle descrizioni granulari, riducendo al contempo le allucinazioni e migliorando l'aderenza alle istruzioni. Il modello raggiunge prestazioni all'avanguardia tra i modelli open-source ed è competitivo con Gemini-3-Pro.

English

Universal video understanding requires modeling fine-grained visual and audio information over time in diverse real-world scenarios. However, the performance of existing models is primarily constrained by video-instruction data that represents complex audiovisual content as single, incomplete descriptions, lacking fine-grained organization and reliable annotation. To address this, we introduce: (i) ASID-1M, an open-source collection of one million structured, fine-grained audiovisual instruction annotations with single- and multi-attribute supervision; (ii) ASID-Verify, a scalable data curation pipeline for annotation, with automatic verification and refinement that enforces semantic and temporal consistency between descriptions and the corresponding audiovisual content; and (iii) ASID-Captioner, a video understanding model trained via Supervised Fine-Tuning (SFT) on the ASID-1M. Experiments across seven benchmarks covering audiovisual captioning, attribute-wise captioning, caption-based QA, and caption-based temporal grounding show that ASID-Captioner improves fine-grained caption quality while reducing hallucinations and improving instruction following. It achieves state-of-the-art performance among open-source models and is competitive with Gemini-3-Pro.

Verso MLLM Video Universali con Istruzioni Strutturate per Attributi e Verificate per Qualità

Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

Abstract

Support