Rumo a MLLMs de Vídeo Universais com Instruções Estruturadas por Atributos e Verificadas por Qualidade

Resumo

A compreensão universal de vídeo requer a modelagem de informações visuais e sonoras refinadas ao longo do tempo em diversos cenários do mundo real. No entanto, o desempenho dos modelos existentes é limitado principalmente por dados de instrução em vídeo que representam conteúdos audiovisuais complexos como descrições únicas e incompletas, carecendo de organização refinada e anotação confiável. Para resolver isso, introduzimos: (i) ASID-1M, uma coleção de código aberto com um milhão de anotações de instrução audiovisual estruturadas e refinadas, com supervisão de atributos únicos e múltiplos; (ii) ASID-Verify, um *pipeline* escalável de curadoria de dados para anotação, com verificação e refinamento automáticos que impõem consistência semântica e temporal entre as descrições e o conteúdo audiovisual correspondente; e (iii) ASID-Captioner, um modelo de compreensão de vídeo treinado via Ajuste Fino Supervisionado (*Supervised Fine-Tuning - SFT*) no ASID-1M. Experimentos em sete *benchmarks* abrangendo legendagem audiovisual, legendagem por atributo, Q&A baseado em legendas e localização temporal baseada em legendas mostram que o ASID-Captioner melhora a qualidade da legendagem refinada, reduzindo alucinações e melhorando o seguimento de instruções. Ele alcança desempenho de ponta entre os modelos de código aberto e é competitivo com o Gemini-3-Pro.

English

Universal video understanding requires modeling fine-grained visual and audio information over time in diverse real-world scenarios. However, the performance of existing models is primarily constrained by video-instruction data that represents complex audiovisual content as single, incomplete descriptions, lacking fine-grained organization and reliable annotation. To address this, we introduce: (i) ASID-1M, an open-source collection of one million structured, fine-grained audiovisual instruction annotations with single- and multi-attribute supervision; (ii) ASID-Verify, a scalable data curation pipeline for annotation, with automatic verification and refinement that enforces semantic and temporal consistency between descriptions and the corresponding audiovisual content; and (iii) ASID-Captioner, a video understanding model trained via Supervised Fine-Tuning (SFT) on the ASID-1M. Experiments across seven benchmarks covering audiovisual captioning, attribute-wise captioning, caption-based QA, and caption-based temporal grounding show that ASID-Captioner improves fine-grained caption quality while reducing hallucinations and improving instruction following. It achieves state-of-the-art performance among open-source models and is competitive with Gemini-3-Pro.

Rumo a MLLMs de Vídeo Universais com Instruções Estruturadas por Atributos e Verificadas por Qualidade

Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

Resumo

Support