ChatPaper.aiChatPaper

속성 구조화 및 품질 검증된 지시어를 통한 범용 비디오 MLLM 구축

Towards Universal Video MLLMs with Attribute-Structured and Quality-Verified Instructions

February 13, 2026
저자: Yunheng Li, Hengrui Zhang, Meng-Hao Guo, Wenzhao Gao, Shaoyong Jia, Shaohui Jiao, Qibin Hou, Ming-Ming Cheng
cs.AI

초록

범용 비디오 이해는 다양한 실제 시나리오에서 시간에 따른 세밀한 시각 및 음향 정보를 모델링하는 것을 필요로 합니다. 그러나 기존 모델의 성능은 복잡한 시청각 콘텐츠를 단일하고 불완전한 설명으로 표현하여 세밀한 구성과 신뢰할 수 있는 주석이 부족한 비디오-지시어 데이터에 의해 주로 제한됩니다. 이를 해결하기 위해 우리는 다음을 소개합니다: (i) 단일 및 다중 속성 감독을 포함한 100만 개의 구조화된 세밀한 시청각 지시어 주석으로 구성된 오픈소스 컬렉션인 ASID-1M; (ii) 설명과 해당 시청각 콘텐츠 간의 의미론적 및 시간적 일관성을 강화하는 자동 검증 및 정제를 통한 확장 가능한 주석 데이터 큐레이션 파이프라인인 ASID-Verify; 그리고 (iii) ASID-1M으로 지도 미세 조정(SFT)을 통해 훈련된 비디오 이해 모델인 ASID-Captioner. 시청각 캡션 생성, 속성별 캡션 생성, 캡션 기반 질의응답 및 캡션 기반 시간적 위치 지정을 아우르는 7개 벤치마크에서의 실험 결과, ASID-Captioner는 환각 현상을 줄이고 지시어 추종 성능을 향상시키면서 세밀한 캡션 품질을 개선하는 것으로 나타났습니다. 이 모델은 오픈소스 모델 중 최첨단 성능을 달성하며 Gemini-3-Pro와 경쟁력 있는 성과를 보여줍니다.
English
Universal video understanding requires modeling fine-grained visual and audio information over time in diverse real-world scenarios. However, the performance of existing models is primarily constrained by video-instruction data that represents complex audiovisual content as single, incomplete descriptions, lacking fine-grained organization and reliable annotation. To address this, we introduce: (i) ASID-1M, an open-source collection of one million structured, fine-grained audiovisual instruction annotations with single- and multi-attribute supervision; (ii) ASID-Verify, a scalable data curation pipeline for annotation, with automatic verification and refinement that enforces semantic and temporal consistency between descriptions and the corresponding audiovisual content; and (iii) ASID-Captioner, a video understanding model trained via Supervised Fine-Tuning (SFT) on the ASID-1M. Experiments across seven benchmarks covering audiovisual captioning, attribute-wise captioning, caption-based QA, and caption-based temporal grounding show that ASID-Captioner improves fine-grained caption quality while reducing hallucinations and improving instruction following. It achieves state-of-the-art performance among open-source models and is competitive with Gemini-3-Pro.
PDF72February 17, 2026