OmniVideo-100K: Um Conjunto de Dados para Raciocínio Audiovisual através de Scripts Estruturados e Cadeias de Evidência

Resumo

Pipelines automatizados atuais para Question Answering (QA) audiovisual geralmente adotam um paradigma de "vídeo-legenda-QA". No entanto, esses métodos tipicamente segmentam vídeos em clipes curtos e geram descrições separadas para as modalidades auditiva e visual. Esse processamento desacoplado rompe as associações inerentes entre sons e suas fontes visuais, enquanto o processamento independente de clipes frequentemente causa descrições inconsistentes de uma mesma entidade ao longo dos segmentos. Além disso, acoplar a compreensão de textos longos e a síntese de QA em uma única etapa frequentemente restringe os modelos a eventos localizados, gerando perguntas que carecem de conexões temporais de longo prazo e raciocínio multimodal profundo. Para abordar essas questões, propomos um mecanismo automatizado de geração de dados com dois mecanismos: (1) Roteirização de Vídeo com Âncora em Entidades, que transforma vídeos em roteiros estruturados, contendo resumos, listas de entidades principais e descrições audiovisuais por segmento. A lista de entidades serve como um prior global para garantir consistência referencial entre segmentos e reconstruir associações audiovisuais. (2) Geração de QA Guiada por Pistas, que leva os modelos a primeiro extrair pistas multimodais entre segmentos do roteiro e, em seguida, gerar pares de QA com base nessas pistas de alto valor. Utilizando esse pipeline, construímos o conjunto de dados de ajuste por instruções OmniVideo-100K e um conjunto de teste verificado por humanos, o OmniVideo-Test. O ajuste fino do VITA-1.5, Qwen2.5-Omni-7B e Qwen3-Omni-30B no OmniVideo-100K resulta em ganhos de desempenho de até 20,59% no OmniVideo-Test, demonstrando forte generalização (melhorias de até 12,64%) em benchmarks estabelecidos como Daily-Omni e JointAVBench.

English

Current automated pipelines for audio-visual Question Answering (QA) generally adopt a ``video-caption-QA'' paradigm. However, these methods typically segment videos into short clips and generate separate descriptions for audio and visual modalities. This decoupled processing severs inherent associations between sounds and their visual sources, while independent clip processing often causes inconsistent descriptions of the same entity across segments. Furthermore, coupling long-text comprehension and QA synthesis into a single step often restricts models to localized events, yielding questions lacking long-term temporal connections and deep cross-modal reasoning. To address these issues, we propose an automated data engine featuring two mechanisms: (1) Entity-Anchored Video Scripting transforms videos into structured scripts, comprising summaries, main entity lists, and segment-wise audio-visual descriptions. The entity list serves as a global prior to ensure cross-segment referential consistency and reconstruct audio-visual associations. (2) Clue-Guided QA Generation prompts models to first mine cross-segment, multimodal clues from the script, and subsequently generate QA pairs based on these high-value clues. Leveraging this pipeline, we construct the instruction-tuning dataset OmniVideo-100K and a human-verified test set, OmniVideo-Test. Fine-tuning VITA-1.5, Qwen2.5-Omni-7B and Qwen3-Omni-30B on OmniVideo-100K yields performance gains of up to 20.59% on OmniVideo-Test, demonstrating strong generalization (up to 12.64% improvements) across established benchmarks like Daily-Omni and JointAVBench.