OmniVideo-100K: Een Dataset voor Audio-Visueel Redeneren door Gestructureerde Scripts en Bewijsketens

Samenvatting

Huidige geautomatiseerde pijplijnen voor audiovisuele vraagbeantwoording (QA) hanteren over het algemeen een 'video-onderschrift-QA'-paradigma. Deze methoden segmenteren video's echter typisch in korte clips en genereren aparte beschrijvingen voor de auditieve en visuele modaliteiten. Deze ontkoppelde verwerking verbreekt inherente associaties tussen geluiden en hun visuele bronnen, terwijl onafhankelijke clipverwerking vaak inconsistente beschrijvingen van dezelfde entiteit over segmenten heen veroorzaakt. Bovendien beperkt het koppelen van begrip van lange teksten en QA-synthese in één stap modellen vaak tot gelokaliseerde gebeurtenissen, wat resulteert in vragen die geen langdurige temporele verbanden en diepe crossmodale redenering bevatten. Om deze problemen aan te pakken, stellen we een geautomatiseerde data-engine voor met twee mechanismen: (1) Entiteit-Gebaseerde Video Scripting zet video's om in gestructureerde scripts, bestaande uit samenvattingen, lijsten van hoofdentiteiten en segmentgewijze audiovisuele beschrijvingen. De entiteitenlijst fungeert als een globale prior om cross-segment referentiële consistentie te waarborgen en audiovisuele associaties te reconstrueren. (2) Aanwijzing-Gestuurde QA Generatie stimuleert modellen om eerst cross-segment, multimodale aanwijzingen uit het script te halen en vervolgens QA-paren te genereren op basis van deze hoogwaardige aanwijzingen. Met behulp van deze pijplijn construeren we de instructie-afstemmingsdataset OmniVideo-100K en een door mensen geverifieerde testset, OmniVideo-Test. Het fine-tunen van VITA-1.5, Qwen2.5-Omni-7B en Qwen3-Omni-30B op OmniVideo-100K levert prestatieverbeteringen op van tot 20,59% op OmniVideo-Test, wat sterke generalisatie aantoont (tot 12,64% verbeteringen) op gevestigde benchmarks zoals Daily-Omni en JointAVBench.

English

Current automated pipelines for audio-visual Question Answering (QA) generally adopt a ``video-caption-QA'' paradigm. However, these methods typically segment videos into short clips and generate separate descriptions for audio and visual modalities. This decoupled processing severs inherent associations between sounds and their visual sources, while independent clip processing often causes inconsistent descriptions of the same entity across segments. Furthermore, coupling long-text comprehension and QA synthesis into a single step often restricts models to localized events, yielding questions lacking long-term temporal connections and deep cross-modal reasoning. To address these issues, we propose an automated data engine featuring two mechanisms: (1) Entity-Anchored Video Scripting transforms videos into structured scripts, comprising summaries, main entity lists, and segment-wise audio-visual descriptions. The entity list serves as a global prior to ensure cross-segment referential consistency and reconstruct audio-visual associations. (2) Clue-Guided QA Generation prompts models to first mine cross-segment, multimodal clues from the script, and subsequently generate QA pairs based on these high-value clues. Leveraging this pipeline, we construct the instruction-tuning dataset OmniVideo-100K and a human-verified test set, OmniVideo-Test. Fine-tuning VITA-1.5, Qwen2.5-Omni-7B and Qwen3-Omni-30B on OmniVideo-100K yields performance gains of up to 20.59% on OmniVideo-Test, demonstrating strong generalization (up to 12.64% improvements) across established benchmarks like Daily-Omni and JointAVBench.