OmniVideo-100K: Ein Datensatz für audiovisuelles Reasoning mittels strukturierter Skripte und Evidenzketten

Zusammenfassung

Aktuelle automatisierte Pipelines zur audio-visuellen Fragenbeantwortung (QA) folgen in der Regel einem „Video-Caption-QA“-Paradigma. Diese Methoden segmentieren Videos jedoch typischerweise in kurze Clips und erstellen separate Beschreibungen für die audio- und visuellen Modalitäten. Diese entkoppelte Verarbeitung unterbricht die inhärenten Verbindungen zwischen Geräuschen und ihren visuellen Quellen, während die unabhängige Clip-Verarbeitung oft zu inkonsistenten Beschreibungen derselben Entität über verschiedene Segmente hinweg führt. Darüber hinaus schränkt die Kopplung von Langtextverständnis und QA-Synthese in einem einzigen Schritt die Modelle häufig auf lokale Ereignisse ein, was zu Fragen führt, denen langfristige zeitliche Verbindungen und tiefgehende cross-modale Schlussfolgerungen fehlen. Um diese Probleme zu adressieren, schlagen wir eine automatisierte Daten-Engine mit zwei Mechanismen vor: (1) Entity-Anchored Video Scripting wandelt Videos in strukturierte Skripte um, die Zusammenfassungen, Hauptentitätslisten und segmentweise audio-visuelle Beschreibungen umfassen. Die Entitätsliste dient als globaler Prior, um referenzielle Konsistenz über Segmente hinweg sicherzustellen und audio-visuelle Verbindungen zu rekonstruieren. (2) Clue-Guided QA Generation veranlasst Modelle, zunächst aus dem Skript segmentübergreifende, multimodale Hinweise zu extrahieren und anschließend auf Basis dieser hochwertigen Hinweise QA-Paare zu generieren. Mit dieser Pipeline erstellen wir den Instruktions-Feinabstimmungsdatensatz OmniVideo-100K und einen von Menschen verifizierten Testdatensatz, OmniVideo-Test. Die Feinabstimmung von VITA-1.5, Qwen2.5-Omni-7B und Qwen3-Omni-30B auf OmniVideo-100K führt zu Leistungssteigerungen von bis zu 20,59 % auf OmniVideo-Test und zeigt eine starke Generalisierungsfähigkeit (Verbesserungen von bis zu 12,64 %) auf etablierten Benchmarks wie Daily-Omni und JointAVBench.

English

Current automated pipelines for audio-visual Question Answering (QA) generally adopt a ``video-caption-QA'' paradigm. However, these methods typically segment videos into short clips and generate separate descriptions for audio and visual modalities. This decoupled processing severs inherent associations between sounds and their visual sources, while independent clip processing often causes inconsistent descriptions of the same entity across segments. Furthermore, coupling long-text comprehension and QA synthesis into a single step often restricts models to localized events, yielding questions lacking long-term temporal connections and deep cross-modal reasoning. To address these issues, we propose an automated data engine featuring two mechanisms: (1) Entity-Anchored Video Scripting transforms videos into structured scripts, comprising summaries, main entity lists, and segment-wise audio-visual descriptions. The entity list serves as a global prior to ensure cross-segment referential consistency and reconstruct audio-visual associations. (2) Clue-Guided QA Generation prompts models to first mine cross-segment, multimodal clues from the script, and subsequently generate QA pairs based on these high-value clues. Leveraging this pipeline, we construct the instruction-tuning dataset OmniVideo-100K and a human-verified test set, OmniVideo-Test. Fine-tuning VITA-1.5, Qwen2.5-Omni-7B and Qwen3-Omni-30B on OmniVideo-100K yields performance gains of up to 20.59% on OmniVideo-Test, demonstrating strong generalization (up to 12.64% improvements) across established benchmarks like Daily-Omni and JointAVBench.