OmniVideo-100K : un jeu de données pour le raisonnement audiovisuel via des scripts structurés et des chaînes de preuves

Résumé

Les pipelines automatisés actuels pour la Question-Réponse audio-visuelle (QA) adoptent généralement un paradigme « vidéo-légende-QA ». Cependant, ces méthodes segmentent typiquement les vidéos en courts extraits et génèrent des descriptions séparées pour les modalités audio et visuelle. Ce traitement découplé rompt les associations inhérentes entre les sons et leurs sources visuelles, tandis que le traitement indépendant des extraits entraîne souvent des descriptions incohérentes d’une même entité d’un segment à l’autre. De plus, coupler la compréhension de textes longs et la synthèse de QA en une seule étape limite souvent les modèles à des événements localisés, produisant des questions dépourvues de liens temporels à long terme et de raisonnement cross-modal profond. Pour résoudre ces problèmes, nous proposons un moteur de données automatisé doté de deux mécanismes : (1) la Scénarisation Vidéo Ancrée sur les Entités transforme les vidéos en scripts structurés, comprenant des résumés, des listes d’entités principales et des descriptions audio-visuelles par segment. La liste d’entités sert de prior global pour garantir la cohérence référentielle entre les segments et reconstruire les associations audio-visuelles. (2) la Génération de QA Guidée par les Indices incite les modèles à d’abord extraire du script des indices cross-modaux et inter-segments, puis à générer des paires QA sur la base de ces indices de grande valeur. Grâce à ce pipeline, nous construisons le jeu de données d’instruction-tuning OmniVideo-100K ainsi qu’un ensemble de test validé humainement, OmniVideo-Test. Le fine-tuning de VITA-1.5, Qwen2.5-Omni-7B et Qwen3-Omni-30B sur OmniVideo-100K permet des gains de performance allant jusqu’à 20,59 % sur OmniVideo-Test, démontrant une forte généralisation (jusqu’à 12,64 % d’amélioration) sur des benchmarks établis tels que Daily-Omni et JointAVBench.

English

Current automated pipelines for audio-visual Question Answering (QA) generally adopt a ``video-caption-QA'' paradigm. However, these methods typically segment videos into short clips and generate separate descriptions for audio and visual modalities. This decoupled processing severs inherent associations between sounds and their visual sources, while independent clip processing often causes inconsistent descriptions of the same entity across segments. Furthermore, coupling long-text comprehension and QA synthesis into a single step often restricts models to localized events, yielding questions lacking long-term temporal connections and deep cross-modal reasoning. To address these issues, we propose an automated data engine featuring two mechanisms: (1) Entity-Anchored Video Scripting transforms videos into structured scripts, comprising summaries, main entity lists, and segment-wise audio-visual descriptions. The entity list serves as a global prior to ensure cross-segment referential consistency and reconstruct audio-visual associations. (2) Clue-Guided QA Generation prompts models to first mine cross-segment, multimodal clues from the script, and subsequently generate QA pairs based on these high-value clues. Leveraging this pipeline, we construct the instruction-tuning dataset OmniVideo-100K and a human-verified test set, OmniVideo-Test. Fine-tuning VITA-1.5, Qwen2.5-Omni-7B and Qwen3-Omni-30B on OmniVideo-100K yields performance gains of up to 20.59% on OmniVideo-Test, demonstrating strong generalization (up to 12.64% improvements) across established benchmarks like Daily-Omni and JointAVBench.