OmniVideo-100K: Un Conjunto de Datos para el Razonamiento Audiovisual a través de Guiones Estructurados y Cadenas de Evidencia

Resumen

Los pipelines automatizados actuales para la respuesta a preguntas (QA) audiovisual suelen adoptar un paradigma de ``video-descripción-QA''. Sin embargo, estos métodos generalmente segmentan los videos en clips cortos y generan descripciones separadas para las modalidades auditiva y visual. Este procesamiento desacoplado rompe las asociaciones inherentes entre los sonidos y sus fuentes visuales, mientras que el procesamiento independiente de clips a menudo provoca descripciones inconsistentes de la misma entidad en distintos segmentos. Además, acoplar la comprensión de textos largos y la síntesis de preguntas y respuestas en un único paso suele restringir los modelos a eventos localizados, generando preguntas que carecen de conexiones temporales a largo plazo y de un razonamiento cross-modal profundo. Para abordar estos problemas, proponemos un motor de datos automatizado con dos mecanismos: (1) Entity-Anchored Video Scripting (guionización de video anclada en entidades), que transforma los videos en guiones estructurados que comprenden resúmenes, listas de entidades principales y descripciones audiovisuales por segmento. La lista de entidades sirve como prioridad global para garantizar la consistencia referencial entre segmentos y reconstruir las asociaciones audiovisuales. (2) Clue-Guided QA Generation (generación de preguntas y respuestas guiada por pistas), que indica a los modelos que primero extraigan pistas multimodales entre segmentos del guion y, posteriormente, generen pares de preguntas y respuestas basados en estas pistas de alto valor. Aprovechando este pipeline, construimos el conjunto de datos de ajuste por instrucciones OmniVideo-100K y un conjunto de prueba verificado por humanos, OmniVideo-Test. El ajuste fino de VITA-1.5, Qwen2.5-Omni-7B y Qwen3-Omni-30B en OmniVideo-100K produce ganancias de rendimiento de hasta el 20,59 % en OmniVideo-Test, demostrando una fuerte generalización (mejoras de hasta el 12,64 %) en benchmarks establecidos como Daily-Omni y JointAVBench.

English

Current automated pipelines for audio-visual Question Answering (QA) generally adopt a ``video-caption-QA'' paradigm. However, these methods typically segment videos into short clips and generate separate descriptions for audio and visual modalities. This decoupled processing severs inherent associations between sounds and their visual sources, while independent clip processing often causes inconsistent descriptions of the same entity across segments. Furthermore, coupling long-text comprehension and QA synthesis into a single step often restricts models to localized events, yielding questions lacking long-term temporal connections and deep cross-modal reasoning. To address these issues, we propose an automated data engine featuring two mechanisms: (1) Entity-Anchored Video Scripting transforms videos into structured scripts, comprising summaries, main entity lists, and segment-wise audio-visual descriptions. The entity list serves as a global prior to ensure cross-segment referential consistency and reconstruct audio-visual associations. (2) Clue-Guided QA Generation prompts models to first mine cross-segment, multimodal clues from the script, and subsequently generate QA pairs based on these high-value clues. Leveraging this pipeline, we construct the instruction-tuning dataset OmniVideo-100K and a human-verified test set, OmniVideo-Test. Fine-tuning VITA-1.5, Qwen2.5-Omni-7B and Qwen3-Omni-30B on OmniVideo-100K yields performance gains of up to 20.59% on OmniVideo-Test, demonstrating strong generalization (up to 12.64% improvements) across established benchmarks like Daily-Omni and JointAVBench.