OmniVideo-100K: Набор данных для аудиовизуального рассуждения посредством структурированных сценариев и цепочек свидетельств

Аннотация

Современные автоматизированные конвейеры для аудиовизуального вопросно-ответного взаимодействия (QA) обычно следуют парадигме «видео-субтитры-QA». Однако такие методы, как правило, сегментируют видео на короткие фрагменты и генерируют отдельные описания для аудиальной и визуальной модальностей. Эта декомпозированная обработка разрывает естественные связи между звуками и их визуальными источниками, а независимая обработка фрагментов часто приводит к несогласованным описаниям одного и того же объекта в разных сегментах. Кроме того, объединение понимания длинных текстов и синтеза QA в один этап часто ограничивает модели локальными событиями, порождая вопросы, лишенные долгосрочных временных связей и глубокого кросс-модального рассуждения. Для решения этих проблем мы предлагаем автоматизированный механизм работы с данными, включающий два компонента: (1) **Субъектно-ориентированное видеосценарное описание** преобразует видео в структурированные сценарии, содержащие резюме, списки основных субъектов и посегментные аудиовизуальные описания. Список субъектов служит глобальной априорной информацией для обеспечения референтной согласованности между сегментами и восстановления аудиовизуальных связей. (2) **Генерация QA на основе подсказок** побуждает модели сначала извлекать из сценария кросс-сегментные и мультимодальные подсказки, а затем формировать пары вопрос-ответ на основе этих высокоценных подсказок. Используя этот конвейер, мы создаем набор данных для инструктивного дообучения OmniVideo-100K и тестовый набор с верификацией человеком OmniVideo-Test. Дообучение VITA-1.5, Qwen2.5-Omni-7B и Qwen3-Omni-30B на OmniVideo-100K дает прирост производительности до 20,59% на OmniVideo-Test, демонстрируя сильную обобщающую способность (улучшения до 12,64%) на известных эталонных тестах, таких как Daily-Omni и JointAVBench.

English

Current automated pipelines for audio-visual Question Answering (QA) generally adopt a ``video-caption-QA'' paradigm. However, these methods typically segment videos into short clips and generate separate descriptions for audio and visual modalities. This decoupled processing severs inherent associations between sounds and their visual sources, while independent clip processing often causes inconsistent descriptions of the same entity across segments. Furthermore, coupling long-text comprehension and QA synthesis into a single step often restricts models to localized events, yielding questions lacking long-term temporal connections and deep cross-modal reasoning. To address these issues, we propose an automated data engine featuring two mechanisms: (1) Entity-Anchored Video Scripting transforms videos into structured scripts, comprising summaries, main entity lists, and segment-wise audio-visual descriptions. The entity list serves as a global prior to ensure cross-segment referential consistency and reconstruct audio-visual associations. (2) Clue-Guided QA Generation prompts models to first mine cross-segment, multimodal clues from the script, and subsequently generate QA pairs based on these high-value clues. Leveraging this pipeline, we construct the instruction-tuning dataset OmniVideo-100K and a human-verified test set, OmniVideo-Test. Fine-tuning VITA-1.5, Qwen2.5-Omni-7B and Qwen3-Omni-30B on OmniVideo-100K yields performance gains of up to 20.59% on OmniVideo-Test, demonstrating strong generalization (up to 12.64% improvements) across established benchmarks like Daily-Omni and JointAVBench.