OmniScript: Auf dem Weg zur audio-visuellen Skripterstellung für langformatige Filmvideos
OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video
April 13, 2026
Autoren: Junfu Pu, Yuxin Chen, Teng Wang, Ying Shan
cs.AI
Zusammenfassung
Aktuelle multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fähigkeiten im Verständnis von Kurzvideos demonstriert, doch die Übersetzung langformatiger narrativer Videos in detaillierte, zeitlich verankerte Drehbücher bleibt eine große Herausforderung. Diese Arbeit stellt die neuartige Video-zu-Drehbuch (V2S) Aufgabe vor, die darauf abzielt, hierarchische, szenenweise Drehbücher zu generieren, die Charakteraktionen, Dialoge, Ausdrücke und Audiohinweise umfassen. Um dies zu ermöglichen, erstellen wir einen erstmalig menschlich annotierten Benchmark und schlagen ein zeitlich bewusstes hierarchisches Evaluierungsframework vor. Darüber hinaus präsentieren wir OmniScript, ein 8-Milliarden-Parameter omni-modales (audiovisuelles) Sprachmodell, das für das langformatige narrative Verständnis konzipiert ist. OmniScript wird über eine progressive Pipeline trainiert, die Chain-of-Thought Supervised Fine-Tuning für Plot- und Charakterlogik nutzt, gefolgt von bestärkendem Lernen mit zeitlich segmentierten Belohnungen. Umfangreiche Experimente zeigen, dass OmniScript trotz seiner Parameter-Effizienz größere Open-Source-Modelle signifikant übertrifft und eine Leistung erreicht, die mit state-of-the-art proprietären Modellen, einschließlich Gemini 3-Pro, in sowohl zeitlicher Lokalisierung als auch semantischer Genauigkeit über mehrere Felder hinweg vergleichbar ist.
English
Current multimodal large language models (MLLMs) have demonstrated remarkable capabilities in short-form video understanding, yet translating long-form cinematic videos into detailed, temporally grounded scripts remains a significant challenge. This paper introduces the novel video-to-script (V2S) task, aiming to generate hierarchical, scene-by-scene scripts encompassing character actions, dialogues, expressions, and audio cues. To facilitate this, we construct a first-of-its-kind human-annotated benchmark and propose a temporally-aware hierarchical evaluation framework. Furthermore, we present OmniScript, an 8B-parameter omni-modal (audio-visual) language model tailored for long-form narrative comprehension. OmniScript is trained via a progressive pipeline that leverages chain-of-thought supervised fine-tuning for plot and character reasoning, followed by reinforcement learning using temporally segmented rewards. Extensive experiments demonstrate that despite its parameter efficiency, OmniScript significantly outperforms larger open-source models and achieves performance comparable to state-of-the-art proprietary models, including Gemini 3-Pro, in both temporal localization and multi-field semantic accuracy.