OmniScript: Verso la Generazione di Script Audio-Visivi per Video Cinematografici di Lunga Durata
OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video
April 13, 2026
Autori: Junfu Pu, Yuxin Chen, Teng Wang, Ying Shan
cs.AI
Abstract
I modelli linguistici multimodali (MLLM) attuali hanno dimostrato capacità notevoli nella comprensione di video brevi, ma tradurre video cinematografici di lunga durata in sceneggiature dettagliate e temporalmente contestualizzate rimane una sfida significativa. Questo articolo introduce il nuovo compito video-to-script (V2S), che mira a generare sceneggiature gerarchiche, scena per scena, comprendenti azioni dei personaggi, dialoghi, espressioni e segnali audio. Per facilitare ciò, abbiamo costruito un benchmark annotato manualmente, il primo nel suo genere, e proponiamo un framework di valutazione gerarchico e temporalmente consapevole. Inoltre, presentiamo OmniScript, un modello linguistico omni-modale (audio-visivo) da 8 miliardi di parametri, progettato specificamente per la comprensione narrativa di lunga durata. OmniScript viene addestrato attraverso una pipeline progressiva che sfrutta un fine-tuning supervisionato a catena del pensiero (chain-of-thought) per il ragionamento sulla trama e i personaggi, seguito da un apprendimento per rinforzo che utilizza ricompense segmentate temporalmente. Esperimenti estensivi dimostrano che, nonostante la sua efficienza in termini di parametri, OmniScript supera significativamente modelli open-source più grandi e raggiunge prestazioni paragonabili ai modelli proprietari all'avanguardia, incluso Gemini 3-Pro, sia nella localizzazione temporale che nell'accuratezza semantica multi-campo.
English
Current multimodal large language models (MLLMs) have demonstrated remarkable capabilities in short-form video understanding, yet translating long-form cinematic videos into detailed, temporally grounded scripts remains a significant challenge. This paper introduces the novel video-to-script (V2S) task, aiming to generate hierarchical, scene-by-scene scripts encompassing character actions, dialogues, expressions, and audio cues. To facilitate this, we construct a first-of-its-kind human-annotated benchmark and propose a temporally-aware hierarchical evaluation framework. Furthermore, we present OmniScript, an 8B-parameter omni-modal (audio-visual) language model tailored for long-form narrative comprehension. OmniScript is trained via a progressive pipeline that leverages chain-of-thought supervised fine-tuning for plot and character reasoning, followed by reinforcement learning using temporally segmented rewards. Extensive experiments demonstrate that despite its parameter efficiency, OmniScript significantly outperforms larger open-source models and achieves performance comparable to state-of-the-art proprietary models, including Gemini 3-Pro, in both temporal localization and multi-field semantic accuracy.