OmniScript: Op weg naar audiovisuele scriptgeneratie voor lange cinematografische video's

Samenvatting

Huidige multimodale grote taalmodellen (MLLM's) hebben opmerkelijke capaciteiten getoond in het begrijpen van korte video's, maar het vertalen van lange cinematische video's naar gedetailleerde, temporeel verankerde scripts blijft een grote uitdaging. Dit artikel introduceert de nieuwe video-naar-script (V2S) taak, die tot doel heeft hiërarchische, scène-voor-scène scripts te genereren die personagehandelingen, dialogen, expressies en audiocues omvatten. Om dit te faciliteren, construeren we een eerste-in-zijn-soort menselijk geannoteerd benchmark en stellen we een temporeel bewust hiërarchisch evaluatieraamwerk voor. Verder presenteren we OmniScript, een 8B-parameter omni-modale (audiovisuele) taalmodel toegesneden op langdurig narratief begrip. OmniScript wordt getraind via een progressieve pijplijn die gebruikmaakt van chain-of-thought supervised fine-tuning voor plot- en personageredenering, gevolgd door reinforcement learning met temporeel gesegmenteerde beloningen. Uitgebreide experimenten tonen aan dat OmniScript, ondanks zijn parameter efficiëntie, aanzienlijk beter presteert dan grotere open-source modellen en prestaties bereikt die vergelijkbaar zijn met state-of-the-art propriëtaire modellen, waaronder Gemini 3-Pro, in zowel temporele lokalisatie als semantische nauwkeurigheid in meerdere velden.

English

Current multimodal large language models (MLLMs) have demonstrated remarkable capabilities in short-form video understanding, yet translating long-form cinematic videos into detailed, temporally grounded scripts remains a significant challenge. This paper introduces the novel video-to-script (V2S) task, aiming to generate hierarchical, scene-by-scene scripts encompassing character actions, dialogues, expressions, and audio cues. To facilitate this, we construct a first-of-its-kind human-annotated benchmark and propose a temporally-aware hierarchical evaluation framework. Furthermore, we present OmniScript, an 8B-parameter omni-modal (audio-visual) language model tailored for long-form narrative comprehension. OmniScript is trained via a progressive pipeline that leverages chain-of-thought supervised fine-tuning for plot and character reasoning, followed by reinforcement learning using temporally segmented rewards. Extensive experiments demonstrate that despite its parameter efficiency, OmniScript significantly outperforms larger open-source models and achieves performance comparable to state-of-the-art proprietary models, including Gemini 3-Pro, in both temporal localization and multi-field semantic accuracy.

OmniScript: Op weg naar audiovisuele scriptgeneratie voor lange cinematografische video's

OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

Samenvatting

Support