OmniScript: Rumo à Geração de Roteiros Áudio-Visuais para Vídeos Cinematográficos de Longa Duração

Resumo

Os modelos multimodais de grande capacidade linguística (MLLMs) atuais demonstraram capacidades notáveis na compreensão de vídeos de curta duração, mas a tradução de vídeos cinematográficos de longa duração em scripts detalhados e temporalmente fundamentados continua sendo um desafio significativo. Este artigo introduz a nova tarefa de vídeo-para-script (V2S), visando gerar scripts hierárquicos, cena a cena, abrangendo ações de personagens, diálogos, expressões e pistas de áudio. Para viabilizar isso, construímos um benchmark pioneiro anotado por humanos e propomos uma estrutura de avaliação hierárquica temporalmente consciente. Além disso, apresentamos o OmniScript, um modelo linguístico omni-modal (áudio-visual) com 8 bilhões de parâmetros, especializado na compreensão narrativa de longa duração. O OmniScript é treinado por meio de um pipeline progressivo que aproveita o ajuste fino supervisionado por corrente de pensamento para o raciocínio de enredo e personagens, seguido por aprendizado por reforço usando recompensas segmentadas temporalmente. Experimentos extensivos demonstram que, apesar de sua eficiência parametrizada, o OmniScript supera significativamente modelos de código aberto maiores e alcança desempenho comparável aos modelos proprietários de última geração, incluindo o Gemini 3-Pro, tanto na localização temporal quanto na precisão semântica de múltiplos campos.

English

Current multimodal large language models (MLLMs) have demonstrated remarkable capabilities in short-form video understanding, yet translating long-form cinematic videos into detailed, temporally grounded scripts remains a significant challenge. This paper introduces the novel video-to-script (V2S) task, aiming to generate hierarchical, scene-by-scene scripts encompassing character actions, dialogues, expressions, and audio cues. To facilitate this, we construct a first-of-its-kind human-annotated benchmark and propose a temporally-aware hierarchical evaluation framework. Furthermore, we present OmniScript, an 8B-parameter omni-modal (audio-visual) language model tailored for long-form narrative comprehension. OmniScript is trained via a progressive pipeline that leverages chain-of-thought supervised fine-tuning for plot and character reasoning, followed by reinforcement learning using temporally segmented rewards. Extensive experiments demonstrate that despite its parameter efficiency, OmniScript significantly outperforms larger open-source models and achieves performance comparable to state-of-the-art proprietary models, including Gemini 3-Pro, in both temporal localization and multi-field semantic accuracy.

OmniScript: Rumo à Geração de Roteiros Áudio-Visuais para Vídeos Cinematográficos de Longa Duração

OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

Resumo

Support