OmniScript: Hacia la Generación de Guiones Audiovisuales para Video Cinematográfico de Larga Duración

Resumen

Los modelos lingüísticos multimodales actuales (MLLMs) han demostrado capacidades notables en la comprensión de videos cortos; sin embargo, traducir videos cinematográficos de larga duración a guiones detallados y anclados temporalmente sigue siendo un desafío significativo. Este artículo presenta la novedosa tarea de video-a-guion (V2S), que busca generar guiones jerárquicos, escena por escena, que abarquen acciones de personajes, diálogos, expresiones y señales de audio. Para facilitar esto, construimos un punto de referencia pionero anotado por humanos y proponemos un marco de evaluación jerárquico y consciente del tiempo. Además, presentamos OmniScript, un modelo de lenguaje omni-modal (audiovisual) de 8 mil millones de parámetros especializado en la comprensión narrativa de larga duración. OmniScript se entrena mediante una canalización progresiva que aprovecha el ajuste fino supervisado mediante cadena de pensamiento para el razonamiento sobre la trama y los personajes, seguido de un aprendizaje por refuerzo que utiliza recompensas segmentadas temporalmente. Experimentos exhaustivos demuestran que, a pesar de su eficiencia en parámetros, OmniScript supera significativamente a modelos de código abierto más grandes y alcanza un rendimiento comparable al de los modelos propietarios más avanzados, incluido Gemini 3-Pro, tanto en localización temporal como en precisión semántica de campos múltiples.

English

Current multimodal large language models (MLLMs) have demonstrated remarkable capabilities in short-form video understanding, yet translating long-form cinematic videos into detailed, temporally grounded scripts remains a significant challenge. This paper introduces the novel video-to-script (V2S) task, aiming to generate hierarchical, scene-by-scene scripts encompassing character actions, dialogues, expressions, and audio cues. To facilitate this, we construct a first-of-its-kind human-annotated benchmark and propose a temporally-aware hierarchical evaluation framework. Furthermore, we present OmniScript, an 8B-parameter omni-modal (audio-visual) language model tailored for long-form narrative comprehension. OmniScript is trained via a progressive pipeline that leverages chain-of-thought supervised fine-tuning for plot and character reasoning, followed by reinforcement learning using temporally segmented rewards. Extensive experiments demonstrate that despite its parameter efficiency, OmniScript significantly outperforms larger open-source models and achieves performance comparable to state-of-the-art proprietary models, including Gemini 3-Pro, in both temporal localization and multi-field semantic accuracy.

OmniScript: Hacia la Generación de Guiones Audiovisuales para Video Cinematográfico de Larga Duración

OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

Resumen

Support