OmniScript : Vers une génération de scénarios audio-visuels pour les vidéos cinématographiques de longue durée

Résumé

Les modèles linguistiques multimodaux (MLLM) actuels ont démontré des capacités remarquables dans la compréhension de vidéos courtes, mais la traduction de vidéos cinématographiques longues en scripts détaillés et temporellement ancrés reste un défi majeur. Cet article introduit la nouvelle tâche de conversion vidéo-vers-script (V2S), visant à générer des scripts hiérarchiques scène par scène englobant les actions des personnages, les dialogues, les expressions et les indices audio. Pour faciliter cela, nous construisons un benchmark annoté humain, le premier en son genre, et proposons un cadre d'évaluation hiérarchique sensible au temps. De plus, nous présentons OmniScript, un modèle linguistique omni-modal (audio-visuel) de 8 milliards de paramètres conçu pour la compréhension narrative de longs métrages. OmniScript est entraîné via un pipeline progressif qui tire parti d'un fine-tuning supervisé en chaîne de réflexion (chain-of-thought) pour le raisonnement sur l'intrigue et les personnages, suivi d'un apprentissage par renforcement utilisant des récompenses segmentées temporellement. Des expériences approfondies démontrent que, malgré son efficacité en paramètres, OmniScript surpasse significativement les modèles open-source plus grands et atteint des performances comparables aux modèles propriétaires de pointe, y compris Gemini 3-Pro, à la fois en localisation temporelle et en précision sémantique multi-champs.

English

Current multimodal large language models (MLLMs) have demonstrated remarkable capabilities in short-form video understanding, yet translating long-form cinematic videos into detailed, temporally grounded scripts remains a significant challenge. This paper introduces the novel video-to-script (V2S) task, aiming to generate hierarchical, scene-by-scene scripts encompassing character actions, dialogues, expressions, and audio cues. To facilitate this, we construct a first-of-its-kind human-annotated benchmark and propose a temporally-aware hierarchical evaluation framework. Furthermore, we present OmniScript, an 8B-parameter omni-modal (audio-visual) language model tailored for long-form narrative comprehension. OmniScript is trained via a progressive pipeline that leverages chain-of-thought supervised fine-tuning for plot and character reasoning, followed by reinforcement learning using temporally segmented rewards. Extensive experiments demonstrate that despite its parameter efficiency, OmniScript significantly outperforms larger open-source models and achieves performance comparable to state-of-the-art proprietary models, including Gemini 3-Pro, in both temporal localization and multi-field semantic accuracy.

OmniScript : Vers une génération de scénarios audio-visuels pour les vidéos cinématographiques de longue durée

OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

Résumé

Support