OmniScript: К созданию аудиовизуального сценария для длинных кинематографических видео
OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video
April 13, 2026
Авторы: Junfu Pu, Yuxin Chen, Teng Wang, Ying Shan
cs.AI
Аннотация
Современные мультимодальные большие языковые модели (МБЯМ) демонстрируют впечатляющие способности в понимании коротких видеороликов, однако преобразование полнометражных художественных фильмов в детализированные, временно привязанные сценарии остается серьезной проблемой. В данной работе представлена новая задача video-to-script (V2S), направленная на генерацию иерархических, пошаговых сценариев, включающих действия персонажей, диалоги, эмоции и звуковые сигналы. Для решения этой задачи мы создали первую в своем роде аннотированную экспертами эталонную базу и предложили учитывающую временную структуру иерархическую систему оценки. Кроме того, мы представляем OmniScript — 8-миллиардную омнимодальную (аудиовизуальную) языковую модель, специализированную для понимания длинных повествовательных видео. Обучение OmniScript проводится по прогрессивному конвейеру, использующему контролируемую тонкую настройку по методу "рассуждений по цепочке" для анализа сюжета и персонажей с последующим обучением с подкреплением на основе временно сегментированных вознаграждений. Многочисленные эксперименты показывают, что, несмотря на эффективное использование параметров, OmniScript значительно превосходит более крупные открытые модели и демонстрирует результаты, сопоставимые с передними проприетарными моделями, включая Gemini 3-Pro, как по точности временной локализации, так и по семантической точности в различных полях.
English
Current multimodal large language models (MLLMs) have demonstrated remarkable capabilities in short-form video understanding, yet translating long-form cinematic videos into detailed, temporally grounded scripts remains a significant challenge. This paper introduces the novel video-to-script (V2S) task, aiming to generate hierarchical, scene-by-scene scripts encompassing character actions, dialogues, expressions, and audio cues. To facilitate this, we construct a first-of-its-kind human-annotated benchmark and propose a temporally-aware hierarchical evaluation framework. Furthermore, we present OmniScript, an 8B-parameter omni-modal (audio-visual) language model tailored for long-form narrative comprehension. OmniScript is trained via a progressive pipeline that leverages chain-of-thought supervised fine-tuning for plot and character reasoning, followed by reinforcement learning using temporally segmented rewards. Extensive experiments demonstrate that despite its parameter efficiency, OmniScript significantly outperforms larger open-source models and achieves performance comparable to state-of-the-art proprietary models, including Gemini 3-Pro, in both temporal localization and multi-field semantic accuracy.