ChatPaper.aiChatPaper

DreaMontage: Генерация односнимкового видео с произвольным управлением кадрами

DreaMontage: Arbitrary Frame-Guided One-Shot Video Generation

December 24, 2025
Авторы: Jiawei Liu, Junqiao Li, Jiangfan Deng, Gen Li, Siyu Zhou, Zetao Fang, Shanshan Lao, Zengde Deng, Jianing Zhu, Tingting Ma, Jiayi Li, Yunqiu Wang, Qian He, Xinglong Wu
cs.AI

Аннотация

Техника «одного кадра» представляет собой самобытную и сложную эстетику кинематографа. Однако её практическая реализация часто сталкивается с непомерными затратами и сложными ограничениями реального мира. Хотя появляющиеся модели генерации видео предлагают виртуальную альтернативу, существующие подходы обычно полагаются на наивную конкатенацию клипов, что часто не позволяет обеспечить визуальную плавность и временную согласованность. В данной статье мы представляем DreaMontage — комплексную структуру, разработанную для произвольной генерации на основе кадров, способную синтезировать бесшовные, выразительные и продолжительные видео в стиле «одного кадра» из разнообразных пользовательских данных. Для достижения этой цели мы решаем задачу по трём основным направлениям. (i) Мы интегрируем в архитектуру DiT облегчённый механизм промежуточного кондиционирования. Используя стратегию Adaptive Tuning, которая эффективно задействует данные базового обучения, мы раскрываем возможности надёжного произвольного управления по кадрам. (ii) Для повышения визуального качества и кинематографической выразительности мы создаём высококачественный набор данных и внедряем этап тонкой настройки Visual Expression SFT. Решая ключевые проблемы, такие как правдоподобность движения объекта и плавность переходов, мы применяем специализированную схему Tailored DPO, что существенно повышает процент успешных результатов и практическую применимость генерируемого контента. (iii) Для упрощения создания протяжённых последовательностей мы разрабатываем сегментную авторегрессионную стратегию вывода, работающую с эффективным использованием памяти. Многочисленные эксперименты демонстрируют, что наш подход позволяет достигать визуально впечатляющих и бесшовно согласованных эффектов «одного кадра» при сохранении вычислительной эффективности, давая пользователям возможность преобразовывать фрагментированные визуальные материалы в яркие, целостные кинематографические впечатления в формате одного кадра.
English
The "one-shot" technique represents a distinct and sophisticated aesthetic in filmmaking. However, its practical realization is often hindered by prohibitive costs and complex real-world constraints. Although emerging video generation models offer a virtual alternative, existing approaches typically rely on naive clip concatenation, which frequently fails to maintain visual smoothness and temporal coherence. In this paper, we introduce DreaMontage, a comprehensive framework designed for arbitrary frame-guided generation, capable of synthesizing seamless, expressive, and long-duration one-shot videos from diverse user-provided inputs. To achieve this, we address the challenge through three primary dimensions. (i) We integrate a lightweight intermediate-conditioning mechanism into the DiT architecture. By employing an Adaptive Tuning strategy that effectively leverages base training data, we unlock robust arbitrary-frame control capabilities. (ii) To enhance visual fidelity and cinematic expressiveness, we curate a high-quality dataset and implement a Visual Expression SFT stage. In addressing critical issues such as subject motion rationality and transition smoothness, we apply a Tailored DPO scheme, which significantly improves the success rate and usability of the generated content. (iii) To facilitate the production of extended sequences, we design a Segment-wise Auto-Regressive (SAR) inference strategy that operates in a memory-efficient manner. Extensive experiments demonstrate that our approach achieves visually striking and seamlessly coherent one-shot effects while maintaining computational efficiency, empowering users to transform fragmented visual materials into vivid, cohesive one-shot cinematic experiences.
PDF221December 26, 2025