Tri-Prompting: Видеодиффузия с унифицированным контролем над сценой, объектом и движением
Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion
March 16, 2026
Авторы: Zhenghong Zhou, Xiaohang Zhan, Zhiqin Chen, Soo Ye Kim, Nanxuan Zhao, Haitian Zheng, Qing Liu, He Zhang, Zhe Lin, Yuqian Zhou, Jiebo Luo
cs.AI
Аннотация
Современные модели видео-диффузии демонстрируют впечатляющий прогресс в визуальном качестве, однако точный, детализированный контроль остается ключевым ограничением, сдерживающим практическую настраиваемость для создания контента. Для создателей видео с ИИ критически важны три формы контроля: (i) композиция сцены, (ii) согласованная настройка объекта в нескольких ракурсах и (iii) регулировка позы камеры или движения объекта. Существующие методы обычно работают с этими аспектами изолированно, обладая ограниченной поддержкой синтеза объекта в нескольких видах и сохранения идентичности при произвольных изменениях позы. Отсутствие единой архитектуры затрудняет создание универсального, совместно управляемого видео. Мы представляем Tri-Prompting — унифицированную структуру и двухэтапную парадигму обучения, которая интегрирует композицию сцены, согласованность объекта в нескольких ракурсах и управление движением. Наш подход использует двухусловный модуль движения, управляемый 3D-трекингом точек для фоновых сцен и уменьшенными RGB-данными для переднеплановых объектов. Для обеспечения баланса между управляемостью и визуальным реализмом мы дополнительно предлагаем планировщик масштаба ControlNet на этапе вывода. Tri-Prompting поддерживает новые рабочие процессы, включая 3D-осознанное помещение объекта в любые сцены и манипуляцию существующими объектами на изображении. Экспериментальные результаты показывают, что Tri-Prompting значительно превосходит специализированные базовые методы, такие как Phantom и DaS, по идентичности объекта в нескольких ракурсах, 3D-согласованности и точности движения.
English
Recent video diffusion models have made remarkable strides in visual quality, yet precise, fine-grained control remains a key bottleneck that limits practical customizability for content creation. For AI video creators, three forms of control are crucial: (i) scene composition, (ii) multi-view consistent subject customization, and (iii) camera-pose or object-motion adjustment. Existing methods typically handle these dimensions in isolation, with limited support for multi-view subject synthesis and identity preservation under arbitrary pose changes. This lack of a unified architecture makes it difficult to support versatile, jointly controllable video. We introduce Tri-Prompting, a unified framework and two-stage training paradigm that integrates scene composition, multi-view subject consistency, and motion control. Our approach leverages a dual-condition motion module driven by 3D tracking points for background scenes and downsampled RGB cues for foreground subjects. To ensure a balance between controllability and visual realism, we further propose an inference ControlNet scale schedule. Tri-Prompting supports novel workflows, including 3D-aware subject insertion into any scenes and manipulation of existing subjects in an image. Experimental results demonstrate that Tri-Prompting significantly outperforms specialized baselines such as Phantom and DaS in multi-view subject identity, 3D consistency, and motion accuracy.