ChatPaper.aiChatPaper

Точное генерация видео на основе действий с использованием визуальных подсказок действий

Precise Action-to-Video Generation Through Visual Action Prompts

August 18, 2025
Авторы: Yuang Wang, Chao Wen, Haoyu Guo, Sida Peng, Minghan Qin, Hujun Bao, Xiaowei Zhou, Ruizhen Hu
cs.AI

Аннотация

Мы представляем визуальные подсказки для действий — унифицированное представление действий для генерации видео на основе сложных взаимодействий с высокой степенью свободы (DoF), сохраняя при этом переносимую визуальную динамику между доменами. Генерация видео, управляемая действиями, сталкивается с компромиссом между точностью и общностью: существующие методы, использующие текст, примитивные действия или грубые маски, предлагают общность, но страдают от недостатка точности, в то время как сигналы действий, ориентированные на агента, обеспечивают точность за счет переносимости между доменами. Чтобы сбалансировать точность действий и переносимость динамики, мы предлагаем "визуализировать" действия в виде точных визуальных подсказок как доменно-независимых представлений, которые сохраняют как геометрическую точность, так и адаптивность между доменами для сложных действий; в частности, мы выбираем визуальные скелеты за их универсальность и доступность. Мы предлагаем надежные подходы для построения скелетов из двух источников данных, богатых взаимодействиями — взаимодействий человек-объект (HOI) и манипуляций с ловкими роботами, — что позволяет проводить кросс-доменное обучение генеративных моделей, управляемых действиями. Интегрируя визуальные скелеты в предобученные модели генерации видео с помощью легкой тонкой настройки, мы обеспечиваем точное управление сложными взаимодействиями, сохраняя при этом обучение динамике между доменами. Эксперименты на наборах данных EgoVid, RT-1 и DROID демонстрируют эффективность нашего подхода. Страница проекта: https://zju3dv.github.io/VAP/.
English
We present visual action prompts, a unified action representation for action-to-video generation of complex high-DoF interactions while maintaining transferable visual dynamics across domains. Action-driven video generation faces a precision-generality trade-off: existing methods using text, primitive actions, or coarse masks offer generality but lack precision, while agent-centric action signals provide precision at the cost of cross-domain transferability. To balance action precision and dynamic transferability, we propose to "render" actions into precise visual prompts as domain-agnostic representations that preserve both geometric precision and cross-domain adaptability for complex actions; specifically, we choose visual skeletons for their generality and accessibility. We propose robust pipelines to construct skeletons from two interaction-rich data sources - human-object interactions (HOI) and dexterous robotic manipulation - enabling cross-domain training of action-driven generative models. By integrating visual skeletons into pretrained video generation models via lightweight fine-tuning, we enable precise action control of complex interaction while preserving the learning of cross-domain dynamics. Experiments on EgoVid, RT-1 and DROID demonstrate the effectiveness of our proposed approach. Project page: https://zju3dv.github.io/VAP/.
PDF82August 19, 2025