SViMo: Синхронизированная диффузия для генерации видео и движений в сценариях взаимодействия руки с объектом
SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios
June 3, 2025
Авторы: Lingwei Dang, Ruizhi Shao, Hongwen Zhang, Wei Min, Yebin Liu, Qingyao Wu
cs.AI
Аннотация
Генерация взаимодействия руки с объектом (Hand-Object Interaction, HOI) обладает значительным прикладным потенциалом. Однако современные подходы к генерации 3D-движений HOI в значительной степени зависят от предопределенных 3D-моделей объектов и данных о движениях, полученных в лабораторных условиях, что ограничивает их способность к обобщению. В то же время методы генерации видео HOI сосредоточены на визуальной точности на уровне пикселей, часто жертвуя физической правдоподобностью. Учитывая, что визуальный вид и паттерны движения в реальном мире подчиняются фундаментальным физическим законам, мы предлагаем новый фреймворк, который объединяет визуальные априорные знания и динамические ограничения в рамках синхронизированного процесса диффузии для одновременной генерации видео и движений HOI. Для интеграции гетерогенных семантик, внешнего вида и характеристик движения наш метод реализует тримодальную адаптивную модуляцию для согласования признаков, дополненную 3D-полным вниманием для моделирования меж- и внутримодальных зависимостей. Кроме того, мы представляем визуально-осознанную 3D-модель диффузии взаимодействия, которая генерирует явные 3D-последовательности взаимодействий непосредственно из синхронизированных выходов диффузии, а затем возвращает их для создания замкнутого цикла обратной связи. Эта архитектура устраняет зависимость от предопределенных моделей объектов или явного руководства по позам, одновременно значительно повышая согласованность видео и движений. Результаты экспериментов демонстрируют превосходство нашего метода над современными подходами в генерации высококачественных, динамически правдоподобных последовательностей HOI с заметной способностью к обобщению в неизвестных реальных сценариях. Страница проекта доступна по адресу https://github.com/Droliven/SViMo\_project.
English
Hand-Object Interaction (HOI) generation has significant application
potential. However, current 3D HOI motion generation approaches heavily rely on
predefined 3D object models and lab-captured motion data, limiting
generalization capabilities. Meanwhile, HOI video generation methods prioritize
pixel-level visual fidelity, often sacrificing physical plausibility.
Recognizing that visual appearance and motion patterns share fundamental
physical laws in the real world, we propose a novel framework that combines
visual priors and dynamic constraints within a synchronized diffusion process
to generate the HOI video and motion simultaneously. To integrate the
heterogeneous semantics, appearance, and motion features, our method implements
tri-modal adaptive modulation for feature aligning, coupled with 3D
full-attention for modeling inter- and intra-modal dependencies. Furthermore,
we introduce a vision-aware 3D interaction diffusion model that generates
explicit 3D interaction sequences directly from the synchronized diffusion
outputs, then feeds them back to establish a closed-loop feedback cycle. This
architecture eliminates dependencies on predefined object models or explicit
pose guidance while significantly enhancing video-motion consistency.
Experimental results demonstrate our method's superiority over state-of-the-art
approaches in generating high-fidelity, dynamically plausible HOI sequences,
with notable generalization capabilities in unseen real-world scenarios.
Project page at https://github.com/Droliven/SViMo\_project.