DragMesh: Интерактивная 3D-генерация стала проще

Аннотация

Хотя генеративные модели достигли значительных успехов в создании статичного 3D-контента, разработка систем, которые понимают, как объекты движутся и реагируют на взаимодействия, остается фундаментальной проблемой. Современные методы для моделирования сочлененного движения находятся на перепутье: они либо физически корректны, но слишком медленны для работы в реальном времени, либо являются генеративными, но нарушают базовые кинематические ограничения. Мы представляем DragMesh — надежный фреймворк для интерактивной 3D-артикуляции в реальном времени, построенный вокруг легковесного ядра генерации движений. Нашим ключевым вкладом является новая архитектура с раздельным кинематическим анализом и генерацией движения. Сначала мы определяем латентные параметры сочленения, разделяя семантический анализ намерения (который определяет тип соединения) и геометрическую регрессию (которая определяет ось и начало координат с помощью нашей сети предсказания кинематики, KPP-Net). Во-вторых, чтобы использовать компактные, непрерывные и свободные от сингулярностей свойства двойных кватернионов для представления движения твердого тела, мы разработали новый VAE на основе двойных кватернионов (DQ-VAE). Этот DQ-VAE получает эти предсказанные априорные значения вместе с исходным перемещением, заданным пользователем, чтобы сгенерировать полную, правдоподобную траекторию движения. Для обеспечения строгого соблюдения кинематических ограничений мы внедряем априорные знания о соединении на каждом слое неавторегрессивного трансформер-декодера DQ-VAE с использованием условной модуляции FiLM (Feature-wise Linear Modulation). Это постоянное, многоуровневое руководство дополняется численно стабильной векторно-перекрестной функцией потерь для гарантии выравнивания оси. Такая разделенная архитектура позволяет DragMesh достигать производительности в реальном времени и обеспечивать правдоподобную генеративную артикуляцию для новых объектов без переобучения, что представляет собой практический шаг к генеративному 3D-интеллекту. Код: https://github.com/AIGeeksGroup/DragMesh. Веб-сайт: https://aigeeksgroup.github.io/DragMesh.

English

While generative models have excelled at creating static 3D content, the pursuit of systems that understand how objects move and respond to interactions remains a fundamental challenge. Current methods for articulated motion lie at a crossroads: they are either physically consistent but too slow for real-time use, or generative but violate basic kinematic constraints. We present DragMesh, a robust framework for real-time interactive 3D articulation built around a lightweight motion generation core. Our core contribution is a novel decoupled kinematic reasoning and motion generation framework. First, we infer the latent joint parameters by decoupling semantic intent reasoning (which determines the joint type) from geometric regression (which determines the axis and origin using our Kinematics Prediction Network (KPP-Net)). Second, to leverage the compact, continuous, and singularity-free properties of dual quaternions for representing rigid body motion, we develop a novel Dual Quaternion VAE (DQ-VAE). This DQ-VAE receives these predicted priors, along with the original user drag, to generate a complete, plausible motion trajectory. To ensure strict adherence to kinematics, we inject the joint priors at every layer of the DQ-VAE's non-autoregressive Transformer decoder using FiLM (Feature-wise Linear Modulation) conditioning. This persistent, multi-scale guidance is complemented by a numerically-stable cross-product loss to guarantee axis alignment. This decoupled design allows DragMesh to achieve real-time performance and enables plausible, generative articulation on novel objects without retraining, offering a practical step toward generative 3D intelligence. Code: https://github.com/AIGeeksGroup/DragMesh. Website: https://aigeeksgroup.github.io/DragMesh.

DragMesh: Интерактивная 3D-генерация стала проще

DragMesh: Interactive 3D Generation Made Easy

Аннотация

Support