DragMesh: Generazione 3D Interattiva Semplificata

Abstract

Mentre i modelli generativi hanno eccelso nella creazione di contenuti 3D statici, la ricerca di sistemi in grado di comprendere come gli oggetti si muovono e rispondono alle interazioni rimane una sfida fondamentale. I metodi attuali per il movimento articolato si trovano a un bivio: sono o fisicamente coerenti ma troppo lenti per un uso in tempo reale, o generativi ma violano i vincoli cinematici di base. Presentiamo DragMesh, un framework robusto per l'articolazione 3D interattiva in tempo reale, costruito attorno a un nucleo di generazione del movimento leggero. Il nostro contributo principale è un framework innovativo che separa il ragionamento cinematico dalla generazione del movimento. In primo luogo, deduciamo i parametri latenti dei giunti separando il ragionamento sull'intento semantico (che determina il tipo di giunto) dalla regressione geometrica (che determina l'asse e l'origine utilizzando la nostra Kinematics Prediction Network, KPP-Net). In secondo luogo, per sfruttare le proprietà compatte, continue e prive di singolarità dei quaternioni duali per rappresentare il movimento dei corpi rigidi, sviluppiamo un nuovo Dual Quaternion VAE (DQ-VAE). Questo DQ-VAE riceve questi prior predetti, insieme al trascinamento originale dell'utente, per generare una traiettoria di movimento completa e plausibile. Per garantire una rigorosa aderenza alla cinematica, iniettiamo i prior dei giunti in ogni livello del decoder Transformer non autoregressivo del DQ-VAE utilizzando il condizionamento FiLM (Feature-wise Linear Modulation). Questa guida persistente e multi-scala è integrata da una funzione di perdita basata sul prodotto vettoriale numericamente stabile per garantire l'allineamento dell'asse. Questo design disaccoppiato consente a DragMesh di raggiungere prestazioni in tempo reale e di abilitare un'articolazione generativa plausibile su oggetti nuovi senza necessità di riaddestramento, offrendo un passo pratico verso l'intelligenza 3D generativa. Codice: https://github.com/AIGeeksGroup/DragMesh. Sito web: https://aigeeksgroup.github.io/DragMesh.

English

While generative models have excelled at creating static 3D content, the pursuit of systems that understand how objects move and respond to interactions remains a fundamental challenge. Current methods for articulated motion lie at a crossroads: they are either physically consistent but too slow for real-time use, or generative but violate basic kinematic constraints. We present DragMesh, a robust framework for real-time interactive 3D articulation built around a lightweight motion generation core. Our core contribution is a novel decoupled kinematic reasoning and motion generation framework. First, we infer the latent joint parameters by decoupling semantic intent reasoning (which determines the joint type) from geometric regression (which determines the axis and origin using our Kinematics Prediction Network (KPP-Net)). Second, to leverage the compact, continuous, and singularity-free properties of dual quaternions for representing rigid body motion, we develop a novel Dual Quaternion VAE (DQ-VAE). This DQ-VAE receives these predicted priors, along with the original user drag, to generate a complete, plausible motion trajectory. To ensure strict adherence to kinematics, we inject the joint priors at every layer of the DQ-VAE's non-autoregressive Transformer decoder using FiLM (Feature-wise Linear Modulation) conditioning. This persistent, multi-scale guidance is complemented by a numerically-stable cross-product loss to guarantee axis alignment. This decoupled design allows DragMesh to achieve real-time performance and enables plausible, generative articulation on novel objects without retraining, offering a practical step toward generative 3D intelligence. Code: https://github.com/AIGeeksGroup/DragMesh. Website: https://aigeeksgroup.github.io/DragMesh.

DragMesh: Generazione 3D Interattiva Semplificata

DragMesh: Interactive 3D Generation Made Easy

Abstract

Support