DragMesh: Geração Interativa 3D Simplificada

Resumo

Embora os modelos generativos tenham se destacado na criação de conteúdo 3D estático, a busca por sistemas que compreendam como os objetos se movem e respondem a interações permanece um desafio fundamental. Os métodos atuais para movimento articulado encontram-se numa encruzilhada: são fisicamente consistentes, mas demasiado lentos para uso em tempo real, ou são generativos, mas violam restrições cinemáticas básicas. Apresentamos o DragMesh, uma estrutura robusta para articulação 3D interativa em tempo real, construída em torno de um núcleo leve de geração de movimento. A nossa principal contribuição é uma nova estrutura desacoplada de raciocínio cinemático e geração de movimento. Primeiro, inferimos os parâmetros latentes das juntas desacoplando o raciocínio da intenção semântica (que determina o tipo de junta) da regressão geométrica (que determina o eixo e a origem usando a nossa Rede de Predição Cinemática - KPP-Net). Segundo, para aproveitar as propriedades compactas, contínuas e livres de singularidades dos quaterniões duais para representar o movimento de corpo rígido, desenvolvemos uma nova VAE de Quaterniões Duais (DQ-VAE). Esta DQ-VAE recebe estes *priors* previstos, juntamente com o arrasto original do utilizador, para gerar uma trajetória de movimento completa e plausível. Para garantir uma adesão estrita à cinemática, injetamos os *priors* das juntas em cada camada do descodificador *Transformer* não autorregressivo da DQ-VAE usando condicionamento FiLM (Modulação Linear por *Feature*). Esta orientação persistente e multi-escala é complementada por uma função de perda de produto vetorial numericamente estável para garantir o alinhamento do eixo. Este projeto desacoplado permite ao DragMesh alcançar desempenho em tempo real e permite uma articulação generativa plausível em novos objetos sem necessidade de re-treinamento, oferecendo um passo prático em direção à inteligência 3D generativa. Código: https://github.com/AIGeeksGroup/DragMesh. Website: https://aigeeksgroup.github.io/DragMesh.

English

While generative models have excelled at creating static 3D content, the pursuit of systems that understand how objects move and respond to interactions remains a fundamental challenge. Current methods for articulated motion lie at a crossroads: they are either physically consistent but too slow for real-time use, or generative but violate basic kinematic constraints. We present DragMesh, a robust framework for real-time interactive 3D articulation built around a lightweight motion generation core. Our core contribution is a novel decoupled kinematic reasoning and motion generation framework. First, we infer the latent joint parameters by decoupling semantic intent reasoning (which determines the joint type) from geometric regression (which determines the axis and origin using our Kinematics Prediction Network (KPP-Net)). Second, to leverage the compact, continuous, and singularity-free properties of dual quaternions for representing rigid body motion, we develop a novel Dual Quaternion VAE (DQ-VAE). This DQ-VAE receives these predicted priors, along with the original user drag, to generate a complete, plausible motion trajectory. To ensure strict adherence to kinematics, we inject the joint priors at every layer of the DQ-VAE's non-autoregressive Transformer decoder using FiLM (Feature-wise Linear Modulation) conditioning. This persistent, multi-scale guidance is complemented by a numerically-stable cross-product loss to guarantee axis alignment. This decoupled design allows DragMesh to achieve real-time performance and enables plausible, generative articulation on novel objects without retraining, offering a practical step toward generative 3D intelligence. Code: https://github.com/AIGeeksGroup/DragMesh. Website: https://aigeeksgroup.github.io/DragMesh.

DragMesh: Geração Interativa 3D Simplificada

DragMesh: Interactive 3D Generation Made Easy

Resumo

Support