Helix4D : Génération de maillages 4D complexes

Résumé

Les méthodes actuelles de conversion vidéo-vers-4D peinent face aux changements de topologie complexes, aux matériaux transparents, aux structures fines et aux surfaces internes. Nous présentons Helix4D, un cadre de génération de maillages dynamiques qui hérite de la représentation expressive de Trellis2, en l'adaptant de la génération image-vers-3D à la génération 4D conditionnée par vidéo. Notre conception découle de deux questions clés : (a) comment permettre à l'attention locale aux trames de Trellis2 de partager des informations entre les trames tout en préservant sa qualité pré-entraînée sur les cas rares tels que les objets transparents et les surfaces internes, et (b) comment injecter une information temporelle dans un encodage positionnel purement 3D sans briser les capacités pré-entraînées. Nous répondons à (a) avec une attention inter-trame à fenêtre glissante et un ancrage sur la première trame. La première trame est générée par le modèle de base Trellis2 et injectée dans notre modèle, lui permettant d'hériter de la qualité de Trellis2 dans les cas rares grâce à l'attention inter-trame. Nous répondons à (b) avec un encodage temporel 4D qui réaffecte les bandes spatiales RoPE de basse fréquence redondantes à la dimension temporelle, étendant l'encodage depuis la 3D sans paramètres supplémentaires. Des expériences approfondies montrent l'efficacité de Helix4D pour la génération de maillages dynamiques de haute qualité sur ActionBench et notre propre ensemble de dynamiques complexes difficile.

English

Current video-to-4D methods struggle with complex topology changes, transparent materials, thin structures, and inner surfaces. We present Helix4D, a dynamic mesh generation framework by inheriting the expressive representation of Trellis2, adapting it from image-to-3D to video-conditioned 4D generation. Our design arises from two key questions: (a) how to enable Trellis2's frame-local attention to share information across frames while preserving its pretrained quality on rare cases such as transparent objects and inner surfaces, and (b) how to inject temporal information into a purely 3D positional encoding without breaking pretrained capabilities. We address (a) with a sliding-window cross-frame attention and anchor on the first frame. The first frame is generated by the base Trellis2 model and injected into our model, letting it inherit Trellis2's quality in rare cases through cross-frame attention. We address (b) with a 4D temporal encoding that repurposes redundant low-frequency spatial RoPE bands for time, extending the encoding from 3D with no additional parameters. Extensive experiments show the effectiveness of Helix4D for high-quality dynamic mesh generation on ActionBench and our own challenging complex dynamics set.