Helix4D: Komplexe 4D-Netzgenerierung

Zusammenfassung

Aktuelle Video-zu-4D-Methoden haben Schwierigkeiten mit komplexen Topologieänderungen, transparenten Materialien, dünnen Strukturen und inneren Oberflächen. Wir stellen Helix4D vor, ein Framework zur dynamischen Gittererzeugung, das die ausdrucksstarke Repräsentation von Trellis2 übernimmt und von der Bild-zu-3D-Generierung auf die videobedingte 4D-Generierung überträgt. Unser Ansatz ergibt sich aus zwei Schlüsselfragen: (a) Wie kann die bildlokale Aufmerksamkeit von Trellis2 dazu befähigt werden, Informationen zwischen Bildern auszutauschen, während die vortrainierte Qualität bei seltenen Fällen wie transparenten Objekten und inneren Oberflächen erhalten bleibt? (b) Wie können zeitliche Informationen in eine rein 3D-Positionskodierung eingebracht werden, ohne die vortrainierten Fähigkeiten zu beeinträchtigen? Wir adressieren (a) mit einer gleitenden Fenster-übergreifenden Aufmerksamkeit und Verankerung am ersten Bild. Das erste Bild wird vom Basis-Trellis2-Modell erzeugt und in unser Modell eingespeist, sodass es durch die bildübergreifende Aufmerksamkeit die Qualität von Trellis2 bei seltenen Fällen übernimmt. Wir adressieren (b) mit einer 4D-Zeitkodierung, die redundante niederfrequente räumliche RoPE-Bänder für die Zeit umwidmet und so die Kodierung ohne zusätzliche Parameter von 3D erweitert. Umfangreiche Experimente belegen die Wirksamkeit von Helix4D für die qualitativ hochwertige dynamische Gittererzeugung auf ActionBench und unserem eigenen anspruchsvollen Satz komplexer Dynamiken.

English

Current video-to-4D methods struggle with complex topology changes, transparent materials, thin structures, and inner surfaces. We present Helix4D, a dynamic mesh generation framework by inheriting the expressive representation of Trellis2, adapting it from image-to-3D to video-conditioned 4D generation. Our design arises from two key questions: (a) how to enable Trellis2's frame-local attention to share information across frames while preserving its pretrained quality on rare cases such as transparent objects and inner surfaces, and (b) how to inject temporal information into a purely 3D positional encoding without breaking pretrained capabilities. We address (a) with a sliding-window cross-frame attention and anchor on the first frame. The first frame is generated by the base Trellis2 model and injected into our model, letting it inherit Trellis2's quality in rare cases through cross-frame attention. We address (b) with a 4D temporal encoding that repurposes redundant low-frequency spatial RoPE bands for time, extending the encoding from 3D with no additional parameters. Extensive experiments show the effectiveness of Helix4D for high-quality dynamic mesh generation on ActionBench and our own challenging complex dynamics set.