Helix4D: complexe 4D meshgeneratie

Samenvatting

Huidige video-naar-4D-methoden hebben moeite met complexe topologieveranderingen, transparante materialen, dunne structuren en binnenoppervlakken. Wij presenteren Helix4D, een raamwerk voor dynamische meshgeneratie dat de expressieve representatie van Trellis2 overneemt en deze aanpast van beeld-naar-3D naar video-geconditioneerde 4D-generatie. Ons ontwerp komt voort uit twee kernvragen: (a) hoe kan de frame-lokale aandacht van Trellis2 informatie uitwisselen tussen frames, terwijl de voorgetrainde kwaliteit op zeldzame gevallen zoals transparante objecten en binnenoppervlakken behouden blijft, en (b) hoe kan temporele informatie worden geïnjecteerd in een puur 3D-positionele codering zonder de voorgetrainde capaciteiten te verstoren. We pakken (a) aan met een schuifraam-kruisframe-aandacht die verankerd is op het eerste frame. Het eerste frame wordt gegenereerd door het basismodel Trellis2 en in ons model geïnjecteerd, zodat het via kruisframe-aandacht de kwaliteit van Trellis2 in zeldzame gevallen overneemt. We pakken (b) aan met een 4D-temporele codering die redundante laagfrequente ruimtelijke RoPE-banden hergebruikt voor tijd, waardoor de codering wordt uitgebreid van 3D zonder extra parameters. Uitgebreide experimenten tonen de effectiviteit van Helix4D voor hoogwaardige dynamische meshgeneratie op ActionBench en onze eigen uitdagende complexe-dynamicaset.

English

Current video-to-4D methods struggle with complex topology changes, transparent materials, thin structures, and inner surfaces. We present Helix4D, a dynamic mesh generation framework by inheriting the expressive representation of Trellis2, adapting it from image-to-3D to video-conditioned 4D generation. Our design arises from two key questions: (a) how to enable Trellis2's frame-local attention to share information across frames while preserving its pretrained quality on rare cases such as transparent objects and inner surfaces, and (b) how to inject temporal information into a purely 3D positional encoding without breaking pretrained capabilities. We address (a) with a sliding-window cross-frame attention and anchor on the first frame. The first frame is generated by the base Trellis2 model and injected into our model, letting it inherit Trellis2's quality in rare cases through cross-frame attention. We address (b) with a 4D temporal encoding that repurposes redundant low-frequency spatial RoPE bands for time, extending the encoding from 3D with no additional parameters. Extensive experiments show the effectiveness of Helix4D for high-quality dynamic mesh generation on ActionBench and our own challenging complex dynamics set.