Helix4D: Generación de Mallas 4D Complejas

Resumen

Los métodos actuales de video a 4D tienen dificultades con cambios complejos de topología, materiales transparentes, estructuras delgadas y superficies internas. Presentamos Helix4D, un marco de generación de mallas dinámicas que hereda la representación expresiva de Trellis2, adaptándola de la generación de imagen a 3D a la generación de 4D condicionada por video. Nuestro diseño surge de dos preguntas clave: (a) cómo permitir que la atención local de fotogramas de Trellis2 comparta información entre fotogramas mientras preserva su calidad preentrenada en casos raros como objetos transparentes y superficies internas, y (b) cómo inyectar información temporal en una codificación posicional puramente 3D sin romper las capacidades preentrenadas. Abordamos (a) con una atención entre fotogramas de ventana deslizante y anclaje en el primer fotograma. El primer fotograma es generado por el modelo base Trellis2 e inyectado en nuestro modelo, permitiéndole heredar la calidad de Trellis2 en casos raros a través de la atención entre fotogramas. Abordamos (b) con una codificación temporal 4D que reutiliza bandas espaciales RoPE redundantes de baja frecuencia para el tiempo, extendiendo la codificación desde 3D sin parámetros adicionales. Extensos experimentos muestran la efectividad de Helix4D para la generación de mallas dinámicas de alta calidad en ActionBench y nuestro propio conjunto desafiante de dinámicas complejas.

English

Current video-to-4D methods struggle with complex topology changes, transparent materials, thin structures, and inner surfaces. We present Helix4D, a dynamic mesh generation framework by inheriting the expressive representation of Trellis2, adapting it from image-to-3D to video-conditioned 4D generation. Our design arises from two key questions: (a) how to enable Trellis2's frame-local attention to share information across frames while preserving its pretrained quality on rare cases such as transparent objects and inner surfaces, and (b) how to inject temporal information into a purely 3D positional encoding without breaking pretrained capabilities. We address (a) with a sliding-window cross-frame attention and anchor on the first frame. The first frame is generated by the base Trellis2 model and injected into our model, letting it inherit Trellis2's quality in rare cases through cross-frame attention. We address (b) with a 4D temporal encoding that repurposes redundant low-frequency spatial RoPE bands for time, extending the encoding from 3D with no additional parameters. Extensive experiments show the effectiveness of Helix4D for high-quality dynamic mesh generation on ActionBench and our own challenging complex dynamics set.