Helix4D: Geração de Malhas 4D Complexas

Resumo

Os métodos atuais de vídeo para 4D enfrentam dificuldades com mudanças topológicas complexas, materiais transparentes, estruturas finas e superfícies internas. Apresentamos o Helix4D, uma estrutura de geração de malhas dinâmicas que herda a representação expressiva do Trellis2, adaptando-a de geração de imagem para 3D para geração de 4D condicionada a vídeo. Nosso projeto surge de duas questões-chave: (a) como permitir que a atenção local ao quadro do Trellis2 compartilhe informações entre quadros enquanto preserva sua qualidade pré-treinada em casos raros, como objetos transparentes e superfícies internas, e (b) como injetar informação temporal em uma codificação posicional puramente 3D sem comprometer as capacidades pré-treinadas. Abordamos (a) com uma atenção cruzada entre quadros com janela deslizante e âncora no primeiro quadro. O primeiro quadro é gerado pelo modelo base Trellis2 e injetado em nosso modelo, permitindo que ele herde a qualidade do Trellis2 em casos raros através da atenção cruzada entre quadros. Abordamos (b) com uma codificação temporal 4D que reaproveita bandas RoPE espaciais redundantes de baixa frequência para o tempo, estendendo a codificação do 3D sem parâmetros adicionais. Extensos experimentos mostram a eficácia do Helix4D para geração de malhas dinâmicas de alta qualidade no ActionBench e em nosso próprio conjunto desafiador de dinâmicas complexas.

English

Current video-to-4D methods struggle with complex topology changes, transparent materials, thin structures, and inner surfaces. We present Helix4D, a dynamic mesh generation framework by inheriting the expressive representation of Trellis2, adapting it from image-to-3D to video-conditioned 4D generation. Our design arises from two key questions: (a) how to enable Trellis2's frame-local attention to share information across frames while preserving its pretrained quality on rare cases such as transparent objects and inner surfaces, and (b) how to inject temporal information into a purely 3D positional encoding without breaking pretrained capabilities. We address (a) with a sliding-window cross-frame attention and anchor on the first frame. The first frame is generated by the base Trellis2 model and injected into our model, letting it inherit Trellis2's quality in rare cases through cross-frame attention. We address (b) with a 4D temporal encoding that repurposes redundant low-frequency spatial RoPE bands for time, extending the encoding from 3D with no additional parameters. Extensive experiments show the effectiveness of Helix4D for high-quality dynamic mesh generation on ActionBench and our own challenging complex dynamics set.