Helix4D: Генерация сложной 4D сетки

Аннотация

Современные методы преобразования видео в 4D сталкиваются с трудностями при обработке сложных топологических изменений, прозрачных материалов, тонких структур и внутренних поверхностей. Мы представляем Helix4D — фреймворк для генерации динамических сеток, наследующий выразительное представление Trellis2 и адаптирующий его от генерации изображение-в-3D к видео-обусловленной генерации 4D. Наша разработка основана на двух ключевых вопросах: (а) как обеспечить обмен информацией между кадрами в локальном внимании Trellis2, сохранив при этом его предобученное качество на редких случаях, таких как прозрачные объекты и внутренние поверхности, и (б) как внедрить временную информацию в чисто 3D-позиционное кодирование, не нарушая предобученных возможностей. Для решения (а) мы используем скользящее межкадровое внимание с привязкой к первому кадру. Первый кадр генерируется базовой моделью Trellis2 и подается в нашу модель, что позволяет ей наследовать качество Trellis2 на редких случаях через межкадровое внимание. Для решения (б) мы применяем 4D-временное кодирование, которое переназначает избыточные низкочастотные пространственные полосы RoPE на время, расширяя кодирование с 3D без добавления новых параметров. Обширные эксперименты демонстрируют эффективность Helix4D для высококачественной генерации динамических сеток на ActionBench и нашем собственном сложном наборе динамических сцен.

English

Current video-to-4D methods struggle with complex topology changes, transparent materials, thin structures, and inner surfaces. We present Helix4D, a dynamic mesh generation framework by inheriting the expressive representation of Trellis2, adapting it from image-to-3D to video-conditioned 4D generation. Our design arises from two key questions: (a) how to enable Trellis2's frame-local attention to share information across frames while preserving its pretrained quality on rare cases such as transparent objects and inner surfaces, and (b) how to inject temporal information into a purely 3D positional encoding without breaking pretrained capabilities. We address (a) with a sliding-window cross-frame attention and anchor on the first frame. The first frame is generated by the base Trellis2 model and injected into our model, letting it inherit Trellis2's quality in rare cases through cross-frame attention. We address (b) with a 4D temporal encoding that repurposes redundant low-frequency spatial RoPE bands for time, extending the encoding from 3D with no additional parameters. Extensive experiments show the effectiveness of Helix4D for high-quality dynamic mesh generation on ActionBench and our own challenging complex dynamics set.