Оживление объектов: генерация 4D из 3D объектов
Bringing Objects to Life: 4D generation from 3D objects
December 29, 2024
Авторы: Ohad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
cs.AI
Аннотация
Недавние достижения в области генеративного моделирования теперь позволяют создавать контент в 4D (движущиеся 3D объекты), управляемый текстовыми подсказками. Генерация в 4D имеет большой потенциал в приложениях, таких как виртуальные миры, медиа и игры, однако существующие методы обладают ограниченным контролем над внешним видом и геометрией созданного контента. В данной работе мы представляем метод анимации предоставленных пользователем 3D объектов путем условной генерации в 4D с использованием текстовых подсказок для управления процессом, обеспечивая создание индивидуальных анимаций при сохранении исходной идентичности объекта. Сначала мы преобразуем 3D сетку в "статическое" 4D нейронное поле излучения (NeRF), сохраняющее визуальные характеристики входного объекта. Затем мы анимируем объект с помощью модели диффузии изображения в видео, управляемой текстом. Для улучшения реалистичности движения мы представляем протокол пошагового выбора точек зрения для выборки перспектив с целью стимулирования естественного движения, а также потерю выборки сжатия оценки (SDS), которая использует карты внимания для фокусировки оптимизации на значимых областях. Мы оцениваем нашу модель с точки зрения временной согласованности, соблюдения подсказок и визуальной достоверности, и обнаруживаем, что наш метод превосходит базовые варианты, основанные на других подходах, достигая улучшений в сохранении идентичности вплоть до трехкратного увеличения по мере использования оценок LPIPS, а также эффективно сбалансировав качество изображения с динамичным контентом.
English
Recent advancements in generative modeling now enable the creation of 4D
content (moving 3D objects) controlled with text prompts. 4D generation has
large potential in applications like virtual worlds, media, and gaming, but
existing methods provide limited control over the appearance and geometry of
generated content. In this work, we introduce a method for animating
user-provided 3D objects by conditioning on textual prompts to guide 4D
generation, enabling custom animations while maintaining the identity of the
original object. We first convert a 3D mesh into a ``static" 4D Neural Radiance
Field (NeRF) that preserves the visual attributes of the input object. Then, we
animate the object using an Image-to-Video diffusion model driven by text. To
improve motion realism, we introduce an incremental viewpoint selection
protocol for sampling perspectives to promote lifelike movement and a masked
Score Distillation Sampling (SDS) loss, which leverages attention maps to focus
optimization on relevant regions. We evaluate our model in terms of temporal
coherence, prompt adherence, and visual fidelity and find that our method
outperforms baselines that are based on other approaches, achieving up to
threefold improvements in identity preservation measured using LPIPS scores,
and effectively balancing visual quality with dynamic content.