Оживление объектов: генерация 4D из 3D объектовBringing Objects to Life: 4D generation from 3D objects
Недавние достижения в области генеративного моделирования теперь позволяют создавать контент в 4D (движущиеся 3D объекты), управляемый текстовыми подсказками. Генерация в 4D имеет большой потенциал в приложениях, таких как виртуальные миры, медиа и игры, однако существующие методы обладают ограниченным контролем над внешним видом и геометрией созданного контента. В данной работе мы представляем метод анимации предоставленных пользователем 3D объектов путем условной генерации в 4D с использованием текстовых подсказок для управления процессом, обеспечивая создание индивидуальных анимаций при сохранении исходной идентичности объекта. Сначала мы преобразуем 3D сетку в "статическое" 4D нейронное поле излучения (NeRF), сохраняющее визуальные характеристики входного объекта. Затем мы анимируем объект с помощью модели диффузии изображения в видео, управляемой текстом. Для улучшения реалистичности движения мы представляем протокол пошагового выбора точек зрения для выборки перспектив с целью стимулирования естественного движения, а также потерю выборки сжатия оценки (SDS), которая использует карты внимания для фокусировки оптимизации на значимых областях. Мы оцениваем нашу модель с точки зрения временной согласованности, соблюдения подсказок и визуальной достоверности, и обнаруживаем, что наш метод превосходит базовые варианты, основанные на других подходах, достигая улучшений в сохранении идентичности вплоть до трехкратного увеличения по мере использования оценок LPIPS, а также эффективно сбалансировав качество изображения с динамичным контентом.