Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной работе мы представляем MagicDance — диффузионную модель для переноса двумерных движений человека и мимики на сложных видео с танцами. В частности, наша цель — генерировать видео танцев для любой целевой идентичности, управляемые новыми последовательностями поз, при этом сохраняя идентичность неизменной. Для этого мы предлагаем двухэтапную стратегию обучения, которая разделяет движения человека и его внешний вид (например, мимику, тон кожи и одежду). Эта стратегия включает предварительное обучение блока управления внешним видом и тонкую настройку блока совместного управления внешним видом и позами на основе танцевальных поз из одного и того же набора данных. Наш новый подход обеспечивает надежное управление внешним видом с временной согласованностью верхней части тела, черт лица и даже фона. Модель также хорошо обобщается на невидимые идентичности и сложные последовательности движений без необходимости дополнительной тонкой настройки на данных с разнообразными атрибутами человека, используя априорные знания диффузионных моделей изображений. Более того, предложенная модель проста в использовании и может рассматриваться как подключаемый модуль или расширение для Stable Diffusion. Мы также демонстрируем способность модели к генерации двумерной анимации с нуля, что позволяет не только переносить внешний вид с одной идентичности на другую, но и создавать стилизацию в мультяшном стиле, используя только входные данные о позах. Многочисленные эксперименты подтверждают превосходную производительность нашей модели на наборе данных TikTok.
Синтез речи на основе больших языковых моделей (LLM) широко применяется в задачах синтеза речи с нулевым обучением. Однако такие модели требуют больших объемов данных и обладают теми же ограничениями, что и предыдущие авторегрессивные модели синтеза речи, включая низкую скорость вывода и недостаточную устойчивость. В данной статье предлагается HierSpeech++ — быстрый и мощный синтезатор речи с нулевым обучением для задач преобразования текста в речь (TTS) и преобразования голоса (VC). Мы подтвердили, что иерархические фреймворки синтеза речи могут значительно повысить устойчивость и выразительность синтезированной речи. Кроме того, мы существенно улучшили естественность и сходство с голосом говорящего даже в сценариях синтеза речи с нулевым обучением. Для преобразования текста в речь мы используем фреймворк text-to-vec, который генерирует самоконтролируемое речевое представление и представление F0 на основе текстовых представлений и просодических подсказок. Затем HierSpeech++ генерирует речь из полученного вектора, F0 и голосовой подсказки. Мы также представляем высокоэффективный фреймворк повышения качества речи с 16 кГц до 48 кГц. Экспериментальные результаты показали, что иерархический вариационный автоэнкодер может быть мощным синтезатором речи с нулевым обучением, превосходящим модели на основе LLM и диффузионных моделей. Более того, мы достигли качества синтеза речи, сопоставимого с человеческим, впервые в задачах с нулевым обучением. Аудиообразцы и исходный код доступны по адресу https://github.com/sh-lee-prml/HierSpeechpp.
Мы предлагаем метод, позволяющий выполнять точное и чрезвычайно быстрое извлечение сетки из 3D-гауссовых сплатов. Гауссовы сплаты недавно стали очень популярными, так как они обеспечивают реалистичный рендеринг, при этом обучаются значительно быстрее, чем NeRF. Однако извлечение сетки из миллионов крошечных 3D-гауссов представляет собой сложную задачу, поскольку эти гауссовы функции после оптимизации оказываются неупорядоченными, и до сих пор не было предложено подходящего метода. Наш первый ключевой вклад — это регуляризационный член, который способствует выравниванию гауссовых функций относительно поверхности сцены. Затем мы представляем метод, который использует это выравнивание для извлечения сетки из гауссовых функций с помощью реконструкции Пуассона. Этот метод быстрый, масштабируемый и сохраняет детали, в отличие от алгоритма Marching Cubes, который обычно применяется для извлечения сеток из нейронных SDF. Наконец, мы предлагаем дополнительную стратегию уточнения, которая привязывает гауссовы функции к поверхности сетки и совместно оптимизирует эти гауссовы функции и сетку через рендеринг гауссовых сплатов. Это позволяет легко редактировать, скульптурировать, риггировать, анимировать, компоновать и изменять освещение гауссовых функций с помощью традиционных программ, манипулируя сеткой вместо самих гауссовых функций. Извлечение такой редактируемой сетки для реалистичного рендеринга занимает минуты с нашим методом, в отличие от часов, требуемых современными методами для нейронных SDF, при этом обеспечивая лучшее качество рендеринга.
Несмотря на впечатляющие недавние достижения в моделях диффузии для генерации изображений по тексту, получение высококачественных изображений часто требует инженерной работы с запросами (prompt engineering) со стороны людей, которые развили экспертизу в их использовании. В данной работе мы представляем NeuroPrompts — адаптивную систему, которая автоматически улучшает пользовательский запрос для повышения качества генераций, создаваемых моделями текста в изображение. Наша система использует ограниченное декодирование текста с помощью предобученной языковой модели, адаптированной для генерации запросов, похожих на те, что создают эксперты по инженерии запросов. Этот подход позволяет получать более качественные результаты генерации изображений по тексту и предоставляет пользователю контроль над стилистическими особенностями через задание ограничений. Мы демонстрируем полезность нашей системы, создавая интерактивное приложение для улучшения запросов и генерации изображений с использованием Stable Diffusion. Кроме того, мы проводим эксперименты с использованием большого набора данных запросов, созданных людьми для генерации изображений по тексту, и показываем, что наш подход автоматически создает улучшенные запросы, которые приводят к превосходному качеству изображений. Мы делаем наш код, демонстрационное видео и работающий экземпляр NeuroPrompts общедоступными.
Мы представляем метод создания интерпретируемых слайдеров концепций, которые обеспечивают точный контроль над атрибутами в генерации изображений с использованием диффузионных моделей. Наш подход выявляет низкоранговое направление параметров, соответствующее одной концепции, при этом минимизируя влияние на другие атрибуты. Слайдер создается с использованием небольшого набора текстовых запросов или примеров изображений, что позволяет создавать направления для как текстовых, так и визуальных концепций. Слайдеры концепций являются модульными: они могут эффективно комбинироваться и непрерывно регулироваться, обеспечивая точный контроль над генерацией изображений. В количественных экспериментах, сравнивающих с предыдущими методами редактирования, наши слайдеры демонстрируют более целенаправленные изменения с меньшим уровнем вмешательства. Мы демонстрируем слайдеры для погоды, возраста, стилей и выражений, а также их композиции. Мы показываем, как слайдеры могут переносить латентные переменные из StyleGAN для интуитивного редактирования визуальных концепций, которые сложно описать текстуально. Также мы обнаруживаем, что наш метод может помочь в решении устойчивых проблем качества в Stable Diffusion XL, включая исправление деформаций объектов и искаженных рук. Наш код, данные и обученные слайдеры доступны по адресу https://sliders.baulab.info/.
Мы представляем PhysGaussian — новый метод, который органично интегрирует физически обоснованную ньютоновскую динамику в 3D-гауссовы распределения для достижения высококачественного синтеза новых движений. Используя специализированный метод материальных точек (Material Point Method, MPM), наш подход обогащает 3D-гауссовы ядра физически значимыми атрибутами кинематической деформации и механического напряжения, которые развиваются в соответствии с принципами механики сплошных сред. Ключевой особенностью нашего метода является бесшовная интеграция физического моделирования и визуализации: оба компонента используют одни и те же 3D-гауссовы ядра в качестве дискретных представлений. Это устраняет необходимость в триангуляции/тетраэдризации, алгоритме marching cubes, «каркасных сетках» или любых других геометрических вложениях, подчеркивая принцип «что видишь, то и моделируешь (WS^2)». Наш метод демонстрирует исключительную универсальность для широкого спектра материалов, включая упругие тела, металлы, неньютоновские жидкости и гранулированные материалы, что подчеркивает его мощные возможности в создании разнообразного визуального контента с новыми ракурсами и движениями. Страница проекта доступна по адресу: https://xpandora.github.io/PhysGaussian/
Мы предлагаем Pose-Free Large Reconstruction Model (PF-LRM) для реконструкции 3D-объекта по нескольким изображениям без известных поз камер, даже при минимальном визуальном перекрытии, одновременно оценивая относительные позы камер примерно за 1,3 секунды на одном GPU A100. PF-LRM — это высокомасштабируемый метод, использующий блоки self-attention для обмена информацией между токенами 3D-объектов и 2D-изображений; мы предсказываем грубое облако точек для каждого вида, а затем применяем дифференцируемый решатель Perspective-n-Point (PnP) для получения поз камер. При обучении на огромном объеме данных с известными позами камер для ~1 млн объектов PF-LRM демонстрирует сильную способность к кросс-датасетной генерализации и значительно превосходит базовые методы по точности предсказания поз и качеству 3D-реконструкции на различных невидимых оценочных наборах данных. Мы также показываем применимость нашей модели в задачах текстового/изображения-в-3D с быстрым прямым выводом. Наш проект доступен по адресу: https://totoro97.github.io/pf-lrm.
Последние достижения в области генерации видео из текста позволили использовать возможности диффузионных моделей для создания визуально привлекательного контента на основе текстовых запросов. Однако такие подходы обычно сталкиваются с высокими вычислительными затратами и часто испытывают трудности с созданием видео, демонстрирующих согласованные физические движения. Для решения этих проблем мы предлагаем GPT4Motion — бесплатный для обучения фреймворк, который использует планирующие возможности крупных языковых моделей, таких как GPT, мощь физического моделирования Blender и превосходные способности генерации изображений текстово-диффузионных моделей для повышения качества синтеза видео. В частности, GPT4Motion задействует GPT-4 для генерации скрипта Blender на основе текстового запроса пользователя, который управляет встроенным физическим движком Blender для создания базовых компонентов сцены, включающих согласованные физические движения между кадрами. Затем эти компоненты передаются в Stable Diffusion для генерации видео, соответствующего текстовому запросу. Экспериментальные результаты на трех базовых сценариях физических движений, включая падение и столкновение твердых объектов, драпировку и колебание ткани, а также течение жидкости, демонстрируют, что GPT4Motion способен эффективно генерировать высококачественные видео с сохранением согласованности движений и целостности объектов. GPT4Motion предлагает новые перспективы в исследованиях генерации видео из текста, повышая их качество и расширяя горизонты для будущих исследований.