Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем aMUSEd — открытую, легковесную модель с маскированием изображений (MIM) для генерации изображений по тексту, основанную на MUSE. С 10% параметров MUSE, aMUSEd ориентирована на быструю генерацию изображений. Мы считаем, что MIM недостаточно изучена по сравнению с латентной диффузией, которая является преобладающим подходом для генерации изображений по тексту. По сравнению с латентной диффузией, MIM требует меньше шагов вывода и является более интерпретируемой. Кроме того, MIM может быть дообучена для освоения дополнительных стилей с использованием всего одного изображения. Мы надеемся стимулировать дальнейшее исследование MIM, демонстрируя её эффективность в крупномасштабной генерации изображений по тексту и публикуя воспроизводимый код для обучения. Мы также предоставляем контрольные точки для двух моделей, которые напрямую генерируют изображения с разрешениями 256x256 и 512x512.
Мы представляем фреймворк для создания фотореалистичных аватаров с полным телом, которые жестикулируют в соответствии с динамикой диалога в двустороннем взаимодействии. На основе аудиозаписи речи мы генерируем несколько вариантов жестов для человека, включая движения лица, тела и рук. Ключевая идея нашего метода заключается в сочетании преимуществ разнообразия выборок, достигаемого с помощью векторного квантования, с высокочастотными деталями, полученными через диффузию, что позволяет создавать более динамичные и выразительные движения. Сгенерированные движения визуализируются с использованием высоко фотореалистичных аватаров, способных передавать важные нюансы жестов (например, усмешки и ухмылки). Для поддержки этого направления исследований мы представляем уникальный многовидовой набор данных для диалогов, который позволяет выполнять фотореалистичную реконструкцию. Эксперименты показывают, что наша модель генерирует уместные и разнообразные жесты, превосходя как чисто диффузионные методы, так и методы, основанные только на векторном квантовании. Кроме того, наше перцептивное исследование подчеркивает важность фотореализма (в сравнении с полигональными сетками) для точной оценки тонких деталей движений в жестах во время разговора. Код и набор данных доступны онлайн.
Мы представляем Image Sculpting — новый фреймворк для редактирования 2D-изображений, который интегрирует инструменты из области 3D-геометрии и графики. Этот подход существенно отличается от существующих методов, ограниченных 2D-пространством и обычно полагающихся на текстовые инструкции, что приводит к неоднозначности и ограниченному контролю. Image Sculpting преобразует 2D-объекты в 3D, позволяя напрямую взаимодействовать с их 3D-геометрией. После редактирования эти объекты повторно визуализируются в 2D, интегрируясь в исходное изображение для получения высококачественных результатов через процесс поэтапного улучшения. Фреймворк поддерживает точные, измеримые и физически правдоподобные варианты редактирования, такие как изменение позы, вращение, перемещение, 3D-композиция, вырезание и последовательное добавление. Это первый шаг к объединению творческой свободы генеративных моделей с точностью графических конвейеров.
Достижения в области моделей диффузии изображений недавно привели к значительным улучшениям в генерации высококачественных изображений. В сочетании с нейронными полями излучения (NeRF) они открыли новые возможности в 3D-генерации. Однако большинство генеративных 3D-подходов ориентированы на объекты, и их применение для редактирования существующих фотореалистичных сцен является нетривиальной задачей. Мы предлагаем SIGNeRF — новый подход для быстрого и контролируемого редактирования сцен на основе NeRF и генерации объектов, интегрированных в сцену. Новая стратегия генеративного обновления обеспечивает 3D-согласованность в отредактированных изображениях без необходимости итеративной оптимизации. Мы обнаружили, что модели диффузии, учитывающие глубину, обладают врожденной способностью генерировать 3D-согласованные виды, запрашивая сетку изображений вместо отдельных видов. На основе этих наблюдений мы вводим многовидовой справочный лист модифицированных изображений. Наш метод обновляет коллекцию изображений согласованно на основе справочного листа и уточняет исходный NeRF с использованием нового набора сгенерированных изображений за один шаг. Используя механизм учета глубины в модели диффузии изображений, мы получаем точный контроль над пространственным расположением редактирования и обеспечиваем руководство формой через выбранную область или внешнюю сетку.
Методы преобразования певческого голоса (SVC), основанные на диффузии, достигли выдающихся результатов, создавая естественные аудиозаписи с высокой степенью схожести с целевым тембром. Однако итеративный процесс сэмплирования приводит к медленной скорости вывода, что делает ускорение критически важным. В данной статье мы предлагаем CoMoSVC — метод SVC, основанный на модели согласованности, который направлен на достижение как высококачественной генерации, так и быстрого сэмплирования. Сначала специально разрабатывается диффузионная модель-учитель для SVC, а затем модель-ученик дистиллируется с учетом свойств самосогласованности для достижения одношагового сэмплирования. Эксперименты на видеокарте NVIDIA GTX4090 показывают, что, хотя CoMoSVC имеет значительно более высокую скорость вывода по сравнению с современной (SOTA) диффузионной системой SVC, она все же демонстрирует сопоставимую или превосходящую производительность преобразования как по субъективным, так и по объективным метрикам. Аудиообразцы и код доступны по адресу https://comosvc.github.io/.
Параллельные модели преобразования текста в речь широко применяются для синтеза речи в реальном времени, предлагая более высокую управляемость и значительно более быстрый процесс синтеза по сравнению с традиционными авторегрессивными моделями. Хотя параллельные модели имеют преимущества во многих аспектах, они становятся естественно непригодными для инкрементного синтеза из-за их полностью параллельной архитектуры, такой как трансформер. В данной работе мы предлагаем Incremental FastPitch — новую версию FastPitch, способную инкрементно генерировать высококачественные фрагменты мел-спектрограмм за счет улучшения архитектуры с использованием блочных FFT-слоев, обучения с масками внимания, ограниченными рецептивным полем, и вывода с фиксированными состояниями прошлого модели. Экспериментальные результаты показывают, что наше предложение позволяет достичь качества речи, сопоставимого с параллельным FastPitch, при значительно меньшей задержке, что обеспечивает еще более быстрое время отклика для приложений синтеза речи в реальном времени.
Зеркальные камеры могут достигать различных уровней масштабирования за счет изменения расстояния между линзами или замены типов объективов. Однако эти методы невозможны в смартфонах из-за ограничений по пространству. Большинство производителей смартфонов используют гибридную систему масштабирования: обычно это широкоугольная (W) камера для низкого уровня масштабирования и телефото (T) камера для высокого уровня. Для имитации уровней масштабирования между W и T такие системы обрезают и цифровым образом увеличивают изображения с W, что приводит к значительной потере деталей. В данной статье мы предлагаем эффективную систему для гибридного супер-разрешения при масштабировании на мобильных устройствах, которая захватывает синхронную пару снимков W и T и использует модели машинного обучения для выравнивания и переноса деталей с T на W. Мы также разрабатываем адаптивный метод смешивания, учитывающий несоответствия глубины резкости, окклюзии сцены, неопределенность оптического потока и ошибки выравнивания. Для минимизации разрыва между доменами мы создаем двухкамерную установку для захвата реальных входных данных и эталонных изображений для обучения с учителем. Наш метод генерирует 12-мегапиксельное изображение за 500 мс на мобильной платформе и демонстрирует превосходные результаты по сравнению с современными методами в ходе обширной оценки на реальных сценариях.