Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области генерации изображений по текстовым описаниям позволили добиться значительного прогресса в синтезе реалистичных фотографий людей на основе заданных текстовых подсказок. Однако существующие методы персонализированной генерации не могут одновременно удовлетворять требованиям высокой эффективности, надежной сохранности идентичности (ID) и гибкой управляемости текстом. В данной работе мы представляем PhotoMaker — эффективный метод персонализированной генерации изображений по тексту, который в основном кодирует произвольное количество входных изображений ID в стек вложений ID для сохранения информации об идентичности. Такое вложение, выступая в качестве унифицированного представления ID, не только всесторонне охватывает характеристики одного и того же входного ID, но также учитывает характеристики различных ID для последующей интеграции. Это открывает путь для более интересных и практически ценных приложений. Кроме того, для обучения нашего PhotoMaker мы предлагаем конвейер создания данных, ориентированный на ID, для сборки обучающих данных. Благодаря набору данных, созданному с использованием предложенного конвейера, наш PhotoMaker демонстрирует лучшую способность сохранения ID по сравнению с методами, основанными на тонкой настройке во время тестирования, а также обеспечивает значительное ускорение, высококачественные результаты генерации, сильные обобщающие способности и широкий спектр применений. Наша страница проекта доступна по адресу https://photo-maker.github.io/.
Синтез семантически осмысленных, долгосрочных взаимодействий человека с объектами имеет ключевое значение для моделирования реалистичного человеческого поведения. В данной работе мы решаем сложную задачу генерации синхронизированного движения объектов и человека, управляемого языковыми описаниями в трехмерных сценах. Мы предлагаем подход Controllable Human-Object Interaction Synthesis (CHOIS), который генерирует движение объектов и человека одновременно с использованием условной диффузионной модели на основе языкового описания, начальных состояний объекта и человека, а также разреженных путевых точек объекта. В то время как языковые описания задают стиль и намерения, путевые точки привязывают движение к сцене и могут быть эффективно извлечены с помощью методов высокоуровневого планирования. Простое применение диффузионной модели не позволяет предсказать движение объекта, согласованное с входными путевыми точками, и не обеспечивает реалистичность взаимодействий, требующих точного контакта руки с объектом и корректного контакта с полом. Для решения этих проблем мы вводим геометрический штраф для объекта в качестве дополнительного контроля, чтобы улучшить соответствие между сгенерированным движением объекта и входными путевыми точками. Кроме того, мы разрабатываем управляющие термины для обеспечения ограничений на контакт в процессе сэмплирования обученной диффузионной модели.
Создание 3D-контента на основе одного изображения — это давняя, но крайне востребованная задача. Последние достижения вводят 2D диффузионные априорные модели, дающие разумные результаты. Однако существующие методы недостаточно гиперреалистичны для использования после генерации, так как пользователи не могут просматривать, рендерить и редактировать полученный 3D-контент с любого угла. Чтобы решить эти проблемы, мы представляем HyperDreamer с несколькими ключевыми разработками и привлекательными свойствами: 1) Просматриваемость: моделирование сетки на 360 градусов с текстурами высокого разрешения позволяет создавать визуально привлекательные 3D-модели, которые можно рассматривать с любого угла. 2) Рендеринг: тонкая семантическая сегментация и априорные данные используются как руководство для изучения разумных значений альбедо, шероховатости и зеркальных свойств материалов, что позволяет семантически осознанно оценивать произвольные материалы. 3) Редактируемость: для сгенерированной модели или собственных данных пользователи могут интерактивно выбирать любую область несколькими кликами и эффективно редактировать текстуру с текстовым руководством. Многочисленные эксперименты демонстрируют эффективность HyperDreamer в моделировании материалов с учетом регионов и текстурами высокого разрешения, а также в обеспечении удобного редактирования. Мы считаем, что HyperDreamer имеет потенциал для продвижения создания 3D-контента и нахождения применения в различных областях.
Крупномасштабные модели диффузии для преобразования текста в видео (T2V) достигли значительного прогресса в последние годы с точки зрения визуального качества, движения и временной согласованности. Однако процесс генерации по-прежнему остается "черным ящиком", где все атрибуты (например, внешний вид, движение) изучаются и генерируются совместно без возможности точного контроля, за исключением грубых текстовых описаний. Вдохновленные анимацией изображений, которая разделяет видео на конкретный внешний вид и соответствующее движение, мы предлагаем AnimateZero, чтобы раскрыть предварительно обученную модель преобразования текста в видео, а именно AnimateDiff, и обеспечить более точный контроль над внешним видом и движением. Для контроля внешнего вида мы заимствуем промежуточные латентные переменные и их признаки из генерации текста в изображение (T2I), чтобы гарантировать, что сгенерированный первый кадр соответствует заданному изображению. Для временного контроля мы заменяем глобальное временное внимание оригинальной модели T2V на наше предложенное внимание с позиционной коррекцией в окне, чтобы обеспечить согласованность остальных кадров с первым кадром. Благодаря предложенным методам, AnimateZero может успешно контролировать процесс генерации без дополнительного обучения. Как аниматор изображений с нулевым обучением для заданных изображений, AnimateZero также открывает множество новых приложений, включая интерактивную генерацию видео и анимацию реальных изображений. Подробные эксперименты демонстрируют эффективность предложенного метода как в T2V, так и в связанных приложениях.
Обучение с подкреплением (Reinforcement Learning, RL) предоставляет универсальную основу для достижения долгосрочных целей. Его общность позволяет формализовать широкий спектр задач, с которыми сталкиваются реальные интеллектуальные системы, таких как работа с отложенными вознаграждениями, обработка частичной наблюдаемости, решение дилеммы исследования и эксплуатации, использование оффлайн-данных для улучшения онлайн-производительности и обеспечение соблюдения ограничений безопасности. Несмотря на значительный прогресс, достигнутый исследовательским сообществом RL в решении этих проблем, существующие библиотеки с открытым исходным кодом, как правило, сосредоточены на узкой части конвейера решений RL, оставляя другие аспекты практически без внимания. В данной статье представлен Pearl — готовый к производственному использованию программный пакет RL-агентов, разработанный специально для модульного решения этих задач. Помимо представления предварительных результатов тестирования, в статье подчеркиваются примеры внедрения Pearl в промышленности, демонстрирующие его готовность к использованию в производственных условиях. Pearl доступен в открытом доступе на Github по адресу github.com/facebookresearch/pearl, а его официальный сайт находится по адресу pearlagent.github.io.
В последнее время диффузионные модели достигли значительных успехов в генерации изображений по текстовым описаниям (T2I), создавая изображения с высокой точностью и разнообразным содержанием. Несмотря на этот прогресс, гладкость латентного пространства в диффузионных моделях остается малоизученной. Гладкое латентное пространство гарантирует, что возмущение входного латентного вектора соответствует плавному изменению выходного изображения. Это свойство оказывается полезным в таких задачах, как интерполяция, инверсия и редактирование изображений. В данной работе мы выявляем негладкость латентных пространств диффузионных моделей, наблюдая заметные визуальные колебания, вызванные незначительными изменениями латентных векторов. Для решения этой проблемы мы предлагаем Smooth Diffusion — новый класс диффузионных моделей, которые одновременно обладают высокой производительностью и гладкостью. В частности, мы вводим пошаговую регуляризацию вариаций, чтобы обеспечить постоянство соотношения между изменениями произвольного входного латентного вектора и изменениями выходного изображения на любом этапе обучения диффузии. Кроме того, мы разрабатываем метрику стандартного отклонения интерполяции (ISTD) для эффективной оценки гладкости латентного пространства диффузионной модели. Многочисленные количественные и качественные эксперименты демонстрируют, что Smooth Diffusion выделяется как более предпочтительное решение не только в генерации T2I, но и в различных последующих задачах. Smooth Diffusion реализован в виде подключаемого модуля Smooth-LoRA, совместимого с различными моделями сообщества. Код доступен по адресу https://github.com/SHI-Labs/Smooth-Diffusion.
В данном исследовании мы изучаем Transformer-модели диффузии для генерации изображений и видео. Несмотря на доминирование архитектур Transformer в различных областях благодаря их гибкости и масштабируемости, в визуальной генеративной сфере преимущественно используются CNN-архитектуры на основе U-Net, особенно в моделях, основанных на диффузии. Мы представляем GenTron — семейство генеративных моделей, использующих Transformer-диффузию, чтобы восполнить этот пробел. Нашим первым шагом стала адаптация Diffusion Transformers (DiTs) от классификации к текстовому условию, что потребовало тщательного эмпирического исследования механизма условного управления. Затем мы масштабировали GenTron с примерно 900 миллионов до более чем 3 миллиардов параметров, наблюдая значительное улучшение визуального качества. Кроме того, мы расширили GenTron для генерации видео на основе текста, внедрив новый метод управления без движения для повышения качества видео. В человеческих оценках по сравнению с SDXL GenTron достигает 51,1% побед по визуальному качеству (с 19,8% ничьих) и 42,3% побед по соответствию тексту (с 42,9% ничьих). GenTron также демонстрирует выдающиеся результаты в T2I-CompBench, подчеркивая свои сильные стороны в композиционной генерации. Мы считаем, что эта работа предоставит ценные инсайты и станет полезным ориентиром для будущих исследований.
Мы представляем NeRFiller — подход для заполнения недостающих частей 3D-сцены с помощью генеративного 3D-восстановления, использующего готовые 2D-визуальные генеративные модели. Часто части захваченной 3D-сцены или объекта отсутствуют из-за ошибок реконструкции сетки или недостатка наблюдений (например, контактные области, такие как нижняя часть объектов, или труднодоступные зоны). Мы решаем эту сложную задачу 3D-восстановления, используя модель диффузионного восстановления для 2D-изображений. Мы обнаружили удивительное свойство этих моделей: они генерируют более 3D-согласованные восстановления, когда изображения образуют сетку 2×2, и показываем, как обобщить это поведение на более чем четыре изображения. Затем мы представляем итеративную структуру для объединения этих восстановленных областей в единую согласованную 3D-сцену. В отличие от связанных работ, мы сосредоточены на завершении сцен, а не на удалении объектов переднего плана, и наш подход не требует точных 2D-масок объектов или текста. Мы сравниваем наш подход с релевантными базовыми методами, адаптированными к нашей задаче, на различных сценах, где NeRFiller создает наиболее 3D-согласованные и правдоподобные завершения сцен. Страница проекта доступна по адресу https://ethanweber.me/nerfiller.
В последнее время диффузионные модели продемонстрировали улучшение качества синтетических изображений, а также более точный контроль в процессе генерации. Мы представляем Gen2Det — простой модульный конвейер для создания синтетических данных для обучения моделей обнаружения объектов, используя современные методы генерации изображений с привязкой к контексту. В отличие от существующих подходов, которые генерируют отдельные объекты и требуют их выделения с последующим вставлением на другие изображения, наш метод упрощает процесс, напрямую создавая сценоцентричные изображения. Помимо синтетических данных, Gen2Det также предлагает набор техник для оптимального использования сгенерированных данных, включая фильтрацию на уровне изображений, фильтрацию на уровне объектов и улучшенный рецепт обучения для учета несовершенств генерации. С помощью Gen2Det мы демонстрируем значительные улучшения в задачах обнаружения и сегментации объектов в различных условиях, независимо от используемых методов обнаружения. В условиях длинного хвоста на наборе данных LVIS Gen2Det значительно улучшает производительность на редких категориях, одновременно повышая результаты и на других категориях. Например, мы наблюдаем улучшение на 2.13 Box AP и 1.84 Mask AP по сравнению с обучением только на реальных данных с использованием Mask R-CNN. В условиях ограниченного количества данных на COCO Gen2Det стабильно улучшает Box и Mask AP на 2.27 и 1.85 балла соответственно. В наиболее общем сценарии обнаружения Gen2Det также демонстрирует устойчивый прирост производительности, например, улучшая Box и Mask AP на COCO на 0.45 и 0.32 балла.
Персонализированная генерация с использованием диффузионных моделей достигла впечатляющих успехов в создании изображений, но остается неудовлетворительной в сложной задаче генерации видео, так как требует контроля как над объектами, так и над движениями. Для решения этой проблемы мы представляем DreamVideo — новый подход к созданию персонализированных видео на основе нескольких статичных изображений желаемого объекта и нескольких видео с целевым движением. DreamVideo разделяет эту задачу на два этапа: изучение объекта и изучение движения, используя предварительно обученную видео-диффузионную модель. На этапе изучения объекта ставится цель точно зафиксировать детали внешнего вида объекта на основе предоставленных изображений, что достигается за счет комбинации текстовой инверсии и тонкой настройки нашего тщательно разработанного адаптера идентичности. На этапе изучения движения мы создаем адаптер движения и настраиваем его на предоставленных видео, чтобы эффективно моделировать целевой паттерн движения. Комбинация этих двух легковесных и эффективных адаптеров позволяет гибко настраивать любой объект с любым движением. Обширные экспериментальные результаты демонстрируют превосходство нашего DreamVideo по сравнению с современными методами персонализированной генерации видео. Страница проекта доступна по адресу https://dreamvideo-t2v.github.io.
Недавние значительные достижения в моделях преобразования текста в изображения открывают возможность обучения систем компьютерного зрения с использованием синтетических изображений, что потенциально позволяет преодолеть трудности масштабного сбора тщательно отобранных данных. Однако остается неясным, как эти модели ведут себя при увеличении объема данных, когда в обучающий набор добавляется больше синтетических изображений. В данной статье мы исследуем законы масштабирования синтетических изображений, созданных современными моделями преобразования текста в изображения, для обучения моделей с учителем: классификаторов изображений с метками и моделей CLIP с языковым контролем. Мы выделяем несколько факторов, включая текстовые запросы, масштаб классификатора без учителя и типы моделей преобразования текста в изображения, которые существенно влияют на поведение при масштабировании. После настройки этих факторов мы наблюдаем, что синтетические изображения демонстрируют тенденцию масштабирования, схожую с реальными изображениями, но несколько менее эффективную при обучении моделей CLIP, в то время как они значительно уступают в масштабировании при обучении классификаторов изображений с учителем. Наш анализ показывает, что основной причиной этого отставания является неспособность готовых моделей преобразования текста в изображения генерировать определенные концепции, что существенно затрудняет обучение классификаторов изображений. Наши результаты также указывают на то, что масштабирование синтетических данных может быть особенно эффективным в следующих сценариях: (1) когда доступ к реальным изображениям для задачи с учителем ограничен (например, менее 0,5 миллиона изображений в ImageNet), (2) когда набор данных для оценки значительно отличается от обучающих данных, что указывает на сценарий вне распределения, или (3) когда синтетические данные используются совместно с реальными изображениями, как показано в обучении моделей CLIP.
Несмотря на то, что диффузионные модели продемонстрировали мощные способности в генерации фотореалистичных изображений, создание реалистичных и разнообразных видео всё ещё находится в зачаточном состоянии. Одной из ключевых причин является то, что современные методы объединяют пространственное содержание и временную динамику, что значительно увеличивает сложность задачи генерации видео из текста (T2V). В данной работе мы предлагаем HiGen, метод на основе диффузионных моделей, который повышает производительность за счёт разделения пространственных и временных факторов видео на двух уровнях: структурном и содержательном. На структурном уровне мы разбиваем задачу T2V на два этапа, включая пространственное и временное рассуждение, используя единый денойзер. В частности, мы генерируем пространственно согласованные приоры с использованием текста на этапе пространственного рассуждения, а затем создаём временно согласованные движения из этих приоров на этапе временного рассуждения. На содержательном уровне мы извлекаем из содержимого входного видео два тонких сигнала, которые могут выражать изменения движения и внешнего вида соответственно. Эти сигналы затем направляют обучение модели для генерации видео, обеспечивая гибкие вариации содержания и повышая временную стабильность. Благодаря разделённой парадигме HiGen эффективно снижает сложность задачи и генерирует реалистичные видео с точной семантикой и стабильностью движения. Многочисленные эксперименты демонстрируют превосходство HiGen по сравнению с современными методами T2V.