Ежедневно отобранные исследовательские статьи по ИИ с переводами
Персонализация стала важным аспектом в области генеративного ИИ, позволяя синтезировать изображения людей в различных контекстах и стилях с сохранением высокой точности их идентичности. Однако процесс персонализации сопряжен с существенными трудностями, связанными с временными и ресурсными затратами. Тонкая настройка каждой персонализированной модели требует значительных временных затрат на GPU, а хранение отдельной модели для каждого субъекта может быть ресурсоемким с точки зрения объема памяти. Для преодоления этих проблем мы предлагаем HyperDreamBooth — гиперсеть, способную эффективно генерировать небольшой набор персонализированных весов на основе одного изображения человека. Путем интеграции этих весов в диффузионную модель в сочетании с быстрой тонкой настройкой, HyperDreamBooth может генерировать лицо человека в различных контекстах и стилях с высокой детализацией, сохраняя при этом ключевые знания модели о разнообразных стилях и семантических модификациях. Наш метод обеспечивает персонализацию лиц примерно за 20 секунд, что в 25 раз быстрее, чем DreamBooth, и в 125 раз быстрее, чем Textual Inversion, используя всего одно эталонное изображение, с тем же качеством и разнообразием стилей, что и DreamBooth. Кроме того, наша модель в 10000 раз меньше, чем стандартная модель DreamBooth. Страница проекта: https://hyperdreambooth.github.io
Персонализация текста в изображение (Text-to-Image, T2I) позволяет пользователям направлять процесс творческой генерации изображений, комбинируя свои собственные визуальные концепции в виде текстовых запросов на естественном языке. В последнее время методы на основе кодировщиков стали новым эффективным подходом для персонализации T2I, сокращая необходимость в множестве изображений и длительном времени обучения. Однако большинство существующих кодировщиков ограничены доменами одного класса, что снижает их способность работать с разнообразными концепциями. В данной работе мы предлагаем метод, не зависящий от домена, который не требует специализированных наборов данных или предварительной информации о персонализируемых концепциях. Мы вводим новую технику регуляризации на основе контрастивного обучения, которая сохраняет высокую точность в передаче характеристик целевой концепции, одновременно удерживая предсказанные эмбеддинги близко к редактируемым областям латентного пространства, приближая предсказанные токены к их ближайшим существующим токенам CLIP. Наши экспериментальные результаты демонстрируют эффективность предложенного подхода и показывают, что обученные токены обладают большей семантической значимостью по сравнению с токенами, предсказанными моделями без регуляризации. Это приводит к более качественному представлению, которое достигает передовых показателей производительности, оставаясь при этом более гибким, чем предыдущие методы.
Создание видеороликов для визуального повествования может быть утомительным и сложным процессом, который обычно требует либо съемки в реальном времени, либо рендеринга графической анимации. Чтобы обойти эти трудности, наша ключевая идея заключается в использовании обилия существующих видеоклипов и синтезе связного видеоролика для повествования путем настройки их внешнего вида. Мы достигаем этого, разработав фреймворк, состоящий из двух функциональных модулей: (i) Извлечение структуры движения, который предоставляет кандидаты на видео с желаемым контекстом сцены или движения, описанным текстовыми запросами, и (ii) Синтез видео на основе текста с учетом структуры, который генерирует видеоролики, соответствующие сюжету, под руководством структуры движения и текстовых подсказок. Для первого модуля мы используем готовую систему поиска видео и извлекаем глубину видео как структуру движения. Для второго модуля мы предлагаем управляемую модель генерации видео, которая обеспечивает гибкий контроль над структурой и персонажами. Видео синтезируются, следуя структурному руководству и инструкциям по внешнему виду. Чтобы обеспечить визуальную согласованность между клипами, мы предлагаем эффективный подход персонализации концепций, который позволяет задавать желаемые идентичности персонажей через текстовые подсказки. Многочисленные эксперименты демонстрируют, что наш подход обладает значительными преимуществами по сравнению с различными существующими базовыми методами.
В данной статье мы представляем новый подход для повышения качества и согласованности генерируемых выходных данных крупномасштабных предобученных языковых моделей (LLM). Самосогласованность зарекомендовала себя как эффективный метод для запросов с фиксированными ответами, выбирая ответ с наибольшим количеством голосов. В этой работе мы вводим обобщённую структуру для самосогласованности, которая расширяет её применимость за пределы задач с фиксированными ответами. С помощью обширных симуляций мы демонстрируем, что наш подход стабильно восстанавливает оптимальную или близкую к оптимальной генерацию из набора кандидатов. Мы также предлагаем лёгкие параметрически независимые функции схожести, которые показывают значительные и устойчивые улучшения в задачах генерации кода, автоформализации и суммаризации, даже без доступа к вероятностям токенов. Наш метод требует минимальных вычислительных затрат, не нуждаясь в дополнительных моделях ранжирования или изменениях существующей модели.