Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы обнаружили, что стандартные графики шума в диффузионных моделях не обеспечивают нулевого соотношения сигнал-шум (SNR) на последнем временном шаге, а некоторые реализации диффузионных сэмплеров не начинают с последнего шага. Такие решения ошибочны и не учитывают, что на этапе вывода модель получает чистый гауссовский шум, что создает несоответствие между обучением и выводом. Мы показываем, что этот недостаток вызывает реальные проблемы в существующих реализациях. В Stable Diffusion он серьезно ограничивает модель, позволяя генерировать только изображения средней яркости и препятствуя созданию очень ярких и темных образцов. Мы предлагаем несколько простых исправлений: (1) масштабировать график шума для обеспечения нулевого SNR на последнем шаге; (2) обучать модель с предсказанием v; (3) изменить сэмплер, чтобы он всегда начинал с последнего шага; (4) масштабировать классификатор-фри гайдинг для предотвращения переэкспонирования. Эти простые изменения обеспечивают согласованность диффузионного процесса между обучением и выводом и позволяют модели генерировать образцы, более соответствующие исходному распределению данных.
В данной статье мы представляем FitMe — модель лицевой отражательной способности и дифференцируемый конвейер оптимизации рендеринга, который может использоваться для создания высококачественных визуализируемых аватаров человека на основе одного или нескольких изображений. Модель включает в себя мультимодальный генератор на основе стилей, который фиксирует внешний вид лица с точки зрения диффузной и зеркальной отражательной способности, а также PCA-модель формы. Мы используем быстрый дифференцируемый процесс рендеринга, который может быть интегрирован в конвейер оптимизации, одновременно достигая фотореалистичного затенения лица. Наш процесс оптимизации точно воспроизводит как отражательную способность, так и форму лица с высокой детализацией, используя выразительность латентного представления на основе стилей и нашей модели формы. FitMe демонстрирует передовые результаты в области захвата отражательной способности и сохранения идентичности на основе одного "реального" изображения лица, а также создает впечатляющие результаты, близкие к сканированию, при обработке нескольких несвязанных изображений лица одного и того же человека. В отличие от современных методов реконструкции аватаров на основе неявных представлений, FitMe требует всего одну минуту и создает переосвещаемые аватары на основе сетки и текстур, которые могут быть использованы в конечных приложениях.
Диффузионные модели демонстрируют выдающиеся результаты в генерации изображений по текстовым описаниям, особенно в задачах создания персонализированных изображений на основе заданных объектов. Однако существующие методы неэффективны из-за необходимости тонкой настройки под конкретный объект, что требует значительных вычислительных ресурсов и затрудняет оперативное развертывание. Кроме того, существующие методы сталкиваются с трудностями при генерации изображений с несколькими объектами, так как часто смешивают их характеристики. Мы представляем FastComposer, который позволяет эффективно создавать персонализированные изображения с несколькими объектами по текстовым описаниям без необходимости тонкой настройки. FastComposer использует эмбеддинги объектов, извлеченные с помощью кодировщика изображений, чтобы дополнить общее текстовое условие в диффузионных моделях, что позволяет генерировать персонализированные изображения на основе изображений объектов и текстовых инструкций, выполняя только прямое прохождение. Для решения проблемы смешения идентичностей при генерации нескольких объектов FastComposer предлагает использовать контроль локализации кросс-внимания во время обучения, что обеспечивает фокусировку внимания на правильных областях целевых изображений для заданных объектов. Простое использование эмбеддингов объектов приводит к их переобучению. FastComposer предлагает отложенное условие на эмбеддинги объектов на этапе удаления шума, чтобы сохранить как идентичность, так и возможность редактирования в генерации изображений на основе объектов. FastComposer генерирует изображения нескольких ранее невидимых людей в различных стилях, действиях и контекстах. Он обеспечивает ускорение в 300–2500 раз по сравнению с методами, основанными на тонкой настройке, и не требует дополнительного хранилища для новых объектов. FastComposer открывает путь к эффективному, персонализированному и высококачественному созданию изображений с несколькими объектами. Код, модель и набор данных доступны по адресу: https://github.com/mit-han-lab/fastcomposer.
Автоматическое определение семантической согласованности текста и соответствующего изображения представляет собой значительную задачу для моделей, работающих с визуальными и языковыми данными, с приложениями в задачах генерации текста по изображению и изображения по тексту. В данной работе мы исследуем методы автоматической оценки согласованности текста и изображения. Сначала мы представляем SeeTRUE: комплексный набор для оценки, охватывающий несколько наборов данных из задач генерации текста по изображению и изображения по тексту, с человеческими оценками того, является ли данная пара текст-изображение семантически согласованной. Затем мы описываем два автоматических метода определения согласованности: первый включает конвейер, основанный на генерации вопросов и моделях визуального ответа на вопросы, а второй использует сквозной классификационный подход путем дообучения мультимодальных предобученных моделей. Оба метода превосходят предыдущие подходы в различных задачах согласованности текста и изображения, демонстрируя значительные улучшения в сложных случаях, связанных с комплексной композицией или неестественными изображениями. Наконец, мы показываем, как наши подходы могут локализовать конкретные несоответствия между изображением и заданным текстом, а также как их можно использовать для автоматического переранжирования кандидатов в задаче генерации изображения по тексту.
Люди легко воспринимают отдельное изображение как отображение множества потенциальных объектов, с которыми возможно взаимодействие. Мы используем этот навык для планирования наших взаимодействий с окружающим миром и ускорения понимания новых объектов без необходимости непосредственного взаимодействия с ними. В данной работе мы стремимся наделить машины аналогичной способностью, чтобы интеллектуальные агенты могли более эффективно исследовать трёхмерные сцены или манипулировать объектами. Наш подход основан на модели, использующей архитектуру трансформера, которая предсказывает трёхмерное местоположение, физические свойства и аффордансы объектов. Для обучения и проверки нашей модели мы собрали набор данных, включающий интернет-видео, эгоцентричные видео и изображения интерьеров. Наша модель демонстрирует высокую производительность на наших данных и хорошо обобщается на данные, связанные с робототехникой.
Исследования в области онлайн-непрерывного обучения (OCL) в основном сосредоточены на смягчении катастрофического забывания при фиксированном и ограниченном выделении памяти на протяжении всей жизни агента. Однако растущая доступность хранения данных подчеркивает широкий спектр приложений, которые не соответствуют этим предположениям. В таких случаях основная проблема заключается в управлении вычислительными затратами, а не хранением. В данной статье мы рассматриваем подобные сценарии, исследуя проблему онлайн-непрерывного обучения, ослабляя ограничения на хранение и акцентируя внимание на фиксированном, ограниченном экономическом бюджете. Мы предлагаем простой алгоритм, который может компактно хранить и использовать весь поток входящих данных при минимальных вычислительных затратах, используя классификатор kNN и универсальные предобученные экстракторы признаков. Наш алгоритм обеспечивает свойство согласованности, привлекательное для непрерывного обучения: он никогда не забывает ранее увиденные данные. Мы устанавливаем новый уровень современных достижений на двух крупномасштабных наборах данных OCL: Continual LOCalization (CLOC), содержащем 39 миллионов изображений по 712 классам, и Continual Google Landmarks V2 (CGLM), содержащем 580 тысяч изображений по 10 788 классам, — превосходя методы с гораздо более высокими вычислительными бюджетами, чем наш, как в плане снижения катастрофического забывания прошлых данных, так и быстрой адаптации к быстро меняющимся потокам данных. Мы предоставляем код для воспроизведения наших результатов по адресу https://github.com/drimpossible/ACM.