Ежедневно отобранные исследовательские статьи по ИИ с переводами
Самые передовые модели преобразования текста в изображение (T2I) требуют значительных затрат на обучение (например, миллионы часов работы GPU), что серьезно сдерживает фундаментальные инновации в сообществе AIGC и одновременно увеличивает выбросы CO2. В данной статье представлена PIXART-alpha, трансформерная диффузионная модель T2I, качество генерации изображений которой конкурирует с современными генераторами изображений (например, Imagen, SDXL и даже Midjourney), достигая стандартов, близких к коммерческим приложениям. Кроме того, она поддерживает синтез изображений с высоким разрешением до 1024 пикселей при низких затратах на обучение, как показано на рисунках 1 и 2. Для достижения этой цели предложены три ключевых решения: (1) Декомпозиция стратегии обучения: мы разработали три отдельных этапа обучения, которые оптимизируют зависимость пикселей, выравнивание текста и изображения, а также эстетическое качество изображения; (2) Эффективный T2I-трансформер: мы интегрировали модули кросс-внимания в Diffusion Transformer (DiT) для внедрения текстовых условий и упрощения вычислительно затратной ветви с условиями класса; (3) Высокоинформативные данные: мы подчеркиваем важность плотности концептов в парах текст-изображение и используем крупную модель Vision-Language для автоматической маркировки плотных псевдо-описаний, чтобы улучшить обучение выравниванию текста и изображения. В результате скорость обучения PIXART-alpha значительно превосходит существующие крупномасштабные модели T2I. Например, PIXART-alpha занимает всего 10,8% времени обучения Stable Diffusion v1.5 (675 против 6,250 дней работы A100 GPU), экономя почти \$300,000 (26,000 против \$320,000) и сокращая выбросы CO2 на 90%. Более того, по сравнению с более крупной современной моделью RAPHAEL, наши затраты на обучение составляют всего 1%. Многочисленные эксперименты демонстрируют, что PIXART-alpha превосходит по качеству изображений, художественности и семантическому контролю. Мы надеемся, что PIXART-alpha предоставит новые идеи сообществу AIGC и стартапам для ускорения создания собственных высококачественных, но экономичных генеративных моделей с нуля.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в задачах генерации открытого текста. Однако присущая этим задачам открытость подразумевает, что всегда есть возможности для улучшения качества ответов модели. Для решения этой проблемы были предложены различные подходы к повышению производительности LLM. В последнее время всё больше внимания уделяется способности LLM самостоятельно улучшать качество своих ответов, что снижает зависимость от трудоёмких усилий по аннотированию данных для сбора разнообразных и качественных обучающих данных. Среди методов самоулучшения широко исследуются методы, основанные на промптинге, благодаря их эффективности, производительности и удобству. Однако такие методы обычно требуют явного и детального написания критериев в качестве входных данных для LLM. Вручную разработать и предоставить все необходимые критерии для сложной цели улучшения (например, быть более полезным и менее вредным) — это дорогостоящая и сложная задача. В связи с этим мы предлагаем фреймворк ImPlicit Self-ImprovemenT (PIT), который неявно обучается цели улучшения на основе данных о человеческих предпочтениях. PIT требует только данных о предпочтениях, которые используются для обучения моделей вознаграждения, без дополнительных усилий со стороны человека. В частности, мы переформулируем цель обучения в рамках подхода обучения с подкреплением на основе обратной связи от человека (RLHF): вместо максимизации качества ответа для заданного входа мы максимизируем разницу в качестве ответа при условии наличия эталонного ответа. Таким образом, PIT неявно обучается с целью улучшения, заключающейся в лучшем соответствии человеческим предпочтениям. Эксперименты на двух реальных наборах данных и одном синтетическом показывают, что наш метод значительно превосходит методы, основанные на промптинге.
Генеративные диффузионные модели предоставляют мощные априорные знания для задач генерации изображений по текстовым описаниям и, таким образом, служат основой для условных задач генерации, таких как редактирование, восстановление и супер-разрешение изображений. Однако одним из основных ограничений диффузионных моделей является их медленное время выборки. Для решения этой проблемы мы представляем новый метод условной дистилляции, предназначенный для дополнения априорных знаний диффузионных моделей с помощью условий на изображения, что позволяет выполнять условную выборку за очень малое количество шагов. Мы напрямую дистиллируем безусловное предварительное обучение в один этап через совместное обучение, значительно упрощая предыдущие двухэтапные процедуры, которые включали отдельно дистилляцию и условную донастройку. Более того, наш метод позволяет реализовать новый параметрически эффективный механизм дистилляции, который дистиллирует каждую задачу с использованием лишь небольшого числа дополнительных параметров в сочетании с общей замороженной безусловной базовой моделью. Эксперименты на множестве задач, включая супер-разрешение, редактирование изображений и генерацию изображений по глубине, демонстрируют, что наш метод превосходит существующие техники дистилляции при одинаковом времени выборки. Примечательно, что наш метод является первой стратегией дистилляции, которая может соответствовать производительности значительно более медленных донастроенных условных диффузионных моделей.