Ежедневно отобранные исследовательские статьи по ИИ с переводами
Создатели контента часто стремятся создавать персонализированные изображения с использованием личных объектов, которые выходят за рамки возможностей традиционных моделей преобразования текста в изображение. Кроме того, они могут желать, чтобы итоговое изображение включало в себя определенное место, стиль, атмосферу и многое другое. Существующие методы персонализации могут идти на компромисс между способностью к персонализации и соответствием сложным текстовым запросам. Этот компромисс может препятствовать выполнению пользовательских запросов и сохранению точности объектов. Мы предлагаем новый подход, сосредоточенный на методах персонализации для одного запроса, чтобы решить эту проблему. Мы называем наш подход персонализацией, согласованной с запросом. Хотя это может показаться ограничивающим, наш метод превосходно улучшает соответствие тексту, позволяя создавать изображения с использованием сложных и детализированных запросов, которые могут представлять трудность для современных техник. В частности, наш метод поддерживает персонализированную модель в соответствии с целевым запросом, используя дополнительный термин дистилляции оценки. Мы демонстрируем универсальность нашего метода в условиях многократного и однократного использования, а также показываем, что он может комбинировать несколько объектов или использовать вдохновение из референсных изображений, таких как произведения искусства. Мы сравниваем наш подход количественно и качественно с существующими базовыми методами и передовыми техниками.
Обучение с подкреплением на основе человеческой обратной связи (RLHF) стало ключевой технологией для согласования языковых моделей с человеческими ценностями и намерениями, позволяя моделям генерировать более полезные и безопасные ответы. Модели вознаграждения обучаются в качестве прокси для человеческих предпочтений, чтобы направлять оптимизацию обучения с подкреплением. Хотя модели вознаграждения часто считаются центральными для достижения высокой производительности, они сталкиваются со следующими проблемами в практических приложениях: (1) Неправильные и неоднозначные пары предпочтений в наборе данных могут препятствовать точному улавливанию человеческих намерений моделью вознаграждения. (2) Модели вознаграждения, обученные на данных из определенного распределения, часто плохо обобщаются на примеры за пределами этого распределения и не подходят для итеративного обучения RLHF. В данном отчете мы пытаемся решить эти две проблемы. (1) С точки зрения данных мы предлагаем метод измерения силы предпочтений в данных, основанный на механизме голосования нескольких моделей вознаграждения. Экспериментальные результаты подтверждают, что данные с различной силой предпочтений по-разному влияют на производительность модели вознаграждения. Мы представляем ряд новых методов для снижения влияния неправильных и неоднозначных предпочтений в наборе данных и полного использования высококачественных данных о предпочтениях. (2) С алгоритмической точки зрения мы внедряем контрастное обучение для улучшения способности моделей вознаграждения различать выбранные и отвергнутые ответы, тем самым повышая обобщаемость модели. Кроме того, мы используем метаобучение, чтобы модель вознаграждения сохраняла способность различать тонкие различия в примерах за пределами распределения, и этот подход может быть использован для итеративной оптимизации RLHF.
Недавние исследования показывают, что использование обучения с подкреплением (RL) с качественными наградами может улучшить качество генерируемых изображений в задаче генерации изображений по тексту (T2I). Однако простое агрегирование нескольких наград может привести к избыточной оптимизации по одним метрикам и ухудшению по другим, а ручной поиск оптимальных весов является сложной задачей. Эффективная стратегия для совместной оптимизации нескольких наград в RL для генерации T2I крайне востребована. В данной статье представлен Parrot, новый многозадачный RL-фреймворк для генерации T2I. С использованием пакетного выбора по Парето-оптимальности Parrot автоматически определяет оптимальный компромисс между различными наградами в процессе RL-оптимизации генерации T2I. Кроме того, Parrot применяет совместный подход к оптимизации модели T2I и сети расширения промптов, что способствует генерации текстовых промптов, учитывающих качество, и тем самым дополнительно улучшает итоговое качество изображений. Чтобы предотвратить возможное катастрофическое забывание исходного пользовательского промпта из-за расширения промптов, мы вводим ориентацию на исходный промпт на этапе вывода, что гарантирует соответствие сгенерированного изображения введённому пользователем тексту. Многочисленные эксперименты и пользовательское исследование демонстрируют, что Parrot превосходит несколько базовых методов по различным критериям качества, включая эстетику, предпочтения людей, эмоциональную окраску изображений и соответствие текста и изображения.
Крупные языковые модели, обученные на огромных корпусах данных из интернета, могут запоминать и воспроизводить конфиденциальную или личную информацию, что вызывает как юридические, так и этические опасения. Метод "забывания" (unlearning), или настройки моделей на удаление информации, присутствующей в их обучающих данных, предоставляет способ защиты личных данных после обучения. Хотя существует несколько методов такого "забывания", остается неясным, в какой степени они приводят к моделям, эквивалентным тем, где данные, которые нужно забыть, изначально не были изучены. Чтобы решить эту задачу, мы представляем TOFU (Task of Fictitious Unlearning) — эталонный тест, направленный на углубление понимания процесса "забывания". Мы предлагаем набор данных из 200 разнообразных синтетических профилей авторов, каждый из которых состоит из 20 пар вопросов и ответов, а также подмножество этих профилей, называемое "набором для забывания", которое служит целью для удаления. Мы разработали набор метрик, которые вместе дают целостную картину эффективности "забывания". Наконец, мы предоставляем базовые результаты, полученные с использованием существующих алгоритмов "забывания". Важно отметить, что ни один из рассмотренных базовых подходов не демонстрирует эффективного "забывания", что мотивирует дальнейшие усилия по разработке методов, которые действительно настраивают модели так, чтобы они вели себя так, как если бы данные для забывания никогда не использовались в обучении.