Ежедневно отобранные исследовательские статьи по ИИ с переводами
Редактирование изображений с текстовыми инструкциями широко востребовано в повседневной жизни — от личного использования до профессиональных приложений, таких как Photoshop. Однако существующие методы либо работают в режиме zero-shot, либо обучаются на автоматически синтезированных наборах данных, которые содержат значительное количество шума. В результате на практике они требуют множества ручных настроек для достижения желаемых результатов. Чтобы решить эту проблему, мы представляем MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), первый крупномасштабный, вручную аннотированный набор данных для редактирования реальных изображений на основе инструкций, охватывающий разнообразные сценарии: одношаговое, многошаговое, редактирование с предоставлением маски и без неё. MagicBrush включает более 10 тысяч вручную аннотированных троек (исходное изображение, инструкция, целевое изображение), что позволяет обучать крупномасштабные модели для редактирования изображений с текстовыми инструкциями. Мы дообучили InstructPix2Pix на MagicBrush и показали, что новая модель способна создавать значительно более качественные изображения, согласно оценкам людей. Мы также провели обширные эксперименты для оценки текущих базовых методов редактирования изображений по нескольким аспектам, включая количественные, качественные и экспертные оценки. Результаты демонстрируют сложность нашего набора данных и разрыв между текущими базовыми методами и реальными потребностями в редактировании.
Крупные языковые модели (LLM) произвели революцию в области обработки естественного языка (NLP), но требуют огромных ресурсов GPU для обучения. Снижение порога для обучения LLM способствовало бы более активному участию исследователей, что принесло бы пользу как академическому сообществу, так и обществу в целом. Хотя существующие подходы сосредоточены на эффективной настройке параметров, которая предполагает настройку или добавление небольшого числа параметров, лишь немногие из них решают задачу настройки всех параметров LLM при ограниченных ресурсах. В данной работе мы предлагаем новый оптимизатор — LOw-Memory Optimization (LOMO), который объединяет вычисление градиента и обновление параметров в один шаг, чтобы сократить использование памяти. Интегрируя LOMO с существующими методами экономии памяти, мы сокращаем использование памяти до 10,8% по сравнению со стандартным подходом (решение DeepSpeed). В результате наш подход позволяет выполнить полную настройку параметров модели на 65 миллиардов параметров на одной машине с 8 видеокартами RTX 3090, каждая из которых имеет 24 ГБ памяти.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в генерации кода, но всё ещё испытывают трудности с решением сложных программных задач. Самокоррекция — процесс, при котором модель отлаживает и исправляет ошибки в собственном коде — недавно стала популярным методом повышения производительности в таких условиях. Однако в литературе существует лишь ограниченное количество исследований о том, как и когда самокоррекция работает эффективно, и возникает вопрос, насколько модель действительно способна предоставить точную обратную связь о том, почему код ошибочен, если этот код был сгенерирован той же моделью. В данной статье мы анализируем способность GPT-3.5 и GPT-4 выполнять самокоррекцию на наборе данных APPS, состоящем из разнообразных сложных задач по программированию. Для этого мы сначала разрабатываем новую стратегию оценки, названную pass@t, которая измеряет процент успешного выполнения задач относительно общего количества токенов, сэмплированных из модели, что позволяет провести справедливое сравнение с подходами, основанными исключительно на сэмплировании. С использованием этой стратегии оценки мы обнаруживаем, что эффективность самокоррекции наблюдается только у GPT-4. Мы также отмечаем, что самокоррекция ограничивается этапом предоставления обратной связи; используя GPT-4 для предоставления обратной связи на программы, сгенерированные GPT-3.5, и привлекая экспертов-программистов для предоставления обратной связи на программы, сгенерированные GPT-4, мы достигаем значительного улучшения производительности.
Мы представляем AvatarBooth — новый метод генерации высококачественных 3D-аватаров с использованием текстовых запросов или конкретных изображений. В отличие от предыдущих подходов, которые могут синтезировать аватары только на основе простых текстовых описаний, наш метод позволяет создавать персонализированные аватары из случайно сделанных фотографий лица или тела, сохраняя при этом возможность генерации и редактирования моделей на основе текста. Наш ключевой вклад заключается в точном контроле генерации аватаров за счет использования двух отдельных тонко настроенных диффузионных моделей для лица и тела. Это позволяет нам учитывать тонкие детали внешности, одежды и аксессуаров, что приводит к созданию высокореалистичных аватаров. Кроме того, мы вводим ограничение на согласованность поз в процессе оптимизации, чтобы улучшить многовидовую согласованность синтезированных изображений головы из диффузионной модели и устранить влияние неконтролируемых поз человека. Дополнительно мы предлагаем стратегию рендеринга с несколькими разрешениями, которая обеспечивает поэтапный контроль генерации 3D-аватаров от грубого к детальному, тем самым повышая производительность предложенной системы. Полученная модель аватара может быть дополнительно отредактирована с использованием текстовых описаний и управляться последовательностями движений. Эксперименты показывают, что AvatarBooth превосходит предыдущие методы преобразования текста в 3D как по качеству рендеринга, так и по геометрической точности, независимо от того, используются ли текстовые запросы или конкретные изображения. Подробнее о проекте можно узнать на нашем сайте: https://zeng-yifei.github.io/avatarbooth_page/.
Мы представляем подход к самообучающейся сенсомоторной предварительной подготовке для робототехники. Наша модель, названная RPT, представляет собой трансформер, работающий с последовательностями сенсомоторных токенов. Получив последовательность изображений с камеры, проприоцептивных состояний робота и прошлых действий, мы кодируем чередующуюся последовательность в токены, маскируем случайное подмножество и обучаем модель предсказывать замаскированное содержимое. Мы предполагаем, что если робот способен предсказать отсутствующее содержимое, он приобрел хорошую модель физического мира, которая позволит ему действовать. RPT разработана для работы с латентными визуальными представлениями, что делает предсказание выполнимым, позволяет масштабировать модель в 10 раз и обеспечивает выполнение выводов с частотой 10 Гц на реальном роботе. Для оценки нашего подхода мы собрали набор данных из 20 000 траекторий в реальном мире за 9 месяцев, используя комбинацию алгоритмов планирования движения и захвата на основе моделей. Мы обнаружили, что предварительная подготовка на этих данных стабильно превосходит обучение с нуля, приводит к двукратному улучшению в задаче складывания блоков и обладает благоприятными свойствами масштабирования.
Обнаружение объектов с открытым словарным запасом значительно выиграло от предварительно обученных моделей, связывающих визуальные и текстовые данные, но всё ещё ограничено объёмом доступных данных для обучения обнаружению. Хотя данные для обучения обнаружению можно расширить, используя пары изображение-текст из интернета в качестве слабого надзора, это не было реализовано в масштабах, сопоставимых с предварительным обучением на уровне изображений. В данной работе мы масштабируем данные для обнаружения с помощью самообучения, которое использует существующий детектор для генерации псевдоаннотаций ограничивающих рамок на парах изображение-текст. Основные проблемы при масштабировании самообучения включают выбор пространства меток, фильтрацию псевдоаннотаций и эффективность обучения. Мы представляем модель OWLv2 и метод самообучения OWL-ST, которые решают эти проблемы. OWLv2 превосходит производительность предыдущих передовых детекторов с открытым словарным запасом уже на сопоставимых масштабах обучения (~10 млн примеров). Однако с использованием OWL-ST мы можем масштабироваться до более чем 1 млрд примеров, что приводит к значительному улучшению: с архитектурой L/14 OWL-ST улучшает среднюю точность (AP) на редких классах LVIS, для которых модель не видела аннотаций ограничивающих рамок, созданных человеком, с 31,2% до 44,6% (относительное улучшение на 43%). OWL-ST открывает возможность обучения в масштабах интернета для локализации в открытом мире, аналогично тому, что уже было достигнуто для классификации изображений и языкового моделирования.
Модели пространства состояний (SSM) демонстрируют впечатляющие результаты в задачах, требующих моделирования долгосрочных зависимостей, и эффективно масштабируются на длинные последовательности благодаря их субквадратичной сложности времени выполнения. Изначально разработанные для работы с непрерывными сигналами, SSM показали превосходную производительность в широком спектре задач, включая обработку изображений и звука; однако в задачах языкового моделирования SSM по-прежнему уступают трансформерам. В данной работе мы предлагаем гибридный слой под названием Block-State Transformer (BST), который внутренне объединяет подслой SSM для долгосрочной контекстуализации и подслой Block Transformer для краткосрочного представления последовательностей. Мы исследуем три различных, полностью параллелизуемых варианта, которые интегрируют SSM и блочное внимание. Мы показываем, что наша модель превосходит аналогичные архитектуры на основе трансформеров по перплексии в языковом моделировании и обобщается на более длинные последовательности. Кроме того, Block-State Transformer демонстрирует более чем десятикратное увеличение скорости на уровне слоя по сравнению с Block-Recurrent Transformer при использовании параллелизации модели.
Исследования законов масштабирования показали, что крупные языковые модели (LMs) демонстрируют предсказуемое улучшение общей функции потерь с увеличением масштаба (размера модели, объема обучающих данных и вычислительных ресурсов). В данной работе мы представляем доказательства утверждения, что LMs могут демонстрировать обратное масштабирование, то есть ухудшение производительности на задачах с увеличением масштаба, например, из-за недостатков в целевой функции обучения и данных. Мы приводим эмпирические свидетельства обратного масштабирования на 11 наборах данных, собранных в ходе публичного конкурса Inverse Scaling Prize с существенным призовым фондом. Анализируя эти наборы данных, а также другие примеры, найденные в литературе, мы выделяем четыре потенциальные причины обратного масштабирования: (i) предпочтение повторения запомненных последовательностей вместо следования инструкциям в контексте, (ii) имитация нежелательных шаблонов в обучающих данных, (iii) наличие в задачах простого отвлекающего задания, на котором LMs могут сосредоточиться вместо более сложной основной задачи, и (iv) корректные, но вводящие в заблуждение few-shot демонстрации задачи. Мы публикуем выигравшие наборы данных на сайте https://inversescaling.com/data для дальнейшего изучения обратного масштабирования. Наши задачи способствовали открытию U-образных и перевернутых U-образных трендов масштабирования, где первоначальный тренд меняется на противоположный, что указывает на меньшую надежность законов масштабирования в прогнозировании поведения моделей большего масштаба, чем считалось ранее. В целом, наши результаты свидетельствуют о том, что существуют задачи, для которых увеличение масштаба модели само по себе может не приводить к прогрессу, и что требуется более тщательное обдумывание данных и целей обучения языковых моделей.
В последних исследованиях изучался синтез аудио из текста с использованием больших объемов парных данных текст-аудио. Однако аудиозаписи с высококачественными текстовыми аннотациями могут быть труднодоступными. В данной работе мы подходим к синтезу аудио из текста с использованием немаркированных видео и предобученных моделей, связывающих язык и визуальную информацию. Мы предлагаем изучать соответствие между текстом и аудио, используя визуальную модальность в качестве связующего звена. Мы обучаем условную диффузионную модель генерировать аудиодорожку видео на основе кадра, закодированного с помощью предобученной модели контрастного обучения языку и изображению (CLIP). На этапе тестирования мы сначала исследуем возможность выполнения нулевого переноса модальности, используя текстовый запрос, закодированный CLIP, в качестве условия для диффузионной модели. Однако мы наблюдаем заметное снижение производительности по сравнению с запросами на основе изображений. Чтобы сократить этот разрыв, мы дополнительно применяем предобученную диффузионную модель-приор для генерации CLIP-эмбеддинга изображения на основе CLIP-эмбеддинга текста. Наши результаты демонстрируют эффективность предложенного метода и то, что предобученная диффузионная модель-приор может уменьшить разрыв при переносе модальности. Хотя мы сосредоточены на синтезе аудио из текста, предложенная модель также способна генерировать аудио на основе запросов с изображениями и показывает конкурентоспособные результаты по сравнению с современной моделью синтеза аудио из изображений в субъективном тесте на прослушивание. Это исследование предлагает новый подход к синтезу аудио из текста, который использует естественную связь между аудио и визуальной информацией в видео и возможности предобученных моделей, связывающих язык и визуальную информацию.
Развертывание крупных языковых моделей (LLM) может сопровождаться рисками генерации вредоносных выходных данных, таких как токсичные или нечестные высказывания. Предыдущие исследования предложили инструменты, которые провоцируют вредоносные выходные данные с целью выявления и смягчения этих рисков. Хотя это важный шаг в обеспечении безопасности языковых моделей, такие подходы обычно полагаются на предварительно существующий классификатор для нежелательных выходных данных. Это ограничивает их применение ситуациями, где тип вредоносного поведения известен заранее с высокой точностью. Однако это упускает ключевую задачу "красного командования" (red teaming): развитие контекстуального понимания поведения, которое может демонстрировать модель. Более того, если такой классификатор уже существует, "красное командование" имеет ограниченную дополнительную ценность, поскольку классификатор можно просто использовать для фильтрации обучающих данных или выходных данных модели. В данной работе мы рассматриваем "красное командование" в предположении, что противник работает с высокоуровневым, абстрактным описанием нежелательного поведения. Ожидается, что команда "красных" уточнит/расширит это описание и определит методы провоцирования такого поведения у модели. Наш фреймворк "красного командования" состоит из трех шагов: 1) Исследование поведения модели в заданном контексте; 2) Установление меры нежелательного поведения (например, классификатора, обученного на основе человеческих оценок); и 3) Использование уязвимостей модели с помощью этой меры и установленной методологии "красного командования". Мы применяем этот подход для "красного командования" моделей GPT-2 и GPT-3, чтобы систематически обнаруживать классы запросов, провоцирующих токсичные и нечестные высказывания. В процессе мы также создаем и публикуем набор данных CommonClaim, содержащий 20 000 высказываний, помеченных людьми как общеизвестно истинные, общеизвестно ложные или ни то, ни другое. Код доступен по адресу https://github.com/thestephencasper/explore_establish_exploit_llms. Набор данных CommonClaim доступен по адресу https://github.com/thestephencasper/common_claim.
Люди обладают когнитивной способностью воспринимать сцены композиционно. Чтобы наделить системы ИИ аналогичными возможностями, обучение объектно-ориентированных представлений направлено на получение представлений отдельных объектов из визуальных сцен без какого-либо контроля. Хотя последние достижения в области обучения объектно-ориентированных представлений достигли значительного прогресса на сложных синтетических наборах данных, существует серьезная проблема для применения в сложных реальных сценах. Одной из ключевых причин является недостаток реальных наборов данных, специально адаптированных для методов обучения объектно-ориентированных представлений. Чтобы решить эту проблему, мы предлагаем универсальный набор данных реальных сцен настольных объектов для объектно-ориентированного обучения под названием OCTScenes, который тщательно разработан для использования в качестве эталона для сравнения, оценки и анализа методов обучения объектно-ориентированных представлений. OCTScenes содержит 5000 сцен настольных объектов с общим количеством 15 повседневных предметов. Каждая сцена запечатлена в 60 кадрах, охватывающих 360-градусную перспективу. Таким образом, OCTScenes представляет собой универсальный набор данных для оценки методов обучения объектно-ориентированных представлений в задачах статических сцен, динамических сцен и сцен с несколькими ракурсами. На OCTScenes проведены обширные эксперименты методов обучения объектно-ориентированных представлений для статических, динамических и многовидовых сцен. Результаты демонстрируют недостатки современных методов в обучении значимых представлений из реальных данных, несмотря на их впечатляющую производительность на сложных синтетических наборах данных. Более того, OCTScenes может служить катализатором для совершенствования существующих передовых методов, вдохновляя их на адаптацию к реальным сценам. Набор данных и код доступны по адресу https://huggingface.co/datasets/Yinxuan/OCTScenes.
Представляем CAJun — новую иерархическую систему обучения и управления, которая позволяет шагающим роботам выполнять непрерывные прыжки с адаптивными дистанциями. CAJun состоит из высокоуровневой центроидальной политики и низкоуровневого контроллера ног. В частности, мы используем обучение с подкреплением (RL) для тренировки центроидальной политики, которая определяет временные параметры походки, скорость основания и положение маховой ноги для контроллера ног. Контроллер ног оптимизирует команды для двигателей маховой и опорной ног в соответствии с временными параметрами походки, чтобы отслеживать целевое положение маховой ноги и команды скорости основания с использованием оптимального управления. Кроме того, мы переформулировали оптимизатор опорной ноги в контроллере ног, чтобы ускорить обучение политики на порядок. Наша система сочетает универсальность обучения с надежностью оптимального управления. Благодаря комбинации RL и методов оптимального управления, система достигает универсальности обучения, сохраняя при этом надежность методов управления, что упрощает её перенос на реальных роботов. Мы показываем, что после 20 минут обучения на одном GPU CAJun способен выполнять непрерывные длинные прыжки с адаптивными дистанциями на роботе Go1 с минимальными различиями между симуляцией и реальностью. Более того, робот может перепрыгивать препятствия шириной до 70 см, что на 40% больше, чем у существующих методов.