Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

MagicBrush: Вручную аннотированный набор данных для редактирования изображений на основе инструкций
MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing

Jun 16, 2023

Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su

356

Редактирование изображений с текстовыми инструкциями широко востребовано в повседневной жизни — от личного использования до профессиональных приложений, таких как Photoshop. Однако существующие методы либо работают в режиме zero-shot, либо обучаются на автоматически синтезированных наборах данных, которые содержат значительное количество шума. В результате на практике они требуют множества ручных настроек для достижения желаемых результатов. Чтобы решить эту проблему, мы представляем MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), первый крупномасштабный, вручную аннотированный набор данных для редактирования реальных изображений на основе инструкций, охватывающий разнообразные сценарии: одношаговое, многошаговое, редактирование с предоставлением маски и без неё. MagicBrush включает более 10 тысяч вручную аннотированных троек (исходное изображение, инструкция, целевое изображение), что позволяет обучать крупномасштабные модели для редактирования изображений с текстовыми инструкциями. Мы дообучили InstructPix2Pix на MagicBrush и показали, что новая модель способна создавать значительно более качественные изображения, согласно оценкам людей. Мы также провели обширные эксперименты для оценки текущих базовых методов редактирования изображений по нескольким аспектам, включая количественные, качественные и экспертные оценки. Результаты демонстрируют сложность нашего набора данных и разрыв между текущими базовыми методами и реальными потребностями в редактировании.

Полная тонкая настройка параметров для больших языковых моделей с ограниченными ресурсами
Full Parameter Fine-tuning for Large Language Models with Limited Resources

Jun 16, 2023

Kai Lv, Yuqing Yang, Tengxiao Liu, Qinghui Gao, Qipeng Guo, Xipeng Qiu

304

Крупные языковые модели (LLM) произвели революцию в области обработки естественного языка (NLP), но требуют огромных ресурсов GPU для обучения. Снижение порога для обучения LLM способствовало бы более активному участию исследователей, что принесло бы пользу как академическому сообществу, так и обществу в целом. Хотя существующие подходы сосредоточены на эффективной настройке параметров, которая предполагает настройку или добавление небольшого числа параметров, лишь немногие из них решают задачу настройки всех параметров LLM при ограниченных ресурсах. В данной работе мы предлагаем новый оптимизатор — LOw-Memory Optimization (LOMO), который объединяет вычисление градиента и обновление параметров в один шаг, чтобы сократить использование памяти. Интегрируя LOMO с существующими методами экономии памяти, мы сокращаем использование памяти до 10,8% по сравнению со стандартным подходом (решение DeepSpeed). В результате наш подход позволяет выполнить полную настройку параметров модели на 65 миллиардов параметров на одной машине с 8 видеокартами RTX 3090, каждая из которых имеет 24 ГБ памяти.

Разоблачение механизмов самокоррекции GPT в генерации кода
Demystifying GPT Self-Repair for Code Generation

Jun 16, 2023

Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao, Armando Solar-Lezama

191

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в генерации кода, но всё ещё испытывают трудности с решением сложных программных задач. Самокоррекция — процесс, при котором модель отлаживает и исправляет ошибки в собственном коде — недавно стала популярным методом повышения производительности в таких условиях. Однако в литературе существует лишь ограниченное количество исследований о том, как и когда самокоррекция работает эффективно, и возникает вопрос, насколько модель действительно способна предоставить точную обратную связь о том, почему код ошибочен, если этот код был сгенерирован той же моделью. В данной статье мы анализируем способность GPT-3.5 и GPT-4 выполнять самокоррекцию на наборе данных APPS, состоящем из разнообразных сложных задач по программированию. Для этого мы сначала разрабатываем новую стратегию оценки, названную pass@t, которая измеряет процент успешного выполнения задач относительно общего количества токенов, сэмплированных из модели, что позволяет провести справедливое сравнение с подходами, основанными исключительно на сэмплировании. С использованием этой стратегии оценки мы обнаруживаем, что эффективность самокоррекции наблюдается только у GPT-4. Мы также отмечаем, что самокоррекция ограничивается этапом предоставления обратной связи; используя GPT-4 для предоставления обратной связи на программы, сгенерированные GPT-3.5, и привлекая экспертов-программистов для предоставления обратной связи на программы, сгенерированные GPT-4, мы достигаем значительного улучшения производительности.

AvatarBooth: Высококачественное и настраиваемое создание 3D-аватаров человека
AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation

Jun 16, 2023

Yifei Zeng, Yuanxun Lu, Xinya Ji, Yao Yao, Hao Zhu, Xun Cao

141

Мы представляем AvatarBooth — новый метод генерации высококачественных 3D-аватаров с использованием текстовых запросов или конкретных изображений. В отличие от предыдущих подходов, которые могут синтезировать аватары только на основе простых текстовых описаний, наш метод позволяет создавать персонализированные аватары из случайно сделанных фотографий лица или тела, сохраняя при этом возможность генерации и редактирования моделей на основе текста. Наш ключевой вклад заключается в точном контроле генерации аватаров за счет использования двух отдельных тонко настроенных диффузионных моделей для лица и тела. Это позволяет нам учитывать тонкие детали внешности, одежды и аксессуаров, что приводит к созданию высокореалистичных аватаров. Кроме того, мы вводим ограничение на согласованность поз в процессе оптимизации, чтобы улучшить многовидовую согласованность синтезированных изображений головы из диффузионной модели и устранить влияние неконтролируемых поз человека. Дополнительно мы предлагаем стратегию рендеринга с несколькими разрешениями, которая обеспечивает поэтапный контроль генерации 3D-аватаров от грубого к детальному, тем самым повышая производительность предложенной системы. Полученная модель аватара может быть дополнительно отредактирована с использованием текстовых описаний и управляться последовательностями движений. Эксперименты показывают, что AvatarBooth превосходит предыдущие методы преобразования текста в 3D как по качеству рендеринга, так и по геометрической точности, независимо от того, используются ли текстовые запросы или конкретные изображения. Подробнее о проекте можно узнать на нашем сайте: https://zeng-yifei.github.io/avatarbooth_page/.

Робототехническое обучение с сенсомоторным предварительным обучением
Robot Learning with Sensorimotor Pre-training

Jun 16, 2023

Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik

130

Мы представляем подход к самообучающейся сенсомоторной предварительной подготовке для робототехники. Наша модель, названная RPT, представляет собой трансформер, работающий с последовательностями сенсомоторных токенов. Получив последовательность изображений с камеры, проприоцептивных состояний робота и прошлых действий, мы кодируем чередующуюся последовательность в токены, маскируем случайное подмножество и обучаем модель предсказывать замаскированное содержимое. Мы предполагаем, что если робот способен предсказать отсутствующее содержимое, он приобрел хорошую модель физического мира, которая позволит ему действовать. RPT разработана для работы с латентными визуальными представлениями, что делает предсказание выполнимым, позволяет масштабировать модель в 10 раз и обеспечивает выполнение выводов с частотой 10 Гц на реальном роботе. Для оценки нашего подхода мы собрали набор данных из 20 000 траекторий в реальном мире за 9 месяцев, используя комбинацию алгоритмов планирования движения и захвата на основе моделей. Мы обнаружили, что предварительная подготовка на этих данных стабильно превосходит обучение с нуля, приводит к двукратному улучшению в задаче складывания блоков и обладает благоприятными свойствами масштабирования.

Масштабирование детекции объектов с открытым словарем
Scaling Open-Vocabulary Object Detection

Jun 16, 2023

Matthias Minderer, Alexey Gritsenko, Neil Houlsby

132

Обнаружение объектов с открытым словарным запасом значительно выиграло от предварительно обученных моделей, связывающих визуальные и текстовые данные, но всё ещё ограничено объёмом доступных данных для обучения обнаружению. Хотя данные для обучения обнаружению можно расширить, используя пары изображение-текст из интернета в качестве слабого надзора, это не было реализовано в масштабах, сопоставимых с предварительным обучением на уровне изображений. В данной работе мы масштабируем данные для обнаружения с помощью самообучения, которое использует существующий детектор для генерации псевдоаннотаций ограничивающих рамок на парах изображение-текст. Основные проблемы при масштабировании самообучения включают выбор пространства меток, фильтрацию псевдоаннотаций и эффективность обучения. Мы представляем модель OWLv2 и метод самообучения OWL-ST, которые решают эти проблемы. OWLv2 превосходит производительность предыдущих передовых детекторов с открытым словарным запасом уже на сопоставимых масштабах обучения (~10 млн примеров). Однако с использованием OWL-ST мы можем масштабироваться до более чем 1 млрд примеров, что приводит к значительному улучшению: с архитектурой L/14 OWL-ST улучшает среднюю точность (AP) на редких классах LVIS, для которых модель не видела аннотаций ограничивающих рамок, созданных человеком, с 31,2% до 44,6% (относительное улучшение на 43%). OWL-ST открывает возможность обучения в масштабах интернета для локализации в открытом мире, аналогично тому, что уже было достигнуто для классификации изображений и языкового моделирования.

Трансформер с блочной структурой состояний
Block-State Transformer

Jun 15, 2023

Mahan Fathi, Jonathan Pilault, Pierre-Luc Bacon, Christopher Pal, Orhan Firat, Ross Goroshin

Модели пространства состояний (SSM) демонстрируют впечатляющие результаты в задачах, требующих моделирования долгосрочных зависимостей, и эффективно масштабируются на длинные последовательности благодаря их субквадратичной сложности времени выполнения. Изначально разработанные для работы с непрерывными сигналами, SSM показали превосходную производительность в широком спектре задач, включая обработку изображений и звука; однако в задачах языкового моделирования SSM по-прежнему уступают трансформерам. В данной работе мы предлагаем гибридный слой под названием Block-State Transformer (BST), который внутренне объединяет подслой SSM для долгосрочной контекстуализации и подслой Block Transformer для краткосрочного представления последовательностей. Мы исследуем три различных, полностью параллелизуемых варианта, которые интегрируют SSM и блочное внимание. Мы показываем, что наша модель превосходит аналогичные архитектуры на основе трансформеров по перплексии в языковом моделировании и обобщается на более длинные последовательности. Кроме того, Block-State Transformer демонстрирует более чем десятикратное увеличение скорости на уровне слоя по сравнению с Block-Recurrent Transformer при использовании параллелизации модели.

Обратное масштабирование: когда больше — не значит лучше
Inverse Scaling: When Bigger Isn't Better

Jun 15, 2023

Ian R. McKenzie, Alexander Lyzhov, Michael Pieler, Alicia Parrish, Aaron Mueller, Ameya Prabhu, Euan McLean, Aaron Kirtland, Alexis Ross, Alisa Liu, Andrew Gritsevskiy, Daniel Wurgaft, Derik Kauffman, Gabriel Recchia, Jiacheng Liu, Joe Cavanagh, Max Weiss, Sicong Huang, The Floating Droid, Tom Tseng, Tomasz Korbak, Xudong Shen, Yuhui Zhang, Zhengping Zhou, Najoung Kim, Samuel R. Bowman, Ethan Perez

Исследования законов масштабирования показали, что крупные языковые модели (LMs) демонстрируют предсказуемое улучшение общей функции потерь с увеличением масштаба (размера модели, объема обучающих данных и вычислительных ресурсов). В данной работе мы представляем доказательства утверждения, что LMs могут демонстрировать обратное масштабирование, то есть ухудшение производительности на задачах с увеличением масштаба, например, из-за недостатков в целевой функции обучения и данных. Мы приводим эмпирические свидетельства обратного масштабирования на 11 наборах данных, собранных в ходе публичного конкурса Inverse Scaling Prize с существенным призовым фондом. Анализируя эти наборы данных, а также другие примеры, найденные в литературе, мы выделяем четыре потенциальные причины обратного масштабирования: (i) предпочтение повторения запомненных последовательностей вместо следования инструкциям в контексте, (ii) имитация нежелательных шаблонов в обучающих данных, (iii) наличие в задачах простого отвлекающего задания, на котором LMs могут сосредоточиться вместо более сложной основной задачи, и (iv) корректные, но вводящие в заблуждение few-shot демонстрации задачи. Мы публикуем выигравшие наборы данных на сайте https://inversescaling.com/data для дальнейшего изучения обратного масштабирования. Наши задачи способствовали открытию U-образных и перевернутых U-образных трендов масштабирования, где первоначальный тренд меняется на противоположный, что указывает на меньшую надежность законов масштабирования в прогнозировании поведения моделей большего масштаба, чем считалось ранее. В целом, наши результаты свидетельствуют о том, что существуют задачи, для которых увеличение масштаба модели само по себе может не приводить к прогрессу, и что требуется более тщательное обдумывание данных и целей обучения языковых моделей.

CLIPSonic: Синтез аудио из текста с использованием немаркированных видео и предобученных языково-визуальных моделей
CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained Language-Vision Models

Jun 16, 2023

Hao-Wen Dong, Xiaoyu Liu, Jordi Pons, Gautam Bhattacharya, Santiago Pascual, Joan Serrà, Taylor Berg-Kirkpatrick, Julian McAuley

В последних исследованиях изучался синтез аудио из текста с использованием больших объемов парных данных текст-аудио. Однако аудиозаписи с высококачественными текстовыми аннотациями могут быть труднодоступными. В данной работе мы подходим к синтезу аудио из текста с использованием немаркированных видео и предобученных моделей, связывающих язык и визуальную информацию. Мы предлагаем изучать соответствие между текстом и аудио, используя визуальную модальность в качестве связующего звена. Мы обучаем условную диффузионную модель генерировать аудиодорожку видео на основе кадра, закодированного с помощью предобученной модели контрастного обучения языку и изображению (CLIP). На этапе тестирования мы сначала исследуем возможность выполнения нулевого переноса модальности, используя текстовый запрос, закодированный CLIP, в качестве условия для диффузионной модели. Однако мы наблюдаем заметное снижение производительности по сравнению с запросами на основе изображений. Чтобы сократить этот разрыв, мы дополнительно применяем предобученную диффузионную модель-приор для генерации CLIP-эмбеддинга изображения на основе CLIP-эмбеддинга текста. Наши результаты демонстрируют эффективность предложенного метода и то, что предобученная диффузионная модель-приор может уменьшить разрыв при переносе модальности. Хотя мы сосредоточены на синтезе аудио из текста, предложенная модель также способна генерировать аудио на основе запросов с изображениями и показывает конкурентоспособные результаты по сравнению с современной моделью синтеза аудио из изображений в субъективном тесте на прослушивание. Это исследование предлагает новый подход к синтезу аудио из текста, который использует естественную связь между аудио и визуальной информацией в видео и возможности предобученных моделей, связывающих язык и визуальную информацию.

Исследовать, Установить, Использовать: Тестирование языковых моделей методом "красной команды" с нуля
Explore, Establish, Exploit: Red Teaming Language Models from Scratch

Jun 15, 2023

Stephen Casper, Jason Lin, Joe Kwon, Gatlen Culp, Dylan Hadfield-Menell

Развертывание крупных языковых моделей (LLM) может сопровождаться рисками генерации вредоносных выходных данных, таких как токсичные или нечестные высказывания. Предыдущие исследования предложили инструменты, которые провоцируют вредоносные выходные данные с целью выявления и смягчения этих рисков. Хотя это важный шаг в обеспечении безопасности языковых моделей, такие подходы обычно полагаются на предварительно существующий классификатор для нежелательных выходных данных. Это ограничивает их применение ситуациями, где тип вредоносного поведения известен заранее с высокой точностью. Однако это упускает ключевую задачу "красного командования" (red teaming): развитие контекстуального понимания поведения, которое может демонстрировать модель. Более того, если такой классификатор уже существует, "красное командование" имеет ограниченную дополнительную ценность, поскольку классификатор можно просто использовать для фильтрации обучающих данных или выходных данных модели. В данной работе мы рассматриваем "красное командование" в предположении, что противник работает с высокоуровневым, абстрактным описанием нежелательного поведения. Ожидается, что команда "красных" уточнит/расширит это описание и определит методы провоцирования такого поведения у модели. Наш фреймворк "красного командования" состоит из трех шагов: 1) Исследование поведения модели в заданном контексте; 2) Установление меры нежелательного поведения (например, классификатора, обученного на основе человеческих оценок); и 3) Использование уязвимостей модели с помощью этой меры и установленной методологии "красного командования". Мы применяем этот подход для "красного командования" моделей GPT-2 и GPT-3, чтобы систематически обнаруживать классы запросов, провоцирующих токсичные и нечестные высказывания. В процессе мы также создаем и публикуем набор данных CommonClaim, содержащий 20 000 высказываний, помеченных людьми как общеизвестно истинные, общеизвестно ложные или ни то, ни другое. Код доступен по адресу https://github.com/thestephencasper/explore_establish_exploit_llms. Набор данных CommonClaim доступен по адресу https://github.com/thestephencasper/common_claim.

OCTScenes: Универсальный набор данных реальных сцен на столе для объектно-ориентированного обучения
OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning

Jun 16, 2023

Yinxuan Huang, Tonglin Chen, Zhimeng Shen, Jinghao Huang, Bin Li, Xiangyang Xue

Люди обладают когнитивной способностью воспринимать сцены композиционно. Чтобы наделить системы ИИ аналогичными возможностями, обучение объектно-ориентированных представлений направлено на получение представлений отдельных объектов из визуальных сцен без какого-либо контроля. Хотя последние достижения в области обучения объектно-ориентированных представлений достигли значительного прогресса на сложных синтетических наборах данных, существует серьезная проблема для применения в сложных реальных сценах. Одной из ключевых причин является недостаток реальных наборов данных, специально адаптированных для методов обучения объектно-ориентированных представлений. Чтобы решить эту проблему, мы предлагаем универсальный набор данных реальных сцен настольных объектов для объектно-ориентированного обучения под названием OCTScenes, который тщательно разработан для использования в качестве эталона для сравнения, оценки и анализа методов обучения объектно-ориентированных представлений. OCTScenes содержит 5000 сцен настольных объектов с общим количеством 15 повседневных предметов. Каждая сцена запечатлена в 60 кадрах, охватывающих 360-градусную перспективу. Таким образом, OCTScenes представляет собой универсальный набор данных для оценки методов обучения объектно-ориентированных представлений в задачах статических сцен, динамических сцен и сцен с несколькими ракурсами. На OCTScenes проведены обширные эксперименты методов обучения объектно-ориентированных представлений для статических, динамических и многовидовых сцен. Результаты демонстрируют недостатки современных методов в обучении значимых представлений из реальных данных, несмотря на их впечатляющую производительность на сложных синтетических наборах данных. Более того, OCTScenes может служить катализатором для совершенствования существующих передовых методов, вдохновляя их на адаптацию к реальным сценам. Набор данных и код доступны по адресу https://huggingface.co/datasets/Yinxuan/OCTScenes.

CAJun: Непрерывная адаптивная прыжковая система с использованием обученного центроидального контроллера
CAJun: Continuous Adaptive Jumping using a Learned Centroidal Controller

Jun 16, 2023

Yuxiang Yang, Guanya Shi, Xiangyun Meng, Wenhao Yu, Tingnan Zhang, Jie Tan, Byron Boots

Представляем CAJun — новую иерархическую систему обучения и управления, которая позволяет шагающим роботам выполнять непрерывные прыжки с адаптивными дистанциями. CAJun состоит из высокоуровневой центроидальной политики и низкоуровневого контроллера ног. В частности, мы используем обучение с подкреплением (RL) для тренировки центроидальной политики, которая определяет временные параметры походки, скорость основания и положение маховой ноги для контроллера ног. Контроллер ног оптимизирует команды для двигателей маховой и опорной ног в соответствии с временными параметрами походки, чтобы отслеживать целевое положение маховой ноги и команды скорости основания с использованием оптимального управления. Кроме того, мы переформулировали оптимизатор опорной ноги в контроллере ног, чтобы ускорить обучение политики на порядок. Наша система сочетает универсальность обучения с надежностью оптимального управления. Благодаря комбинации RL и методов оптимального управления, система достигает универсальности обучения, сохраняя при этом надежность методов управления, что упрощает её перенос на реальных роботов. Мы показываем, что после 20 минут обучения на одном GPU CAJun способен выполнять непрерывные длинные прыжки с адаптивными дистанциями на роботе Go1 с минимальными различиями между симуляцией и реальностью. Более того, робот может перепрыгивать препятствия шириной до 70 см, что на 40% больше, чем у существующих методов.

Исследовать, Установить, Использовать: Тестирование языковых моделей методом "красной команды" с нуля
Explore, Establish, Exploit: Red Teaming Language Models from Scratch

Jun 15, 2023

Stephen Casper, Jason Lin, Joe Kwon, Gatlen Culp, Dylan Hadfield-Menell

Ежедневные статьи

MagicBrush: Вручную аннотированный набор данных для редактирования изображений на основе инструкций
MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing

Полная тонкая настройка параметров для больших языковых моделей с ограниченными ресурсами
Full Parameter Fine-tuning for Large Language Models with Limited Resources

Разоблачение механизмов самокоррекции GPT в генерации кода
Demystifying GPT Self-Repair for Code Generation

AvatarBooth: Высококачественное и настраиваемое создание 3D-аватаров человека
AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation

Робототехническое обучение с сенсомоторным предварительным обучением
Robot Learning with Sensorimotor Pre-training

Масштабирование детекции объектов с открытым словарем
Scaling Open-Vocabulary Object Detection

Трансформер с блочной структурой состояний
Block-State Transformer

Обратное масштабирование: когда больше — не значит лучше
Inverse Scaling: When Bigger Isn't Better

Исследовать, Установить, Использовать: Тестирование языковых моделей методом "красной команды" с нуля
Explore, Establish, Exploit: Red Teaming Language Models from Scratch

OCTScenes: Универсальный набор данных реальных сцен на столе для объектно-ориентированного обучения
OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning

CAJun: Непрерывная адаптивная прыжковая система с использованием обученного центроидального контроллера
CAJun: Continuous Adaptive Jumping using a Learned Centroidal Controller

Support

Support

Ежедневные статьи

MagicBrush: Вручную аннотированный набор данных для редактирования изображений на основе инструкций
MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing

Полная тонкая настройка параметров для больших языковых моделей с ограниченными ресурсами
Full Parameter Fine-tuning for Large Language Models with Limited Resources

Разоблачение механизмов самокоррекции GPT в генерации кода
Demystifying GPT Self-Repair for Code Generation

AvatarBooth: Высококачественное и настраиваемое создание 3D-аватаров человека
AvatarBooth: High-Quality and Customizable 3D Human Avatar Generation

Робототехническое обучение с сенсомоторным предварительным обучением
Robot Learning with Sensorimotor Pre-training

Масштабирование детекции объектов с открытым словарем
Scaling Open-Vocabulary Object Detection

Трансформер с блочной структурой состояний
Block-State Transformer

Обратное масштабирование: когда больше — не значит лучше
Inverse Scaling: When Bigger Isn't Better

Исследовать, Установить, Использовать: Тестирование языковых моделей методом "красной команды" с нуля
Explore, Establish, Exploit: Red Teaming Language Models from Scratch

OCTScenes: Универсальный набор данных реальных сцен на столе для объектно-ориентированного обучения
OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning

CAJun: Непрерывная адаптивная прыжковая система с использованием обученного центроидального контроллера
CAJun: Continuous Adaptive Jumping using a Learned Centroidal Controller