Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Voyager: Автономный агент с открытой архитектурой на основе крупных языковых моделей
Voyager: An Open-Ended Embodied Agent with Large Language Models

May 25, 2023

Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar

104

Мы представляем Voyager — первого воплощённого агента непрерывного обучения на основе крупных языковых моделей (LLM) в Minecraft, который непрерывно исследует мир, осваивает разнообразные навыки и совершает новые открытия без вмешательства человека. Voyager состоит из трёх ключевых компонентов: 1) автоматической учебной программы, максимизирующей исследование, 2) постоянно расширяемой библиотеки навыков в виде исполняемого кода для хранения и извлечения сложных поведений и 3) нового итеративного механизма запросов, который учитывает обратную связь от среды, ошибки выполнения и самопроверку для улучшения программ. Voyager взаимодействует с GPT-4 через чёрный ящик запросов, что устраняет необходимость тонкой настройки параметров модели. Навыки, разработанные Voyager, являются временно расширенными, интерпретируемыми и композиционными, что быстро усиливает способности агента и смягчает проблему катастрофического забывания. Эмпирически Voyager демонстрирует мощные способности к непрерывному обучению в контексте и исключительное мастерство в игре Minecraft. Он получает в 3,3 раза больше уникальных предметов, преодолевает в 2,3 раза большие расстояния и открывает ключевые этапы технологического дерева до 15,3 раза быстрее, чем предыдущие SOTA-методы. Voyager способен использовать изученную библиотеку навыков в новом мире Minecraft для решения новых задач с нуля, в то время как другие методы испытывают трудности с обобщением. Мы открываем исходный код и запросы по адресу https://voyager.minedojo.org/.

ProlificDreamer: Высококачественное и разнообразное преобразование текста в 3D с использованием вариационного дистилляции оценок
ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation

May 25, 2023

Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu

Метод Score Distillation Sampling (SDS) продемонстрировал значительный потенциал в генерации 3D-моделей из текста, используя предобученные крупномасштабные диффузионные модели для текста в изображения, однако страдает от проблем избыточного насыщения, излишнего сглаживания и низкого разнообразия. В данной работе мы предлагаем моделировать 3D-параметр как случайную переменную вместо константы, как это делается в SDS, и представляем Variational Score Distillation (VSD) — принципиальный вариационный фреймворк на основе частиц, который объясняет и решает упомянутые проблемы в генерации 3D-моделей из текста. Мы показываем, что SDS является частным случаем VSD и приводит к низкокачественным результатам как при малых, так и при больших весах CFG. В отличие от этого, VSD хорошо работает с различными весами CFG, подобно ancestral sampling в диффузионных моделях, и одновременно улучшает разнообразие и качество результатов при стандартном весе CFG (например, 7.5). Мы также предлагаем различные улучшения в области проектирования для генерации 3D-моделей из текста, такие как расписание времени дистилляции и инициализация плотности, которые ортогональны алгоритму дистилляции, но недостаточно изучены. Наш общий подход, названный ProlificDreamer, способен генерировать NeRF с высоким разрешением рендеринга (например, 512×512) и высокой точностью, богатой структурой и сложными эффектами (например, дым и капли). Кроме того, меши, доработанные с помощью VSD и инициализированные из NeRF, отличаются тщательной детализацией и фотореалистичностью. Страница проекта: https://ml.cs.tsinghua.edu.cn/prolificdreamer/

Ложное обещание имитации проприетарных языковых моделей
The False Promise of Imitating Proprietary LLMs

May 25, 2023

Arnav Gudibande, Eric Wallace, Charlie Snell, Xinyang Geng, Hao Liu, Pieter Abbeel, Sergey Levine, Dawn Song

Новый подход к недорогому улучшению более слабых языковых моделей заключается в их дообучении на выходах более мощной модели, такой как проприетарная система вроде ChatGPT (например, Alpaca, Self-Instruct и другие). Этот метод направлен на дешевую имитацию возможностей проприетарной модели с использованием более слабой открытой модели. В данной работе мы критически анализируем этот подход. Сначала мы дообучаем серию языковых моделей, имитирующих ChatGPT, с использованием различных размеров базовых моделей (1,5–13 млрд параметров), источников данных и объемов данных для имитации (0,3–150 млн токенов). Затем мы оцениваем модели с помощью крауд-оценщиков и стандартных NLP-бенчмарков. Изначально нас удивило качество выходных данных наших имитационных моделей — они кажутся значительно лучше в следовании инструкциям, а крауд-работники оценивают их результаты как конкурентоспособные с ChatGPT. Однако при проведении более целенаправленных автоматических оценок мы обнаруживаем, что имитационные модели практически не сокращают разрыв между базовой моделью и ChatGPT в задачах, которые слабо представлены в данных для имитации. Мы показываем, что эти расхождения в производительности могут ускользнуть от внимания человеческих оценщиков, поскольку имитационные модели хорошо копируют стиль ChatGPT, но не его фактическую точность. В целом мы заключаем, что имитация моделей — это ложное обещание: существует значительный разрыв в возможностях между открытыми и закрытыми моделями, который при текущих методах можно преодолеть только с использованием непрактично большого объема данных для имитации или более мощных базовых моделей. В свою очередь, мы утверждаем, что наиболее эффективным способом улучшения открытых моделей является решение сложной задачи разработки более качественных базовых моделей, а не использование упрощенного подхода имитации проприетарных систем.

Об архитектурном сжатии моделей диффузии для генерации изображений из текста
On Architectural Compression of Text-to-Image Diffusion Models

May 25, 2023

Bo-Kyeong Kim, Hyoung-Kyu Song, Thibault Castells, Shinkook Choi

Выдающиеся результаты генерации текста в изображение (T2I) моделей Stable Diffusion (SDM) сопровождаются значительными вычислительными затратами. Для решения этой проблемы современные исследования в области эффективных SDM сосредоточены на сокращении количества шагов выборки и использовании квантования сети. В отличие от этих подходов, данное исследование подчеркивает потенциал классического архитектурного сжатия для универсального синтеза T2I, представляя модели SDM с удаленными блоками и дистилляцией знаний (BK-SDMs). Мы удаляем несколько остаточных и внимательных блоков из U-Net SDM, достигая более чем 30% сокращения количества параметров, операций умножения-сложения (MAC) на шаг выборки и задержки. Мы проводим предварительное обучение на основе дистилляции с использованием всего 0,22 миллиона пар данных LAION (менее 0,1% от полного набора обучающих пар) на одном GPU A100. Несмотря на ограниченные ресурсы обучения, наши компактные модели способны имитировать оригинальную SDM, извлекая пользу из перенесенных знаний, и демонстрируют конкурентоспособные результаты по сравнению с более крупными моделями с миллиардами параметров на тесте MS-COCO с нулевым обучением. Кроме того, мы показываем применимость наших легковесных предварительно обученных моделей в персонализированной генерации с использованием тонкой настройки DreamBooth.

Custom-Edit: Редактирование изображений на основе текста с использованием специализированных моделей диффузии
Custom-Edit: Text-Guided Image Editing with Customized Diffusion Models

May 25, 2023

Jooyoung Choi, Yunjey Choi, Yunji Kim, Junho Kim, Sungroh Yoon

Модели диффузии для генерации изображений по тексту способны создавать разнообразные изображения высокой четкости на основе текстовых запросов, предоставленных пользователем. Недавние исследования расширили возможности этих моделей, добавив поддержку редактирования изображений с использованием текстовых указаний. Хотя текстовые указания представляют собой интуитивно понятный интерфейс для пользователей, они часто не обеспечивают точной передачи концепции, задуманной пользователем. Для решения этой проблемы мы предлагаем метод Custom-Edit, в котором мы (i) адаптируем модель диффузии с использованием нескольких эталонных изображений, а затем (ii) выполняем редактирование с текстовыми указаниями. Наше ключевое открытие заключается в том, что адаптация только языково-релевантных параметров с расширенными запросами значительно улучшает сходство с эталоном, сохраняя при этом сходство с исходным изображением. Кроме того, мы предоставляем наш подход для каждого этапа адаптации и редактирования. Мы сравниваем популярные методы адаптации и подтверждаем наши выводы на двух методах редактирования с использованием различных наборов данных.

Эффективная генерация музыки с использованием нейронных сетей
Efficient Neural Music Generation

May 25, 2023

Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Yuping Wang, Yuxuan Wang

Последние достижения в области генерации музыки значительно продвинулись благодаря передовой модели MusicLM, которая включает иерархию из трех языковых моделей (LM), отвечающих соответственно за семантическое, грубое акустическое и детализированное акустическое моделирование. Однако генерация с использованием MusicLM требует последовательной обработки через эти LM для получения детализированных акустических токенов, что делает её вычислительно затратной и непригодной для работы в реальном времени. Эффективная генерация музыки с качеством, сопоставимым с MusicLM, остается серьезной проблемой. В данной статье мы представляем MeLoDy (M — музыка; L — языковая модель; D — диффузия), модель диффузии, управляемую языковой моделью, которая генерирует аудио музыки с качеством, соответствующим современным стандартам, при этом сокращая количество прямых проходов в MusicLM на 95,7% или 99,6% для генерации 10-секундных или 30-секундных композиций соответственно. MeLoDy наследует языковую модель высшего уровня от MusicLM для семантического моделирования и применяет новую модель двойного пути диффузии (DPD) и аудио VAE-GAN для эффективного декодирования семантических токенов в звуковую волну. DPD предложена для одновременного моделирования грубых и детализированных акустических характеристик путем эффективного включения семантической информации в сегменты латентных переменных через механизм кросс-внимания на каждом шаге удаления шума. Результаты экспериментов демонстрируют превосходство MeLoDy не только в практических преимуществах, таких как скорость генерации и возможность бесконечного продолжения, но и в её передовых показателях музыкальности, качества звука и соответствия тексту. Наши примеры доступны по адресу https://Efficient-MeLoDy.github.io/.

Многообразие диффузионных полей
Manifold Diffusion Fields

May 24, 2023

Ahmed A. Elhag, Joshua M. Susskind, Miguel Angel Bautista

Мы представляем Manifold Diffusion Fields (MDF) — подход к обучению генеративных моделей непрерывных функций, определённых на римановых многообразиях. Используя идеи из спектрального анализа геометрии, мы определяем внутреннюю систему координат на многообразии через собственные функции оператора Лапласа-Бельтрами. MDF представляет функции с помощью явной параметризации, образованной набором пар вход-выход. Наш подход позволяет семплировать непрерывные функции на многообразиях и является инвариантным относительно жёстких и изометрических преобразований многообразия. Экспериментальные результаты на нескольких наборах данных и многообразиях показывают, что MDF способен захватывать распределения таких функций с большим разнообразием и точностью, чем предыдущие подходы.

Независимое семантическое соответствие с использованием Stable Diffusion
Unsupervised Semantic Correspondence Using Stable Diffusion

May 24, 2023

Eric Hedlin, Gopal Sharma, Shweta Mahajan, Hossam Isack, Abhishek Kar, Andrea Tagliasacchi, Kwang Moo Yi

Модели диффузии для генерации изображений из текста теперь способны создавать изображения, которые зачастую неотличимы от реальных. Для генерации таких изображений эти модели должны понимать семантику объектов, которые их просят создать. В данной работе мы показываем, что без какого-либо обучения можно использовать это семантическое знание, заложенное в моделях диффузии, для поиска семантических соответствий — областей на нескольких изображениях, которые имеют одинаковое семантическое значение. А именно, для заданного изображения мы оптимизируем встраивания (эмбеддинги) текстовых запросов этих моделей для максимизации внимания на интересующих областях. Эти оптимизированные встраивания захватывают семантическую информацию о местоположении, которую затем можно перенести на другое изображение. Таким образом, мы получаем результаты, сопоставимые с сильно контролируемыми методами, являющимися современным уровнем техники на наборе данных PF-Willow, и значительно превосходим (на 20,9% относительно для набора данных SPair-71k) любые существующие слабо контролируемые или неконтролируемые методы на наборах данных PF-Willow, CUB-200 и SPair-71k.

Ложное обещание имитации проприетарных языковых моделей
The False Promise of Imitating Proprietary LLMs

May 25, 2023

Arnav Gudibande, Eric Wallace, Charlie Snell, Xinyang Geng, Hao Liu, Pieter Abbeel, Sergey Levine, Dawn Song

Ежедневные статьи

Voyager: Автономный агент с открытой архитектурой на основе крупных языковых моделей
Voyager: An Open-Ended Embodied Agent with Large Language Models

Ложное обещание имитации проприетарных языковых моделей
The False Promise of Imitating Proprietary LLMs

Об архитектурном сжатии моделей диффузии для генерации изображений из текста
On Architectural Compression of Text-to-Image Diffusion Models

Custom-Edit: Редактирование изображений на основе текста с использованием специализированных моделей диффузии
Custom-Edit: Text-Guided Image Editing with Customized Diffusion Models

Эффективная генерация музыки с использованием нейронных сетей
Efficient Neural Music Generation

Многообразие диффузионных полей
Manifold Diffusion Fields

Независимое семантическое соответствие с использованием Stable Diffusion
Unsupervised Semantic Correspondence Using Stable Diffusion

Support

Support

Ежедневные статьи

Voyager: Автономный агент с открытой архитектурой на основе крупных языковых моделей
Voyager: An Open-Ended Embodied Agent with Large Language Models

Ложное обещание имитации проприетарных языковых моделей
The False Promise of Imitating Proprietary LLMs

Об архитектурном сжатии моделей диффузии для генерации изображений из текста
On Architectural Compression of Text-to-Image Diffusion Models

Custom-Edit: Редактирование изображений на основе текста с использованием специализированных моделей диффузии
Custom-Edit: Text-Guided Image Editing with Customized Diffusion Models

Эффективная генерация музыки с использованием нейронных сетей
Efficient Neural Music Generation

Многообразие диффузионных полей
Manifold Diffusion Fields

Независимое семантическое соответствие с использованием Stable Diffusion
Unsupervised Semantic Correspondence Using Stable Diffusion