Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Voyager — первого воплощённого агента непрерывного обучения на основе крупных языковых моделей (LLM) в Minecraft, который непрерывно исследует мир, осваивает разнообразные навыки и совершает новые открытия без вмешательства человека. Voyager состоит из трёх ключевых компонентов: 1) автоматической учебной программы, максимизирующей исследование, 2) постоянно расширяемой библиотеки навыков в виде исполняемого кода для хранения и извлечения сложных поведений и 3) нового итеративного механизма запросов, который учитывает обратную связь от среды, ошибки выполнения и самопроверку для улучшения программ. Voyager взаимодействует с GPT-4 через чёрный ящик запросов, что устраняет необходимость тонкой настройки параметров модели. Навыки, разработанные Voyager, являются временно расширенными, интерпретируемыми и композиционными, что быстро усиливает способности агента и смягчает проблему катастрофического забывания. Эмпирически Voyager демонстрирует мощные способности к непрерывному обучению в контексте и исключительное мастерство в игре Minecraft. Он получает в 3,3 раза больше уникальных предметов, преодолевает в 2,3 раза большие расстояния и открывает ключевые этапы технологического дерева до 15,3 раза быстрее, чем предыдущие SOTA-методы. Voyager способен использовать изученную библиотеку навыков в новом мире Minecraft для решения новых задач с нуля, в то время как другие методы испытывают трудности с обобщением. Мы открываем исходный код и запросы по адресу https://voyager.minedojo.org/.
Метод Score Distillation Sampling (SDS) продемонстрировал значительный потенциал в генерации 3D-моделей из текста, используя предобученные крупномасштабные диффузионные модели для текста в изображения, однако страдает от проблем избыточного насыщения, излишнего сглаживания и низкого разнообразия. В данной работе мы предлагаем моделировать 3D-параметр как случайную переменную вместо константы, как это делается в SDS, и представляем Variational Score Distillation (VSD) — принципиальный вариационный фреймворк на основе частиц, который объясняет и решает упомянутые проблемы в генерации 3D-моделей из текста. Мы показываем, что SDS является частным случаем VSD и приводит к низкокачественным результатам как при малых, так и при больших весах CFG. В отличие от этого, VSD хорошо работает с различными весами CFG, подобно ancestral sampling в диффузионных моделях, и одновременно улучшает разнообразие и качество результатов при стандартном весе CFG (например, 7.5). Мы также предлагаем различные улучшения в области проектирования для генерации 3D-моделей из текста, такие как расписание времени дистилляции и инициализация плотности, которые ортогональны алгоритму дистилляции, но недостаточно изучены. Наш общий подход, названный ProlificDreamer, способен генерировать NeRF с высоким разрешением рендеринга (например, 512×512) и высокой точностью, богатой структурой и сложными эффектами (например, дым и капли). Кроме того, меши, доработанные с помощью VSD и инициализированные из NeRF, отличаются тщательной детализацией и фотореалистичностью. Страница проекта: https://ml.cs.tsinghua.edu.cn/prolificdreamer/
Новый подход к недорогому улучшению более слабых языковых моделей заключается в их дообучении на выходах более мощной модели, такой как проприетарная система вроде ChatGPT (например, Alpaca, Self-Instruct и другие). Этот метод направлен на дешевую имитацию возможностей проприетарной модели с использованием более слабой открытой модели. В данной работе мы критически анализируем этот подход. Сначала мы дообучаем серию языковых моделей, имитирующих ChatGPT, с использованием различных размеров базовых моделей (1,5–13 млрд параметров), источников данных и объемов данных для имитации (0,3–150 млн токенов). Затем мы оцениваем модели с помощью крауд-оценщиков и стандартных NLP-бенчмарков. Изначально нас удивило качество выходных данных наших имитационных моделей — они кажутся значительно лучше в следовании инструкциям, а крауд-работники оценивают их результаты как конкурентоспособные с ChatGPT. Однако при проведении более целенаправленных автоматических оценок мы обнаруживаем, что имитационные модели практически не сокращают разрыв между базовой моделью и ChatGPT в задачах, которые слабо представлены в данных для имитации. Мы показываем, что эти расхождения в производительности могут ускользнуть от внимания человеческих оценщиков, поскольку имитационные модели хорошо копируют стиль ChatGPT, но не его фактическую точность. В целом мы заключаем, что имитация моделей — это ложное обещание: существует значительный разрыв в возможностях между открытыми и закрытыми моделями, который при текущих методах можно преодолеть только с использованием непрактично большого объема данных для имитации или более мощных базовых моделей. В свою очередь, мы утверждаем, что наиболее эффективным способом улучшения открытых моделей является решение сложной задачи разработки более качественных базовых моделей, а не использование упрощенного подхода имитации проприетарных систем.
Выдающиеся результаты генерации текста в изображение (T2I) моделей Stable Diffusion (SDM) сопровождаются значительными вычислительными затратами. Для решения этой проблемы современные исследования в области эффективных SDM сосредоточены на сокращении количества шагов выборки и использовании квантования сети. В отличие от этих подходов, данное исследование подчеркивает потенциал классического архитектурного сжатия для универсального синтеза T2I, представляя модели SDM с удаленными блоками и дистилляцией знаний (BK-SDMs). Мы удаляем несколько остаточных и внимательных блоков из U-Net SDM, достигая более чем 30% сокращения количества параметров, операций умножения-сложения (MAC) на шаг выборки и задержки. Мы проводим предварительное обучение на основе дистилляции с использованием всего 0,22 миллиона пар данных LAION (менее 0,1% от полного набора обучающих пар) на одном GPU A100. Несмотря на ограниченные ресурсы обучения, наши компактные модели способны имитировать оригинальную SDM, извлекая пользу из перенесенных знаний, и демонстрируют конкурентоспособные результаты по сравнению с более крупными моделями с миллиардами параметров на тесте MS-COCO с нулевым обучением. Кроме того, мы показываем применимость наших легковесных предварительно обученных моделей в персонализированной генерации с использованием тонкой настройки DreamBooth.
Модели диффузии для генерации изображений по тексту способны создавать разнообразные изображения высокой четкости на основе текстовых запросов, предоставленных пользователем. Недавние исследования расширили возможности этих моделей, добавив поддержку редактирования изображений с использованием текстовых указаний. Хотя текстовые указания представляют собой интуитивно понятный интерфейс для пользователей, они часто не обеспечивают точной передачи концепции, задуманной пользователем. Для решения этой проблемы мы предлагаем метод Custom-Edit, в котором мы (i) адаптируем модель диффузии с использованием нескольких эталонных изображений, а затем (ii) выполняем редактирование с текстовыми указаниями. Наше ключевое открытие заключается в том, что адаптация только языково-релевантных параметров с расширенными запросами значительно улучшает сходство с эталоном, сохраняя при этом сходство с исходным изображением. Кроме того, мы предоставляем наш подход для каждого этапа адаптации и редактирования. Мы сравниваем популярные методы адаптации и подтверждаем наши выводы на двух методах редактирования с использованием различных наборов данных.
Последние достижения в области генерации музыки значительно продвинулись благодаря передовой модели MusicLM, которая включает иерархию из трех языковых моделей (LM), отвечающих соответственно за семантическое, грубое акустическое и детализированное акустическое моделирование. Однако генерация с использованием MusicLM требует последовательной обработки через эти LM для получения детализированных акустических токенов, что делает её вычислительно затратной и непригодной для работы в реальном времени. Эффективная генерация музыки с качеством, сопоставимым с MusicLM, остается серьезной проблемой. В данной статье мы представляем MeLoDy (M — музыка; L — языковая модель; D — диффузия), модель диффузии, управляемую языковой моделью, которая генерирует аудио музыки с качеством, соответствующим современным стандартам, при этом сокращая количество прямых проходов в MusicLM на 95,7% или 99,6% для генерации 10-секундных или 30-секундных композиций соответственно. MeLoDy наследует языковую модель высшего уровня от MusicLM для семантического моделирования и применяет новую модель двойного пути диффузии (DPD) и аудио VAE-GAN для эффективного декодирования семантических токенов в звуковую волну. DPD предложена для одновременного моделирования грубых и детализированных акустических характеристик путем эффективного включения семантической информации в сегменты латентных переменных через механизм кросс-внимания на каждом шаге удаления шума. Результаты экспериментов демонстрируют превосходство MeLoDy не только в практических преимуществах, таких как скорость генерации и возможность бесконечного продолжения, но и в её передовых показателях музыкальности, качества звука и соответствия тексту. Наши примеры доступны по адресу https://Efficient-MeLoDy.github.io/.
Мы представляем Manifold Diffusion Fields (MDF) — подход к обучению генеративных моделей непрерывных функций, определённых на римановых многообразиях. Используя идеи из спектрального анализа геометрии, мы определяем внутреннюю систему координат на многообразии через собственные функции оператора Лапласа-Бельтрами. MDF представляет функции с помощью явной параметризации, образованной набором пар вход-выход. Наш подход позволяет семплировать непрерывные функции на многообразиях и является инвариантным относительно жёстких и изометрических преобразований многообразия. Экспериментальные результаты на нескольких наборах данных и многообразиях показывают, что MDF способен захватывать распределения таких функций с большим разнообразием и точностью, чем предыдущие подходы.
Модели диффузии для генерации изображений из текста теперь способны создавать изображения, которые зачастую неотличимы от реальных. Для генерации таких изображений эти модели должны понимать семантику объектов, которые их просят создать. В данной работе мы показываем, что без какого-либо обучения можно использовать это семантическое знание, заложенное в моделях диффузии, для поиска семантических соответствий — областей на нескольких изображениях, которые имеют одинаковое семантическое значение. А именно, для заданного изображения мы оптимизируем встраивания (эмбеддинги) текстовых запросов этих моделей для максимизации внимания на интересующих областях. Эти оптимизированные встраивания захватывают семантическую информацию о местоположении, которую затем можно перенести на другое изображение. Таким образом, мы получаем результаты, сопоставимые с сильно контролируемыми методами, являющимися современным уровнем техники на наборе данных PF-Willow, и значительно превосходим (на 20,9% относительно для набора данных SPair-71k) любые существующие слабо контролируемые или неконтролируемые методы на наборах данных PF-Willow, CUB-200 и SPair-71k.