Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем SDXL, латентную диффузионную модель для синтеза изображений по тексту. По сравнению с предыдущими версиями Stable Diffusion, SDXL использует в три раза более крупный бэкбон UNet: увеличение количества параметров модели в основном связано с добавлением большего числа блоков внимания и расширением контекста кросс-внимания, поскольку SDXL использует второй текстовый кодировщик. Мы разработали несколько новых схем кондиционирования и обучили SDXL на изображениях с различными соотношениями сторон. Также мы представляем модель уточнения, которая используется для повышения визуальной точности образцов, сгенерированных SDXL, с помощью постобработки методом "изображение-в-изображение". Мы демонстрируем, что SDXL значительно превосходит предыдущие версии Stable Diffusion и достигает результатов, сопоставимых с современными генераторами изображений, работающими как "черные ящики". В духе продвижения открытых исследований и повышения прозрачности в обучении и оценке крупных моделей, мы предоставляем доступ к коду и весам модели по адресу https://github.com/Stability-AI/generative-models.
Масштабирование длины последовательности стало критически важной задачей в эпоху больших языковых моделей. Однако существующие методы сталкиваются либо с вычислительной сложностью, либо с ограниченной выразительностью модели, что приводит к ограничению максимальной длины последовательности. В данной работе мы представляем LongNet — вариант архитектуры Transformer, который позволяет масштабировать длину последовательности до более чем 1 миллиарда токенов без ущерба для производительности на более коротких последовательностях. В частности, мы предлагаем дилатированное внимание, которое экспоненциально расширяет область внимания с увеличением расстояния. LongNet обладает значительными преимуществами: 1) он имеет линейную вычислительную сложность и логарифмическую зависимость между токенами; 2) он может использоваться как распределенный обучающий механизм для чрезвычайно длинных последовательностей; 3) его дилатированное внимание является прямой заменой стандартного внимания и может быть легко интегрировано с существующими оптимизациями на основе Transformer. Результаты экспериментов показывают, что LongNet демонстрирует высокую производительность как в задачах моделирования длинных последовательностей, так и в общих языковых задачах. Наша работа открывает новые возможности для моделирования очень длинных последовательностей, например, обработки всего корпуса текстов или даже всего Интернета как единой последовательности.
Несмотря на способность существующих крупномасштабных моделей преобразования текста в изображение (T2I) генерировать высококачественные изображения на основе детальных текстовых описаний, они часто не способны точно редактировать сгенерированные или реальные изображения. В данной статье мы предлагаем новый метод редактирования изображений, DragonDiffusion, который позволяет осуществлять манипуляции в стиле Drag на моделях диффузии. В частности, мы создаем классификаторное управление, основанное на сильной корреляции промежуточных признаков в модели диффузии. Это позволяет преобразовывать сигналы редактирования в градиенты с помощью функции потерь на основе корреляции признаков, чтобы изменять промежуточное представление модели диффузии. На основе этой стратегии управления мы также разрабатываем многоуровневое управление, учитывающее как семантическое, так и геометрическое выравнивание. Кроме того, добавляется кросс-веточный механизм самовнимания для поддержания согласованности между исходным изображением и результатом редактирования. Наш метод, благодаря эффективной конструкции, позволяет реализовать различные режимы редактирования для сгенерированных или реальных изображений, такие как перемещение объектов, изменение их размеров, замена внешнего вида объектов и перетаскивание содержимого. Важно отметить, что все сигналы редактирования и сохранения содержимого исходят из самого изображения, и модель не требует тонкой настройки или дополнительных модулей. Наш исходный код будет доступен по адресу https://github.com/MC-E/DragonDiffusion.
Недавно выпуск INSTRUCTEVAL предоставил ценные данные о производительности крупных языковых моделей (LLM), использующих архитектуру "кодировщик-декодировщик" или только декодировщик. Интересно, что, несмотря на то, что они были представлены четыре года назад, LLM на основе T5, такие как FLAN-T5, продолжают превосходить последние модели на основе декодировщика, такие как LLAMA и VICUNA, в задачах, требующих общих навыков решения проблем. Это расхождение в производительности можно объяснить тремя ключевыми факторами: (1) Данные предварительного обучения, (2) Архитектура базовой модели и (3) Набор данных с инструкциями. В данном техническом отчете основное внимание уделяется исследованию влияния третьего фактора с использованием VICUNA — крупной языковой модели на основе LLAMA, которая была дообучена на диалогах ChatGPT. Для достижения этой цели мы дообучили VICUNA с использованием пользовательской коллекции наборов данных с инструкциями под названием FLANMINI. Эта коллекция включает подмножество крупномасштабного набора данных с инструкциями FLAN, а также различные наборы данных, связанные с кодом, и диалоговые наборы данных, полученные из ChatGPT/GPT-4. Этот набор данных содержит большое количество задач, требующих навыков решения проблем. Наши экспериментальные результаты убедительно свидетельствуют о том, что улучшенные способности нашей модели FLACUNA к решению проблем достигаются за счет дообучения VICUNA на наборе данных FLAN, что приводит к значительным улучшениям на множестве тестовых наборов данных в INSTRUCTEVAL. FLACUNA доступна публично по адресу https://huggingface.co/declare-lab/flacuna-13b-v1.0.
Понимание документов относится к автоматическому извлечению, анализу и осмыслению информации из различных типов цифровых документов, таких как веб-страница. Существующие многомодальные большие языковые модели (MLLMs), включая mPLUG-Owl, продемонстрировали многообещающие возможности в задачах распознавания текста без использования OCR (оптического распознавания символов) на уровне нулевого сэмплинга, что указывает на их потенциал для понимания документов без OCR. Тем не менее, без обучения на данных из конкретной области эти модели склонны игнорировать тонкие особенности OCR, такие как сложные таблицы или большие блоки текста, которые важны для понимания документов без OCR. В данной статье мы предлагаем mPLUG-DocOwl, основанную на mPLUG-Owl, для понимания документов без OCR. В частности, мы сначала создаем набор данных для настройки инструкций, включающий широкий спектр задач понимания визуального текста. Затем мы усиливаем способность понимания документов без OCR, совместно обучая модель на данных, содержащих только текст, общих данных для задач зрения и языка, а также на наборе данных для настройки инструкций по документам, используя нашу унифицированную стратегию настройки инструкций. Мы также создаем набор для оценки понимания инструкций по документам без OCR LLMDoc, чтобы лучше сравнивать способности моделей в соблюдении инструкций и понимании документов. Экспериментальные результаты показывают, что наша модель превосходит существующие многомодальные модели, демонстрируя ее высокую способность к пониманию документов. Кроме того, без специальной тонкой настройки mPLUG-DocOwl хорошо обобщается на различные задачи. Наш код, модели, данные для обучения и набор для оценки доступны по адресу https://github.com/X-PLUG/mPLUG-DocOwl.
Крупные языковые модели, обученные с учетом безопасности и безвредности, остаются уязвимыми для злонамеренного использования, что подтверждается распространенностью атак "взлома" на ранние версии ChatGPT, которые вызывают нежелательное поведение. Выходя за рамки простого признания проблемы, мы исследуем, почему такие атаки успешны и как они могут быть созданы. Мы выдвигаем гипотезу о двух типах сбоев в обучении безопасности: конфликтующие цели и несоответствующая обобщаемость. Конфликтующие цели возникают, когда возможности модели и цели безопасности противоречат друг другу, а несоответствующая обобщаемость проявляется, когда обучение безопасности не распространяется на область, для которой существуют возможности модели. Мы используем эти типы сбоев для разработки новых методов взлома и затем оцениваем современные модели, включая GPT-4 от OpenAI и Claude v1.3 от Anthropic, против как существующих, так и новых атак. Мы обнаруживаем, что уязвимости сохраняются, несмотря на масштабные усилия по "красному тестированию" и обучению безопасности, заложенные в эти модели. Примечательно, что новые атаки, основанные на наших гипотезах, успешны для каждого запроса в наборе небезопасных запросов из оценочных наборов моделей и превосходят существующие импровизированные методы взлома. Наш анализ подчеркивает необходимость паритета безопасности и возможностей — механизмы безопасности должны быть столь же сложными, как и сама модель — и опровергает идею, что простое масштабирование может устранить эти сбои в безопасности.
Последние достижения в области больших языковых моделей (LLM), таких как GPT4, продемонстрировали исключительные мультимодальные способности в выполнении открытых инструкций, предоставленных вместе с изображениями. Однако производительность этих моделей в значительной степени зависит от таких проектных решений, как структура сети, обучающие данные и стратегии обучения, которые не были подробно рассмотрены в литературе, что затрудняет количественную оценку прогресса в этой области. Для решения этой проблемы в данной статье представлено систематическое и всестороннее исследование, количественно и качественно анализирующее процесс обучения таких моделей. Мы реализовали более 20 вариантов моделей с контролируемыми настройками. В частности, для структуры сети мы сравниваем различные архитектуры LLM и модели. Для обучающих данных исследуем влияние данных и стратегий выборки. Для инструкций изучаем влияние разнообразных промптов на способность обученных моделей следовать инструкциям. Для бенчмарков мы представляем, насколько нам известно, первый всесторонний набор для оценки, включающий задачи как с изображениями, так и с видео, созданный с помощью краудсорсинга. На основе наших результатов мы представляем Lynx, который демонстрирует наиболее точное мультимодальное понимание при сохранении наилучшей способности к мультимодальной генерации по сравнению с существующими открытыми моделями в стиле GPT4.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности к планированию в задачах, связанных с одиночными агентами в различных областях. Однако их способность к планированию и коммуникации в условиях многоагентного сотрудничества остается неясной, несмотря на то, что эти навыки являются ключевыми для интеллектуальных воплощенных агентов. В данной статье мы представляем новую структуру, которая использует LLM для многоагентного сотрудничества и тестирует её в различных воплощенных средах. Наша структура позволяет воплощенным агентам планировать, общаться и сотрудничать с другими воплощенными агентами или людьми для эффективного выполнения долгосрочных задач. Мы показываем, что современные LLM, такие как GPT-4, могут превосходить мощные методы, основанные на планировании, и демонстрировать эффективную коммуникацию в рамках нашей структуры без необходимости тонкой настройки или использования подсказок с несколькими примерами. Мы также обнаруживаем, что агенты на основе LLM, которые общаются на естественном языке, могут вызывать больше доверия и эффективнее сотрудничать с людьми. Наше исследование подчеркивает потенциал LLM для воплощенного ИИ и закладывает основу для будущих исследований в области многоагентного сотрудничества. Видео можно найти на сайте проекта: https://vis-www.cs.umass.edu/Co-LLM-Agents/.
Крупные языковые модели (LLMs) демонстрируют широкий спектр перспективных возможностей — от пошагового планирования до здравого смысла в рассуждениях, — которые могут быть полезны для роботов, однако они склонны к уверенным, но ошибочным предсказаниям. В данной работе мы представляем KnowNo — фреймворк для измерения и согласования неопределённости в планировании на основе LLM, чтобы модели знали, когда они не уверены, и запрашивали помощь при необходимости. KnowNo основывается на теории конформного предсказания, предоставляя статистические гарантии выполнения задач при минимизации человеческого вмешательства в сложных многошаговых сценариях планирования. Эксперименты в различных симулированных и реальных роботизированных средах, включающих задачи с различными типами неоднозначности (например, от пространственных до численных неопределённостей, от предпочтений человека до схем Винограда), показывают, что KnowNo превосходит современные базовые подходы (которые могут включать ансамбли или тщательную настройку промптов) с точки зрения повышения эффективности и автономности, одновременно предоставляя формальные гарантии. KnowNo может использоваться с LLM "из коробки" без дообучения модели и предлагает перспективный лёгкий подход к моделированию неопределённости, который может дополнять и масштабироваться вместе с растущими возможностями базовых моделей. Сайт: https://robot-help.github.io
Недавние диффузионные трансформеры (например, DiT) продемонстрировали свою мощную эффективность в генерации высококачественных 2D-изображений. Однако до сих пор неясно, насколько хорошо архитектура трансформеров справляется с генерацией 3D-форм, поскольку предыдущие методы 3D-диффузии в основном использовали архитектуру U-Net. Чтобы устранить этот пробел, мы предлагаем новый диффузионный трансформер для генерации 3D-форм, а именно DiT-3D, который может напрямую выполнять процесс удаления шума на вокселизированных облаках точек с использованием простых трансформеров. По сравнению с существующими подходами на основе U-Net, наш DiT-3D более масштабируем по размеру модели и генерирует результаты значительно более высокого качества. В частности, DiT-3D использует философию проектирования DiT, но модифицирует её, добавляя 3D-позиционные и патч-эмбеддинги для адаптивной агрегации входных данных из вокселизированных облаков точек. Чтобы снизить вычислительные затраты на само-внимание в генерации 3D-форм, мы внедряем 3D-оконное внимание в блоки трансформеров, так как увеличение длины 3D-токенов из-за дополнительного измерения вокселей может привести к высоким вычислительным затратам. Наконец, линейные и девокселизационные слои используются для предсказания очищенных от шума облаков точек. Кроме того, наша архитектура трансформеров поддерживает эффективную тонкую настройку с 2D на 3D, где предварительно обученная модель DiT-2D на ImageNet может значительно улучшить DiT-3D на ShapeNet. Экспериментальные результаты на наборе данных ShapeNet демонстрируют, что предложенный DiT-3D достигает наилучших показателей в генерации высококачественных и разнообразных 3D-облаков точек. В частности, наш DiT-3D снижает метрику 1-Nearest Neighbor Accuracy у лучшего существующего метода на 4,59 и увеличивает метрику Coverage на 3,51 при оценке по расстоянию Чамфера.
Входные токены для Vision Transformers несут мало семантического смысла, так как они определяются как регулярные равномерные участки входного изображения, независимо от его содержания. Однако обработка однородных фоновых областей изображения не должна требовать столько же вычислительных ресурсов, сколько плотные и перегруженные области. Для решения этой проблемы мы предлагаем схему динамической токенизации смешанного масштаба для ViT, MSViT. Наш метод вводит условный механизм выбора, который выбирает оптимальный масштаб токенов для каждой области изображения, так что количество токенов динамически определяется для каждого входного изображения. Предлагаемый модуль выбора является легковесным, не зависит от выбора трансформерной архитектуры и обучается за несколько эпох (например, 20 эпох на ImageNet) с минимальными затратами на обучение. Кроме того, для улучшения условного поведения механизма выбора во время обучения мы вводим новое обобщение функции потерь batch-shaping. Мы показываем, что наш модуль выбора способен изучать значимую семантику, несмотря на локальную работу на уровне грубых участков. Мы проверяем MSViT на задачах классификации и сегментации, где он приводит к улучшенному компромиссу между точностью и сложностью.
В данном исследовании анализируется производительность открытых крупных языковых моделей (LLM) в задачах аннотирования текста и проводится их сравнение с проприетарными моделями, такими как ChatGPT, и услугами, основанными на человеческом труде, например MTurk. Хотя предыдущие исследования продемонстрировали высокую производительность ChatGPT в многочисленных задачах обработки естественного языка, открытые LLM, такие как HugginChat и FLAN, привлекают внимание благодаря своей экономической эффективности, прозрачности, воспроизводимости и превосходной защите данных. Мы оцениваем эти модели, используя как подходы с нулевым (zero-shot), так и с малым количеством примеров (few-shot), а также различные параметры температуры в широком спектре задач аннотирования текста. Наши результаты показывают, что, хотя ChatGPT демонстрирует наилучшую производительность в большинстве задач, открытые LLM не только превосходят MTurk, но и проявляют конкурентоспособный потенциал в сравнении с ChatGPT в определенных задачах.
Аватары играют важную роль в создании интерактивных и погружающих впечатлений в виртуальных мирах. Одной из проблем при анимации таких персонажей для имитации движений пользователя является то, что коммерческие продукты AR/VR состоят только из гарнитуры и контроллеров, предоставляя крайне ограниченные данные о позе пользователя. Другая сложность заключается в том, что аватар может иметь отличную от человеческой структуру скелета, и соответствие между ними неочевидно. В данной работе мы решаем обе эти проблемы. Мы представляем метод для переноса движений в реальном времени с использованием скудных данных сенсоров человека на персонажей с различной морфологией. Наш метод использует обучение с подкреплением для тренировки политики управления персонажами в физическом симуляторе. Для обучения нам требуется только данные захвата движений человека, без необходимости использования анимаций, созданных художниками для каждого аватара. Это позволяет нам использовать большие наборы данных захвата движений для обучения универсальных политик, которые могут отслеживать движения новых пользователей в реальном времени на основе реальных и скудных данных. Мы демонстрируем работоспособность нашего подхода на трех персонажах с разной структурой скелета: динозавре, существе, похожем на мышь, и человеке. Мы показываем, что позы аватаров часто удивительно точно соответствуют позам пользователя, несмотря на отсутствие данных сенсоров о нижней части тела. Мы обсуждаем и анализируем ключевые компоненты нашей системы, в частности этап кинематического переноса движений, награды за имитацию, контакт и действия, а также наши асимметричные наблюдения актора-критика. Кроме того, мы исследуем устойчивость нашего метода в различных сценариях, включая потерю равновесия, танцы и спортивные движения.
В данной статье представлен Elastic Decision Transformer (EDT), представляющий значительный прогресс по сравнению с существующим Decision Transformer (DT) и его вариантами. Хотя DT заявляет о способности генерировать оптимальную траекторию, эмпирические данные свидетельствуют о его трудностях с "сшиванием траекторий" — процессом создания оптимальной или близкой к оптимальной траектории из лучших частей набора субоптимальных траекторий. Предложенный EDT выделяется за счет облегчения сшивания траекторий во время вывода действий на этапе тестирования, что достигается за счет регулирования длины истории, сохраняемой в DT. Кроме того, EDT оптимизирует траекторию, сохраняя более длинную историю, когда предыдущая траектория является оптимальной, и более короткую — когда она субоптимальна, что позволяет "сшивать" её с более оптимальной траекторией. Многочисленные эксперименты демонстрируют способность EDT сократить разрыв в производительности между подходами на основе DT и Q-обучения. В частности, EDT превосходит методы на основе Q-обучения в многозадачном режиме на бенчмарке D4RL для задач локомоции и в играх Atari. Видео доступны по ссылке: https://kristery.github.io/edt/
Оснащение воплощенных агентов здравым смыслом важно для успешного выполнения роботами сложных человеческих инструкций в общих условиях. Современные крупные языковые модели (LLM) способны встраивать богатые семантические знания для агентов при генерации планов сложных задач, однако они не обладают информацией о реальном мире и часто выдают невыполнимые последовательности действий. В данной статье мы предлагаем агента для планирования задач (TaPA) в воплощенных задачах, ориентированного на планирование с учетом физических ограничений сцены, где агент генерирует выполнимые планы в соответствии с существующими объектами в сцене, согласовывая LLM с моделями визуального восприятия. В частности, мы сначала создаем мультимодальный набор данных, содержащий тройки из внутренних сцен, инструкций и планов действий, где мы предоставляем разработанные промпты и список существующих объектов в сцене для GPT-3.5, чтобы сгенерировать большое количество инструкций и соответствующих запланированных действий. Сгенерированные данные используются для настройки предварительно обученных LLM на основе реальных ограничений. Во время вывода мы обнаруживаем объекты в сцене, расширяя детекторы объектов с открытым словарем до многовидовых RGB-изображений, собранных в различных достижимых локациях. Экспериментальные результаты показывают, что сгенерированный план в рамках нашего TaPA-фреймворка достигает более высокой успешности по сравнению с LLaVA и GPT-3.5 с существенным отрывом, что указывает на практическую применимость планирования воплощенных задач в общих и сложных условиях.
Музыка используется для передачи эмоций, поэтому генерация эмоциональной музыки важна в автоматическом создании музыкальных композиций. Предыдущие работы по генерации эмоциональной музыки напрямую используют аннотированные метки эмоций в качестве управляющих сигналов, что страдает от субъективной предвзятости: разные люди могут аннотировать разные эмоции для одной и той же музыки, а один человек может испытывать разные эмоции в разных ситуациях. Таким образом, прямое отображение меток эмоций в музыкальные последовательности в сквозном режиме может запутать процесс обучения и помешать модели генерировать музыку с общими эмоциями. В данной статье мы предлагаем EmoGen, систему генерации эмоциональной музыки, которая использует набор музыкальных атрибутов, связанных с эмоциями, в качестве моста между эмоциями и музыкой, и разделяет генерацию на два этапа: отображение эмоций в атрибуты с использованием контролируемой кластеризации и генерация музыки из атрибутов с использованием самообучения. Оба этапа полезны: на первом этапе значения атрибутов вокруг центра кластеризации представляют общие эмоции этих образцов, что помогает устранить влияние субъективной предвзятости меток эмоций; на втором этапе генерация полностью отделена от меток эмоций и, следовательно, свободна от субъективной предвзятости. Как субъективные, так и объективные оценки показывают, что EmoGen превосходит предыдущие методы по точности управления эмоциями и качеству музыки соответственно, что демонстрирует наше превосходство в генерации эмоциональной музыки. Примеры музыки, созданной с помощью EmoGen, доступны по ссылке: https://ai-muzic.github.io/emogen/, а код доступен по ссылке: https://github.com/microsoft/muzic/.