Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели генерации музыки из текста теперь способны создавать высококачественные аудиозаписи музыки в широком спектре стилей. Однако управление с помощью текста в основном подходит для манипуляции глобальными музыкальными атрибутами, такими как жанр, настроение и темп, и менее пригодно для точного контроля временно изменяющихся атрибутов, таких как позиции битов во времени или изменяющаяся динамика музыки. Мы предлагаем Music ControlNet, модель генерации музыки на основе диффузии, которая обеспечивает множественный точный контроль над временно изменяющимися параметрами генерируемого аудио. Чтобы наделить модели генерации музыки из текста возможностью временного контроля, мы предлагаем подход, аналогичный поточечному контролю в методе ControlNet для изображений. В частности, мы извлекаем контрольные параметры из обучающих аудиозаписей, создавая парные данные, и дообучаем диффузионную условную генеративную модель на спектрограммах аудио с учетом контроля мелодии, динамики и ритма. В то время как метод Uni-ControlNet для изображений уже позволяет генерировать с любым подмножеством контрольных параметров, мы разрабатываем новую стратегию, позволяющую создателям вводить контрольные параметры, которые лишь частично заданы во времени. Мы оцениваем как контрольные параметры, извлеченные из аудио, так и те, которые, как мы ожидаем, будут предоставлены создателями, демонстрируя, что можем генерировать реалистичную музыку, соответствующую входным контрольным параметрам в обоих случаях. Хотя существует немного сопоставимых моделей генерации музыки, мы сравниваем нашу модель с MusicGen, недавней моделью, которая принимает текст и мелодию на вход, и показываем, что наша модель генерирует музыку, которая на 49% точнее соответствует входным мелодиям, несмотря на то, что она имеет в 35 раз меньше параметров, обучается на 11 раз меньшем объеме данных и обеспечивает два дополнительных вида временного контроля. Примеры звучания можно найти на сайте https://MusicControlNet.github.io/web/.
В данном техническом отчете мы ставим задачу генерации антропоморфных персонажей для персонажей на основе больших языковых моделей (LLM) в онлайн-режиме, включая визуальный облик, личность и тон, используя только текстовые описания. Для достижения этой цели мы сначала используем способность LLM к обучению в контексте для генерации личности, тщательно разработав набор системных промптов. Затем мы предлагаем две новые концепции: смешение голосов (MoV) и смешение диффузоров (MoD) для создания разнообразных голосов и внешнего вида. Для MoV мы применяем алгоритмы преобразования текста в речь (TTS) с различными предопределенными тонами и автоматически выбираем наиболее подходящий на основе предоставленного пользователем текстового описания. Для MoD мы объединяем современные методы генерации изображений из текста и алгоритмы создания говорящих голов, чтобы упростить процесс генерации говорящих объектов. Мы назвали весь этот фреймворк ChatAnything. С его помощью пользователи смогут анимировать что угодно с любыми антропоморфными персонажами, используя всего несколько текстовых вводов. Однако мы заметили, что антропоморфные объекты, создаваемые текущими генеративными моделями, часто не обнаруживаются предварительно обученными детекторами ключевых точек лица, что приводит к сбою в генерации движений лица, даже если эти лица имеют человеческий облик, поскольку такие изображения почти не встречались во время обучения (например, OOD-выборки). Чтобы решить эту проблему, мы включаем пиксельное руководство для внедрения ключевых точек лица на этапе генерации изображений. Для оценки этих метрик мы создали набор данных для тестирования. На его основе мы подтверждаем, что частота обнаружения ключевых точек лица значительно увеличилась с 57,0% до 92,5%, что позволяет автоматически анимировать лицо на основе сгенерированного речевого контента. Код и дополнительные результаты можно найти по адресу https://chatanything.github.io/.
Генерация естественных движений человека на основе рассказа имеет потенциал для преобразования ландшафта анимации, игровой и киноиндустрии. Новая и сложная задача, Story-to-Motion, возникает, когда персонажи должны перемещаться в различные места и выполнять определенные движения на основе длинного текстового описания. Эта задача требует сочетания низкоуровневого управления (траектории) и высокоуровневого управления (семантика движений). Предыдущие работы в области управления персонажами и преобразования текста в движение затрагивали связанные аспекты, однако всеобъемлющее решение остается неуловимым: методы управления персонажами не обрабатывают текстовые описания, тогда как методы преобразования текста в движение не учитывают ограничения по позиции и часто производят нестабильные движения. В свете этих ограничений мы предлагаем новую систему, которая генерирует управляемые, бесконечно длинные движения и траектории, согласованные с входным текстом. (1) Мы используем современные большие языковые модели в качестве текстового планировщика движений для извлечения серии пар (текст, позиция, длительность) из длинного текста. (2) Мы разрабатываем схему поиска движений на основе текста, которая включает сопоставление движений с семантическими и траекторными ограничениями. (3) Мы создаем прогрессивный маскирующий трансформер, который устраняет распространенные артефакты в переходных движениях, такие как неестественные позы и скольжение ног. Помимо своей новаторской роли как первого всеобъемлющего решения для задачи Story-to-Motion, наша система проходит оценку по трем различным подзадачам: следование траектории, временная композиция действий и смешивание движений, где она превосходит предыдущие передовые методы синтеза движений. Домашняя страница: https://story2motion.github.io/.
Мультимодальные базовые модели, представленные GPT-4V, открыли новую парадигму для задач низкоуровневого визуального восприятия и понимания, способных реагировать на широкий спектр естественных человеческих инструкций в рамках модели. Хотя существующие базовые модели продемонстрировали впечатляющий потенциал в задачах низкоуровневого зрения, их соответствующие способности остаются предварительными и требуют улучшения. Для повышения качества этих моделей мы провели масштабный субъективный эксперимент, собрав большое количество реальных отзывов людей о низкоуровневом зрении. Каждый отзыв следует пути, который начинается с подробного описания низкоуровневого визуального восприятия (*например, четкость, цвет, яркость* изображения) и заканчивается общим выводом, со средней длиной в 45 слов. Созданный набор данных **Q-Pathway** включает 58 тысяч подробных человеческих отзывов на 18 973 изображения с разнообразным низкоуровневым восприятием. Более того, чтобы базовые модели могли устойчиво реагировать на различные типы вопросов, мы разработали процесс преобразования с участием GPT, который превращает эти отзывы в 200 тысяч пар "инструкция-ответ" в разнообразных форматах. Результаты экспериментов показывают, что **Q-Instruct** последовательно повышает способности низкоуровневого восприятия и понимания в нескольких базовых моделях. Мы ожидаем, что наши наборы данных проложат путь к будущему, в котором общий интеллект сможет воспринимать, понимать низкоуровневое визуальное восприятие и оценивать качество изображений, как это делает человек. Наши наборы данных, модель и демонстрация опубликованы по адресу: https://q-future.github.io/Q-Instruct.
Существующие методы настройки визуальных инструкций обычно используют текстовые описания для генерации данных, следующих инструкциям, с помощью больших языковых моделей. Несмотря на достигнутые впечатляющие результаты, эти описания основаны на аннотациях изображений, которые зачастую являются грубо детализированными. Более того, инструкции могут даже противоречить визуальному содержанию без учета полного визуального контекста. Для решения этой проблемы мы представляем детализированный набор данных визуальных инструкций LVIS-Instruct4V, который содержит 220 тысяч визуально согласованных и контекстно-осознанных инструкций, созданных с использованием мощной модели GPT-4V на основе изображений из LVIS. Экспериментальная проверка и кейс-стади демонстрируют, что высококачественные данные визуальных инструкций могут значительно улучшить производительность LLaVA-1.5, передовой крупномасштабной мультимодальной модели, на широком спектре бенчмарков. Примечательно, что просто заменив LLaVA-Instruct на наш LVIS-Instruct4V, мы достигаем лучших результатов, чем LLaVA, на большинстве сложных бенчмарков для мультимодальных моделей, например, LLaVA^w (76.7 против 70.7) и MM-Vet (40.2 против 35.4). Мы публикуем наши данные и модель по адресу https://github.com/X2FD/LVIS-INSTRUCT4V.
В сценариях развертывания, таких как дома и склады, от мобильных роботов ожидается способность автономно перемещаться в течение длительных периодов времени, выполняя задачи, сформулированные в терминах, интуитивно понятных для операторов-людей. Мы представляем универсальную систему навигации GO To Any Thing (GOAT), которая способна решать эти задачи благодаря трем ключевым особенностям: а) Мультимодальность: она может работать с целями, заданными через категориальные метки, целевые изображения и текстовые описания; б) Долговременность: она использует прошлый опыт в той же среде; в) Независимость от платформы: она может быть быстро развернута на роботах с различными конструкциями. GOAT реализована благодаря модульной архитектуре системы и постоянно пополняемой семантической памяти, учитывающей конкретные экземпляры объектов, которая отслеживает внешний вид объектов с разных точек зрения в дополнение к семантике на уровне категорий. Это позволяет GOAT различать разные экземпляры одной категории для навигации к целям, заданным изображениями и текстовыми описаниями. В экспериментальных сравнениях, охватывающих более 90 часов в 9 различных домах с 675 целями, выбранными среди более чем 200 различных экземпляров объектов, GOAT достигает общего уровня успеха в 83%, превосходя предыдущие методы и упрощенные версии на 32% (абсолютное улучшение). GOAT улучшает свои показатели с накоплением опыта в среде: от 60% успеха на первой цели до 90% успеха после исследования. Кроме того, мы демонстрируем, что GOAT может быть легко применена для таких задач, как захват и перемещение объектов, а также социальная навигация.
Мы представляем SPHINX, универсальную многомодальную большую языковую модель (MLLM) с совместным смешиванием весов модели, задач настройки и визуальных эмбеддингов. Во-первых, для более сильного согласования между визуальными и языковыми данными мы размораживаем большую языковую модель (LLM) в процессе предварительного обучения и вводим стратегию смешивания весов между LLM, обученными на реальных и синтетических данных. Путем прямого интегрирования весов из двух областей смешанная LLM может эффективно объединять разнообразные семантики с высокой устойчивостью. Затем, чтобы обеспечить многоцелевые возможности, мы смешиваем различные задачи для совместной настройки визуальных инструкций и разрабатываем специфичные для задач инструкции, чтобы избежать конфликтов между ними. В дополнение к базовому визуальному вопросно-ответному взаимодействию мы включаем более сложные задачи, такие как понимание на уровне регионов, привязка подписей, обнаружение структуры документов и оценка позы человека, что способствует взаимному улучшению в различных сценариях. Кроме того, мы предлагаем извлекать комплексные визуальные эмбеддинги из различных архитектур сетей, парадигм предварительного обучения и уровней информационной детализации, предоставляя языковым моделям более устойчивые представления изображений. Благодаря нашему предложенному совместному смешиванию, SPHINX демонстрирует превосходные способности к многомодальному пониманию в широком спектре приложений. В дополнение к этому, мы предлагаем эффективную стратегию, направленную на лучшее захват детализированных особенностей изображений высокого разрешения. Смешивая различные масштабы и подизображения высокого разрешения, SPHINX достигает исключительной производительности в визуальном анализе и рассуждении на существующих оценочных тестах. Мы надеемся, что наша работа послужит вдохновением для исследования совместного смешивания в будущих исследованиях MLLM. Код доступен по адресу https://github.com/Alpha-VLLM/LLaMA2-Accessory.
Мы представляем MM-Navigator, агента на основе GPT-4V, предназначенного для задачи навигации по графическому пользовательскому интерфейсу (GUI) смартфона. MM-Navigator способен взаимодействовать с экраном смартфона, как это делают пользователи-люди, и определять последующие действия для выполнения заданных инструкций. Наши результаты демонстрируют, что крупные мультимодальные модели (LMM), в частности GPT-4V, превосходно справляются с нулевым обучением в навигации по GUI благодаря своим продвинутым возможностям интерпретации экрана, рассуждения о действиях и точной локализации действий. Сначала мы тестируем MM-Navigator на собранном нами наборе данных экранов iOS. Согласно оценкам людей, система показала точность 91% в генерации разумных описаний действий и 75% в выполнении правильных действий для одношаговых инструкций на iOS. Кроме того, мы оцениваем модель на подмножестве набора данных для навигации по экранам Android, где модель превосходит предыдущие навигаторы по GUI в режиме нулевого обучения. Наш бенчмарк и детальный анализ направлены на создание прочной основы для будущих исследований задачи навигации по GUI. Страница проекта доступна по адресу https://github.com/zzxslp/MM-Navigator.
В последнее время наблюдается стремительное развитие исследований в области больших языковых моделей (LLM), что привело к значительному прогрессу в решении ряда задач обработки естественного языка (NLP). В связи с этим резко возрос интерес к исследованиям по оценке LLM, направленным на понимание их возможностей и ограничений. Однако большая часть этих исследований ограничивается английским языком, в то время как разработка и оценка LLM для неанглоязычных языков остаются недостаточно изученными. С появлением нескольких новых LLM возникла необходимость их оценки на неанглийских языках. Данное исследование направлено на расширение нашего набора тестов MEGA путем включения шести новых наборов данных для формирования бенчмарка MEGAVERSE. Этот бенчмарк включает 22 набора данных, охватывающих 81 язык, включая малоресурсные африканские языки. Мы оцениваем несколько современных LLM, таких как GPT-3.5-Turbo, GPT4, PaLM2 и Llama2, на наборах данных MEGAVERSE. Кроме того, мы включаем в бенчмарк два мультимодальных набора данных и оцениваем производительность модели LLaVa-v1.5. Наши эксперименты показывают, что GPT4 и PaLM2 превосходят модели Llama в различных задачах, особенно на малоресурсных языках, причем GPT4 демонстрирует лучшие результаты на большем количестве наборов данных по сравнению с PaLM2. Однако для получения точной оценки производительности LLM на неанглийских языках необходимо учитывать такие проблемы, как загрязнение данных.
В последние годы революционные достижения в области обработки естественного языка привели к появлению мощных больших языковых моделей (LLM), которые продемонстрировали впечатляющие возможности в самых разных областях, включая понимание, генерацию и перевод естественного языка, а также задачи, выходящие за рамки языковой обработки. В данном отчете мы исследуем производительность LLM в контексте научных открытий, уделяя особое внимание GPT-4 — передовой языковой модели. Наше исследование охватывает широкий спектр научных областей, включая разработку лекарств, биологию, вычислительную химию (теорию функционала плотности (DFT) и молекулярную динамику (MD)), проектирование материалов и дифференциальные уравнения в частных производных (PDE). Оценка GPT-4 на научных задачах имеет ключевое значение для раскрытия ее потенциала в различных исследовательских областях, проверки ее экспертизы в конкретных дисциплинах, ускорения научного прогресса, оптимизации распределения ресурсов, направления будущей разработки моделей и стимулирования междисциплинарных исследований. Наша методология исследования в основном включает экспертные оценки кейсов, которые дают качественное представление о понимании моделью сложных научных концепций и взаимосвязей, а также тестирование на эталонных задачах, которое количественно оценивает способность модели решать четко определенные задачи в конкретных областях. Наши предварительные исследования показывают, что GPT-4 демонстрирует многообещающий потенциал для различных научных приложений, подтверждая ее способность справляться с задачами сложного решения проблем и интеграции знаний. В целом мы оцениваем базу знаний GPT-4, ее научное понимание, способности к научным численным расчетам и различные возможности научного прогнозирования.
Крупные языковые модели (LLM) обучаются на корпусах веб-масштаба, которые неизбежно содержат противоречивую фактическую информацию из источников разной степени надежности. В данной статье мы предлагаем измерять свойство LLM, называемое согласованностью с доверенными источниками (Trusted Source Alignment, TSA): склонность модели согласовываться с контентом, созданным авторитетными издательствами, в условиях неопределенности или противоречий. Мы представляем FactCheckQA — набор данных для оценки TSA, основанный на корпусе статей с проверкой фактов. Мы описываем простой протокол для оценки TSA и предлагаем детальный анализ аспектов проектирования, включая извлечение ответов, контекстуализацию утверждений и предвзятость в формулировке запросов. Применяя протокол к модели PaLM-2, мы обнаруживаем, что с увеличением размера модели производительность на FactCheckQA улучшается от почти случайной до 80% сбалансированной точности в согласовании с доверенными источниками.
Генерация условных графических макетов, которая автоматически преобразует пользовательские ограничения в высококачественные макеты, сегодня привлекает широкое внимание. Хотя последние работы демонстрируют впечатляющие результаты, недостаток универсальности и эффективности использования данных ограничивает их практическое применение. В данной работе мы предлагаем LayoutPrompter, который использует большие языковые модели (LLM) для решения указанных проблем с помощью обучения в контексте. LayoutPrompter состоит из трех ключевых компонентов: сериализации входных и выходных данных, динамического выбора примеров и ранжирования макетов. В частности, компонент сериализации входных и выходных данных тщательно проектирует форматы ввода и вывода для каждой задачи генерации макетов. Динамический выбор примеров отвечает за подбор наиболее полезных примеров для заданного ввода. А ранкер макетов используется для выбора наилучшего макета из множества выходных данных LLM. Мы проводим эксперименты на всех существующих задачах генерации макетов с использованием четырех публичных наборов данных. Несмотря на простоту нашего подхода, результаты экспериментов показывают, что LayoutPrompter может конкурировать или даже превосходить современные методы на этих задачах без какого-либо обучения или тонкой настройки модели. Это демонстрирует эффективность универсального подхода, не требующего обучения. Кроме того, исследования с исключением компонентов показывают, что LayoutPrompter значительно превосходит базовые методы, основанные на обучении, в условиях ограниченного объема данных, что дополнительно подтверждает его эффективность в использовании данных. Наш проект доступен по адресу https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.
Крупные языковые модели (LLM), такие как T0, FLAN и OPT-IML, демонстрируют выдающиеся способности в многозадачности в рамках единой парадигмы следования инструкциям, а также проявляют замечательную способность к обобщению на незнакомые задачи. Несмотря на впечатляющую производительность, эти LLM, размер которых варьируется от нескольких миллиардов до сотен миллиардов параметров, требуют значительных вычислительных ресурсов, что делает их обучение и вывод дорогостоящими и неэффективными. Более того, адаптация этих моделей для решения прикладных задач, особенно сложных, часто оказывается невозможной из-за высоких требований к аппаратному обеспечению для тонкой настройки, даже при использовании параметрически эффективных подходов, таких как настройка промптов. Кроме того, наиболее мощные многозадачные LLM, такие как OPT-IML-175B и FLAN-PaLM-540B, не являются общедоступными, что существенно ограничивает их потенциал для кастомизации. Для решения этих проблем мы представляем предобученную небольшую модель-оценщик Cappy, разработанную для повышения производительности и эффективности многозадачных LLM. С всего лишь 360 миллионами параметров Cappy может работать независимо на задачах классификации или служить вспомогательным компонентом для LLM, повышая их производительность. Более того, Cappy позволяет эффективно интегрировать дополнительное обучение на целевых задачах без необходимости тонкой настройки LLM или доступа к их параметрам. Наши эксперименты показывают, что при независимой работе на 11 задачах понимания языка из PromptSource Cappy превосходит LLM, которые на несколько порядков больше. Кроме того, на 45 сложных задачах из BIG-Bench Cappy значительно повышает производительность передовой многозадачной LLM FLAN-T5. Более того, Cappy гибко взаимодействует с другими методами адаптации LLM, включая тонкую настройку и обучение в контексте, обеспечивая дополнительное улучшение производительности.
В данной работе мы расширяем возможности модели Llama-2, настроенной на выполнение инструкций, добавляя сквозную обработку речи общего назначения и способность к рассуждениям, сохраняя при этом широкий спектр возможностей языковых моделей (LLM), без использования тщательно подобранных парных данных. Предложенная модель способна использовать аудиоподсказки вместо текста и поддерживать диалог. Такая модель также обладает расширенными кросс-модальными возможностями, такими как выполнение ответов на вопросы на основе речи, перевод речи и суммаризация аудио, среди множества других задач в закрытых и открытых доменах. Это отличается от предыдущих подходов в обработке речи, где LLM расширялись для работы с аудио только для ограниченного числа заранее определённых задач. Эксперименты показывают, что наш сквозной подход сопоставим или превосходит каскадную систему (распознавание речи + LLM) с точки зрения моделирования ответа на подсказку. Более того, в отличие от каскадного подхода, наш метод демонстрирует способность взаимозаменять текстовые и аудиомодальности и использовать предыдущий контекст в диалоге для получения более качественных результатов.
Мы представляем и исследуем задачу арифметики с противодействием, которая предлагает простую, но сложную тестовую площадку для согласования языковых моделей. Эта задача состоит из арифметических вопросов, сформулированных на естественном языке, с произвольной противодействующей строкой, вставленной до завершения вопроса. Даже в простом случае задач на сложение однозначных чисел легко найти противодействующие запросы, которые заставляют все протестированные модели (включая PaLM2, GPT4, Claude2) работать некорректно и даже направляют модели к конкретному неправильному ответу. Мы также предлагаем простой алгоритм для поиска успешных атак путем запросов к этим же моделям, который мы называем "отбор с отклонением инверсии запроса" (PIRS). Наконец, мы показываем, что модели могут быть частично защищены от таких атак с помощью обучения с подкреплением и через агентские конституционные циклы. Однако нам не удалось сделать языковую модель полностью устойчивой к атакам на арифметику с противодействием.