Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем phi-1 — новую крупную языковую модель для работы с кодом, которая имеет значительно меньший размер по сравнению с конкурирующими моделями: phi-1 — это модель на основе архитектуры Transformer с 1,3 миллиардами параметров, обученная в течение 4 дней на 8 GPU A100 с использованием выборки данных «учебного качества» из интернета (6 миллиардов токенов) и синтетически сгенерированных учебников и упражнений с помощью GPT-3.5 (1 миллиард токенов). Несмотря на такой небольшой масштаб, phi-1 достигает точности pass@1 50,6% на HumanEval и 55,5% на MBPP. Она также демонстрирует удивительные эмерджентные свойства по сравнению с phi-1-base — нашей моделью до этапа тонкой настройки на наборе данных с упражнениями по программированию, и phi-1-small — меньшей моделью с 350 миллионами параметров, обученной по тому же конвейеру, что и phi-1, которая всё же достигает 45% на HumanEval.
Создание реалистичных движений человека на основе заданных описаний действий достигло значительных успехов благодаря растущим требованиям к цифровым людям. Хотя последние работы демонстрируют впечатляющие результаты в генерации движений непосредственно из текстовых описаний действий, они часто поддерживают только один тип управляющего сигнала, что ограничивает их применение в реальной индустрии цифровых людей. В данной статье представлен универсальный генератор движений (MotionGPT), который может использовать мультимодальные управляющие сигналы, такие как текст и позы из одного кадра, для создания последовательных движений человека, рассматривая мультимодальные сигналы как специальные входные токены в больших языковых моделях (LLM). В частности, мы сначала квантуем мультимодальные управляющие сигналы в дискретные коды, а затем формулируем их в единой инструкции-запросе, чтобы LLM сгенерировала ответ в виде движения. Наш MotionGPT демонстрирует унифицированную модель генерации движений человека с мультимодальными управляющими сигналами, настраивая всего 0,4% параметров LLM. Насколько нам известно, MotionGPT является первым методом, который генерирует движения человека с использованием мультимодальных управляющих сигналов, что, как мы надеемся, может открыть новые перспективы в этой области. Код будет опубликован после принятия статьи.
HomeRobot (существительное): Доступный, гибкий робот, способный перемещаться по домам и манипулировать широким спектром объектов для выполнения повседневных задач. Open-Vocabulary Mobile Manipulation (OVMM) — это задача подбора любого объекта в неизвестной среде и его размещения в указанном месте. Это фундаментальная проблема для создания полезных роботов-помощников в человеческой среде, поскольку она включает решение подзадач из различных областей робототехники: восприятие, понимание языка, навигация и манипуляция — все они необходимы для OVMM. Кроме того, интеграция решений этих подзадач сама по себе представляет значительные трудности. Для стимулирования исследований в этой области мы представляем эталонный тест HomeRobot OVMM, в котором агент перемещается по домашней среде, чтобы захватывать новые объекты и размещать их на целевых поверхностях. HomeRobot состоит из двух компонентов: симуляционного, который использует большой и разнообразный набор объектов в новых, высококачественных многокомнатных домашних средах, и реального, предоставляющего программный стек для недорогого робота Hello Robot Stretch, чтобы способствовать воспроизведению экспериментов в реальном мире в различных лабораториях. Мы реализуем базовые подходы как на основе обучения с подкреплением, так и эвристические (модельные) и демонстрируем признаки переноса из симуляции в реальный мир. Наши базовые подходы достигают 20% успешности в реальном мире; наши эксперименты выявляют направления для улучшения производительности в будущих исследованиях. Видео доступны на нашем сайте: https://ovmm.github.io/.
Несмотря на огромный успех крупных языковых моделей (LLM) в ассистентах для написания кода, таких как GitHub Copilot, эти модели испытывают трудности с пониманием контекста, присутствующего в репозитории (например, импорты, родительские классы, файлы с похожими именами и т.д.), что приводит к неточным предложениям по завершению кода. Этот эффект становится более выраженным при использовании таких ассистентов для репозиториев, которые модель не видела во время обучения, таких как проприетарное программное обеспечение или проекты в процессе разработки. Недавние исследования показали перспективность использования контекста из репозитория во время вывода. В данной работе мы развиваем эту идею и предлагаем RepoFusion — фреймворк для обучения моделей с учетом релевантного контекста репозитория. Эксперименты с завершением однострочного кода показывают, что наши модели, обученные с учетом контекста репозитория, значительно превосходят гораздо более крупные модели кода, такие как CodeGen-16B-multi (в 73 раза больше), и приближаются к производительности модели StarCoderBase, которая в 70 раз больше и была обучена с использованием задачи Fill-in-the-Middle. Мы считаем эти результаты новым и убедительным доказательством преимуществ обучения с учетом контекста репозитория. Мы проводим обширные исследования для изучения влияния таких параметров, как тип контекста, количество контекстов, длина контекста и инициализация в рамках нашего фреймворка. В заключение мы публикуем Stack-Repo — набор данных из 200 Java-репозиториев с разрешительными лицензиями и почти дедуплицированными файлами, дополненными тремя типами контекстов репозитория. Кроме того, мы предоставляем код и обученные контрольные точки для нашей работы. Наши опубликованные ресурсы доступны по адресу https://huggingface.co/RepoFusion.
Данные в виде облаков точек, собранные в реальных приложениях, часто являются неполными. Данные обычно отсутствуют из-за того, что объекты наблюдаются с частичных точек зрения, которые захватывают только определенный ракурс или угол. Кроме того, данные могут быть неполными из-за окклюзии и низкого разрешения сэмплирования. Существующие подходы к восстановлению полагаются на наборы данных предопределенных объектов для восстановления зашумленных и неполных облаков точек. Однако эти подходы показывают низкую эффективность при тестировании на объектах, выходящих за пределы распределения (Out-Of-Distribution, OOD), которые плохо представлены в обучающем наборе данных. В данной работе мы используем последние достижения в области генерации изображений на основе текста, которые привели к значительным прорывам в генерации форм с использованием текстовых описаний. Мы описываем подход под названием SDS-Complete, который использует предварительно обученную модель диффузии для генерации изображений из текста и использует семантику текста для заданного неполного облака точек объекта, чтобы получить полное представление поверхности. SDS-Complete может восстанавливать разнообразные объекты с использованием оптимизации на этапе тестирования без дорогостоящего сбора 3D-информации. Мы оцениваем SDS-Complete на неполных отсканированных объектах, захваченных реальными датчиками глубины и лидарными сканерами. Мы обнаруживаем, что он эффективно восстанавливает объекты, отсутствующие в распространенных наборах данных, снижая потери по метрике Chamfer в среднем на 50% по сравнению с современными методами. Страница проекта: https://sds-complete.github.io/
Денойзинговые диффузионные модели представляют собой мощный тип генеративных моделей, используемых для захвата сложных распределений реальных сигналов. Однако их применимость ограничена сценариями, где обучающие выборки легко доступны, что не всегда имеет место в реальных приложениях. Например, в обратной графике цель состоит в генерации выборок из распределения 3D-сцен, которые соответствуют заданному изображению, но истинные 3D-сцены недоступны, и доступны только 2D-изображения. Чтобы устранить это ограничение, мы предлагаем новый класс денойзинговых диффузионных вероятностных моделей, которые учатся сэмплировать из распределений сигналов, которые никогда не наблюдаются напрямую. Вместо этого эти сигналы измеряются косвенно через известную дифференцируемую прямую модель, которая производит частичные наблюдения неизвестного сигнала. Наш подход включает интеграцию прямой модели непосредственно в процесс денойзинга. Эта интеграция эффективно связывает генеративное моделирование наблюдений с генеративным моделированием базовых сигналов, позволяя осуществлять сквозное обучение условной генеративной модели над сигналами. В процессе вывода наш подход позволяет сэмплировать из распределения базовых сигналов, которые согласуются с заданным частичным наблюдением. Мы демонстрируем эффективность нашего метода на трех сложных задачах компьютерного зрения. Например, в контексте обратной графики наша модель позволяет напрямую сэмплировать из распределения 3D-сцен, которые соответствуют одному 2D-входному изображению.
Способность использовать разнородный роботизированный опыт, полученный от различных роботов и задач, для быстрого освоения новых навыков и воплощений имеет потенциал для преобразования обучения роботов. Вдохновленные последними достижениями в области базовых моделей для обработки изображений и языка, мы предлагаем базового агента для роботизированного манипулирования. Этот агент, названный RoboCat, представляет собой визуальный трансформатор решений, ориентированный на цели, способный обрабатывать визуальный опыт с метками действий для множества воплощений. Эти данные охватывают широкий спектр навыков управления движением, полученных как от симулированных, так и от реальных роботизированных манипуляторов с различными наборами наблюдений и действий. С помощью RoboCat мы демонстрируем способность обобщать новые задачи и роботов как в режиме "с нуля", так и через адаптацию с использованием всего 100–1000 примеров для целевой задачи. Мы также показываем, как обученная модель сама может быть использована для генерации данных для последующих итераций обучения, что обеспечивает базовый строительный блок для автономного цикла улучшения. Мы исследуем возможности агента, проводя масштабные оценки как в симуляции, так и на трех различных реальных роботизированных воплощениях. Мы обнаруживаем, что по мере роста и диверсификации данных для обучения RoboCat не только демонстрирует признаки межзадачного переноса, но и становится более эффективным в адаптации к новым задачам.
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в понимании и генерации текста. Переход от базовых LLM к моделям, ориентированным на выполнение инструкций, подчеркивает важность настройки на инструкции для согласования LLM с предпочтениями человека. Однако существующие LLM обычно ориентированы на английский язык, что приводит к более низкой производительности в других языках. Для улучшения работы с неанглийскими языками необходимо собирать языково-специфичные данные для обучения базовых LLM и создавать языково-специфичные инструкции для настройки, что требует значительных усилий. Чтобы минимизировать затраты человеческого труда, мы предлагаем переносить способности генерации текста и выполнения инструкций с английского на другие языки через интерактивную задачу перевода. Мы разработали BayLing — LLM, ориентированную на выполнение инструкций, используя LLaMA в качестве базовой модели и автоматически создавая интерактивные инструкции для перевода для настройки. Многочисленные оценки показывают, что BayLing достигает сопоставимой производительности с GPT-3.5-turbo, несмотря на значительно меньший размер параметров — всего 13 миллиардов. Результаты экспериментов на задачах перевода демонстрируют, что BayLing достигает 95% способности к одношаговому переводу по сравнению с GPT-4 при автоматической оценке и 96% способности к интерактивному переводу по сравнению с GPT-3.5-turbo при оценке человеком. Для оценки производительности на общих задачах мы создали тестовый набор многошаговых инструкций под названием BayLing-80. Результаты экспериментов на BayLing-80 показывают, что BayLing достигает 89% производительности по сравнению с GPT-3.5-turbo. BayLing также демонстрирует выдающиеся результаты в оценке знаний на китайском экзамене GaoKao и английском SAT, уступая только GPT-3.5-turbo среди множества LLM, ориентированных на выполнение инструкций. Демо, домашняя страница, код и модели BayLing доступны.
Языковые модели для кода (LMs) работают эффективно, когда окружающий код вблизи места генерации предоставляет достаточный контекст. Однако это не так, когда необходимо использовать типы или функциональность, определенные в другом модуле или библиотеке, особенно тех, которые не встречались во время обучения. LMs страдают от ограниченного осознания такого глобального контекста и в результате могут "галлюцинировать", например, некорректно использовать типы, определенные в других файлах. Недавние исследования пытаются преодолеть эту проблему, извлекая глобальную информацию для расширения локального контекста. Однако это приводит к увеличению объема подсказки или требует модификации архитектуры и дополнительного обучения. Интегрированные среды разработки (IDEs) помогают разработчикам, предоставляя глобальный контекст под рукой с использованием статического анализа. Мы расширяем эту помощь, доступную разработчикам, на LMs. Мы предлагаем концепцию мониторов, которые используют статический анализ в фоновом режиме для управления процессом декодирования. В отличие от априорного извлечения, статический анализ вызывается итеративно на протяжении всего процесса декодирования, предоставляя наиболее релевантные предложения по запросу. Мы демонстрируем полезность нашего предложения, отслеживая типосогласованное использование идентификаторов каждый раз, когда LM генерирует код для разыменования объекта. Для оценки нашего подхода мы создали PragmaticCode — набор данных из проектов с открытым исходным кодом и их средами разработки. На моделях с различным масштабом параметров мы показываем, что декодирование с использованием мониторов последовательно улучшает способность LM не только генерировать идентификаторы, соответствующие эталонным данным, но также повышает процент успешной компиляции и согласованность с эталоном. Мы обнаружили, что LMs с меньшим количеством параметров, управляемые нашим монитором, могут превосходить более крупные LMs. С декодированием под управлением монитора модель SantaCoder-1.1B достигает лучшего процента успешной компиляции и соответствия следующего идентификатора, чем значительно более крупная модель text-davinci-003. Наборы данных и код будут доступны по адресу https://aka.ms/monitors4codegen.
Увеличение памяти — это мощный подход для эффективного включения внешней информации в языковые модели, однако он приводит к снижению производительности по сравнению с извлечением текста. В недавних исследованиях был представлен LUMEN — гибридный метод, сочетающий память и извлечение, который частично предварительно вычисляет память и обновляет её представления на лету с помощью более компактного активного кодировщика. Мы предлагаем GLIMMER, который улучшает этот подход за счёт: 1) использования свободного доступа к мощным представлениям памяти путём применения поверх памяти неглубокого ранжировщика, что значительно повышает качество извлечения при низких затратах, и 2) включения многозадачного обучения для создания более универсальных и качественных представлений памяти и активного кодировщика. GLIMMER демонстрирует значительное улучшение производительности при более высокой скорости по сравнению с LUMEN и FiD на бенчмарке KILT для задач, требующих интенсивного использования знаний.
Крупномасштабные модели, объединяющие зрение и язык (VLM), демонстрируют впечатляющие результаты в задачах поиска, управляемого языком. Хотя эти модели позволяют выполнять запросы на уровне категорий, они пока испытывают трудности с персонализированным поиском моментов в видео, где появляется конкретный объект, например, «Моя собака Бисквит». Мы представляем три ключевых вклада для решения этой проблемы. Во-первых, мы описываем метод мета-персонализации предварительно обученной VLM, то есть обучение тому, как персонализировать VLM во время тестирования для поиска в видео. Наш метод расширяет словарный запас токенов VLM, обучая новые встраивания слов, специфичные для каждого объекта. Чтобы учитывать только характеристики, уникальные для объекта, мы представляем каждое встраивание объекта как комбинацию общих и изученных глобальных признаков категории. Во-вторых, мы предлагаем обучать такую персонализацию без явного человеческого контроля. Наш подход автоматически идентифицирует моменты появления именованных визуальных объектов в видео, используя транскрипты и сходство между зрением и языком в пространстве встраиваний VLM. Наконец, мы представляем бенчмарк This-Is-My для персонализированного поиска объектов в видео. Мы оцениваем наш подход на This-Is-My и DeepFashion2, показывая относительное улучшение на 15% по сравнению с современными методами на последнем наборе данных.
Многодорожечная транскрипция музыки ставит своей целью преобразование аудиовхода музыкального произведения в нотные записи для нескольких инструментов одновременно. Это крайне сложная задача, которая обычно требует более сложной модели для достижения удовлетворительных результатов. Кроме того, предыдущие работы в основном сосредоточены на транскрипции стандартных инструментов, однако пренебрегают вокалом, который, как правило, является наиболее важным источником сигнала, если он присутствует в музыкальной композиции. В данной статье мы предлагаем новую архитектуру глубокой нейронной сети, Perceiver TF, для моделирования временно-частотного представления аудиовхода при многодорожечной транскрипции. Perceiver TF расширяет архитектуру Perceiver за счет введения иерархического расширения с дополнительным слоем Transformer для моделирования временной согласованности. Соответственно, наша модель наследует преимущества Perceiver, обладая лучшей масштабируемостью, что позволяет ей эффективно справляться с транскрипцией множества инструментов в рамках одной модели. В экспериментах мы обучаем Perceiver TF моделировать 12 классов инструментов, а также вокал, используя подход многозадачного обучения. Наши результаты демонстрируют, что предложенная система превосходит современные аналоги (например, MT3 и SpecTNT) на различных публичных наборах данных.