Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Учебников Вам Достаточно
Textbooks Are All You Need

Jun 20, 2023

Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, Sébastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li

14514

Мы представляем phi-1 — новую крупную языковую модель для работы с кодом, которая имеет значительно меньший размер по сравнению с конкурирующими моделями: phi-1 — это модель на основе архитектуры Transformer с 1,3 миллиардами параметров, обученная в течение 4 дней на 8 GPU A100 с использованием выборки данных «учебного качества» из интернета (6 миллиардов токенов) и синтетически сгенерированных учебников и упражнений с помощью GPT-3.5 (1 миллиард токенов). Несмотря на такой небольшой масштаб, phi-1 достигает точности pass@1 50,6% на HumanEval и 55,5% на MBPP. Она также демонстрирует удивительные эмерджентные свойства по сравнению с phi-1-base — нашей моделью до этапа тонкой настройки на наборе данных с упражнениями по программированию, и phi-1-small — меньшей моделью с 350 миллионами параметров, обученной по тому же конвейеру, что и phi-1, которая всё же достигает 45% на HumanEval.

MotionGPT: Тонко настроенные языковые модели как универсальные генераторы движения
MotionGPT: Finetuned LLMs are General-Purpose Motion Generators

Jun 19, 2023

Yaqi Zhang, Di Huang, Bin Liu, Shixiang Tang, Yan Lu, Lu Chen, Lei Bai, Qi Chu, Nenghai Yu, Wanli Ouyang

181

Создание реалистичных движений человека на основе заданных описаний действий достигло значительных успехов благодаря растущим требованиям к цифровым людям. Хотя последние работы демонстрируют впечатляющие результаты в генерации движений непосредственно из текстовых описаний действий, они часто поддерживают только один тип управляющего сигнала, что ограничивает их применение в реальной индустрии цифровых людей. В данной статье представлен универсальный генератор движений (MotionGPT), который может использовать мультимодальные управляющие сигналы, такие как текст и позы из одного кадра, для создания последовательных движений человека, рассматривая мультимодальные сигналы как специальные входные токены в больших языковых моделях (LLM). В частности, мы сначала квантуем мультимодальные управляющие сигналы в дискретные коды, а затем формулируем их в единой инструкции-запросе, чтобы LLM сгенерировала ответ в виде движения. Наш MotionGPT демонстрирует унифицированную модель генерации движений человека с мультимодальными управляющими сигналами, настраивая всего 0,4% параметров LLM. Насколько нам известно, MotionGPT является первым методом, который генерирует движения человека с использованием мультимодальных управляющих сигналов, что, как мы надеемся, может открыть новые перспективы в этой области. Код будет опубликован после принятия статьи.

HomeRobot: Мобильная манипуляция с открытым словарём
HomeRobot: Open-Vocabulary Mobile Manipulation

Jun 20, 2023

Sriram Yenamandra, Arun Ramachandran, Karmesh Yadav, Austin Wang, Mukul Khanna, Theophile Gervet, Tsung-Yen Yang, Vidhi Jain, Alexander William Clegg, John Turner, Zsolt Kira, Manolis Savva, Angel Chang, Devendra Singh Chaplot, Dhruv Batra, Roozbeh Mottaghi, Yonatan Bisk, Chris Paxton

160

HomeRobot (существительное): Доступный, гибкий робот, способный перемещаться по домам и манипулировать широким спектром объектов для выполнения повседневных задач. Open-Vocabulary Mobile Manipulation (OVMM) — это задача подбора любого объекта в неизвестной среде и его размещения в указанном месте. Это фундаментальная проблема для создания полезных роботов-помощников в человеческой среде, поскольку она включает решение подзадач из различных областей робототехники: восприятие, понимание языка, навигация и манипуляция — все они необходимы для OVMM. Кроме того, интеграция решений этих подзадач сама по себе представляет значительные трудности. Для стимулирования исследований в этой области мы представляем эталонный тест HomeRobot OVMM, в котором агент перемещается по домашней среде, чтобы захватывать новые объекты и размещать их на целевых поверхностях. HomeRobot состоит из двух компонентов: симуляционного, который использует большой и разнообразный набор объектов в новых, высококачественных многокомнатных домашних средах, и реального, предоставляющего программный стек для недорогого робота Hello Robot Stretch, чтобы способствовать воспроизведению экспериментов в реальном мире в различных лабораториях. Мы реализуем базовые подходы как на основе обучения с подкреплением, так и эвристические (модельные) и демонстрируем признаки переноса из симуляции в реальный мир. Наши базовые подходы достигают 20% успешности в реальном мире; наши эксперименты выявляют направления для улучшения производительности в будущих исследованиях. Видео доступны на нашем сайте: https://ovmm.github.io/.

RepoFusion: Обучение моделей кода для понимания вашего репозитория
RepoFusion: Training Code Models to Understand Your Repository

Jun 19, 2023

Disha Shrivastava, Denis Kocetkov, Harm de Vries, Dzmitry Bahdanau, Torsten Scholak

130

Несмотря на огромный успех крупных языковых моделей (LLM) в ассистентах для написания кода, таких как GitHub Copilot, эти модели испытывают трудности с пониманием контекста, присутствующего в репозитории (например, импорты, родительские классы, файлы с похожими именами и т.д.), что приводит к неточным предложениям по завершению кода. Этот эффект становится более выраженным при использовании таких ассистентов для репозиториев, которые модель не видела во время обучения, таких как проприетарное программное обеспечение или проекты в процессе разработки. Недавние исследования показали перспективность использования контекста из репозитория во время вывода. В данной работе мы развиваем эту идею и предлагаем RepoFusion — фреймворк для обучения моделей с учетом релевантного контекста репозитория. Эксперименты с завершением однострочного кода показывают, что наши модели, обученные с учетом контекста репозитория, значительно превосходят гораздо более крупные модели кода, такие как CodeGen-16B-multi (в 73 раза больше), и приближаются к производительности модели StarCoderBase, которая в 70 раз больше и была обучена с использованием задачи Fill-in-the-Middle. Мы считаем эти результаты новым и убедительным доказательством преимуществ обучения с учетом контекста репозитория. Мы проводим обширные исследования для изучения влияния таких параметров, как тип контекста, количество контекстов, длина контекста и инициализация в рамках нашего фреймворка. В заключение мы публикуем Stack-Repo — набор данных из 200 Java-репозиториев с разрешительными лицензиями и почти дедуплицированными файлами, дополненными тремя типами контекстов репозитория. Кроме того, мы предоставляем код и обученные контрольные точки для нашей работы. Наши опубликованные ресурсы доступны по адресу https://huggingface.co/RepoFusion.

Завершение облаков точек с использованием предобученных моделей диффузии для генерации изображений из текста
Point-Cloud Completion with Pretrained Text-to-image Diffusion Models

Jun 18, 2023

Yoni Kasten, Ohad Rahamim, Gal Chechik

Данные в виде облаков точек, собранные в реальных приложениях, часто являются неполными. Данные обычно отсутствуют из-за того, что объекты наблюдаются с частичных точек зрения, которые захватывают только определенный ракурс или угол. Кроме того, данные могут быть неполными из-за окклюзии и низкого разрешения сэмплирования. Существующие подходы к восстановлению полагаются на наборы данных предопределенных объектов для восстановления зашумленных и неполных облаков точек. Однако эти подходы показывают низкую эффективность при тестировании на объектах, выходящих за пределы распределения (Out-Of-Distribution, OOD), которые плохо представлены в обучающем наборе данных. В данной работе мы используем последние достижения в области генерации изображений на основе текста, которые привели к значительным прорывам в генерации форм с использованием текстовых описаний. Мы описываем подход под названием SDS-Complete, который использует предварительно обученную модель диффузии для генерации изображений из текста и использует семантику текста для заданного неполного облака точек объекта, чтобы получить полное представление поверхности. SDS-Complete может восстанавливать разнообразные объекты с использованием оптимизации на этапе тестирования без дорогостоящего сбора 3D-информации. Мы оцениваем SDS-Complete на неполных отсканированных объектах, захваченных реальными датчиками глубины и лидарными сканерами. Мы обнаруживаем, что он эффективно восстанавливает объекты, отсутствующие в распространенных наборах данных, снижая потери по метрике Chamfer в среднем на 50% по сравнению с современными методами. Страница проекта: https://sds-complete.github.io/

Диффузия с прямыми моделями: решение стохастических обратных задач без прямого наблюдения
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision

Jun 20, 2023

Ayush Tewari, Tianwei Yin, George Cazenavette, Semon Rezchikov, Joshua B. Tenenbaum, Frédo Durand, William T. Freeman, Vincent Sitzmann

Денойзинговые диффузионные модели представляют собой мощный тип генеративных моделей, используемых для захвата сложных распределений реальных сигналов. Однако их применимость ограничена сценариями, где обучающие выборки легко доступны, что не всегда имеет место в реальных приложениях. Например, в обратной графике цель состоит в генерации выборок из распределения 3D-сцен, которые соответствуют заданному изображению, но истинные 3D-сцены недоступны, и доступны только 2D-изображения. Чтобы устранить это ограничение, мы предлагаем новый класс денойзинговых диффузионных вероятностных моделей, которые учатся сэмплировать из распределений сигналов, которые никогда не наблюдаются напрямую. Вместо этого эти сигналы измеряются косвенно через известную дифференцируемую прямую модель, которая производит частичные наблюдения неизвестного сигнала. Наш подход включает интеграцию прямой модели непосредственно в процесс денойзинга. Эта интеграция эффективно связывает генеративное моделирование наблюдений с генеративным моделированием базовых сигналов, позволяя осуществлять сквозное обучение условной генеративной модели над сигналами. В процессе вывода наш подход позволяет сэмплировать из распределения базовых сигналов, которые согласуются с заданным частичным наблюдением. Мы демонстрируем эффективность нашего метода на трех сложных задачах компьютерного зрения. Например, в контексте обратной графики наша модель позволяет напрямую сэмплировать из распределения 3D-сцен, которые соответствуют одному 2D-входному изображению.

RoboCat: Самообучающийся базовый агент для роботизированного манипулирования
RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation

Jun 20, 2023

Konstantinos Bousmalis, Giulia Vezzani, Dushyant Rao, Coline Devin, Alex X. Lee, Maria Bauza, Todor Davchev, Yuxiang Zhou, Agrim Gupta, Akhil Raju, Antoine Laurens, Claudio Fantacci, Valentin Dalibard, Martina Zambelli, Murilo Martins, Rugile Pevceviciute, Michiel Blokzijl, Misha Denil, Nathan Batchelor, Thomas Lampe, Emilio Parisotto, Konrad Żołna, Scott Reed, Sergio Gómez Colmenarejo, Jon Scholz, Abbas Abdolmaleki, Oliver Groth, Jean-Baptiste Regli, Oleg Sushkov, Tom Rothörl, José Enrique Chen, Yusuf Aytar, Dave Barker, Joy Ortiz, Martin Riedmiller, Jost Tobias Springenberg, Raia Hadsell, Francesco Nori, Nicolas Heess

Способность использовать разнородный роботизированный опыт, полученный от различных роботов и задач, для быстрого освоения новых навыков и воплощений имеет потенциал для преобразования обучения роботов. Вдохновленные последними достижениями в области базовых моделей для обработки изображений и языка, мы предлагаем базового агента для роботизированного манипулирования. Этот агент, названный RoboCat, представляет собой визуальный трансформатор решений, ориентированный на цели, способный обрабатывать визуальный опыт с метками действий для множества воплощений. Эти данные охватывают широкий спектр навыков управления движением, полученных как от симулированных, так и от реальных роботизированных манипуляторов с различными наборами наблюдений и действий. С помощью RoboCat мы демонстрируем способность обобщать новые задачи и роботов как в режиме "с нуля", так и через адаптацию с использованием всего 100–1000 примеров для целевой задачи. Мы также показываем, как обученная модель сама может быть использована для генерации данных для последующих итераций обучения, что обеспечивает базовый строительный блок для автономного цикла улучшения. Мы исследуем возможности агента, проводя масштабные оценки как в симуляции, так и на трех различных реальных роботизированных воплощениях. Мы обнаруживаем, что по мере роста и диверсификации данных для обучения RoboCat не только демонстрирует признаки межзадачного переноса, но и становится более эффективным в адаптации к новым задачам.

BayLing: Соединение кросс-языкового выравнивания и следования инструкциям через интерактивный перевод для больших языковых моделей
BayLing: Bridging Cross-lingual Alignment and Instruction Following through Interactive Translation for Large Language Models

Jun 19, 2023

Shaolei Zhang, Qingkai Fang, Zhuocheng Zhang, Zhengrui Ma, Yan Zhou, Langlin Huang, Mengyu Bu, Shangtong Gui, Yunji Chen, Xilin Chen, Yang Feng

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в понимании и генерации текста. Переход от базовых LLM к моделям, ориентированным на выполнение инструкций, подчеркивает важность настройки на инструкции для согласования LLM с предпочтениями человека. Однако существующие LLM обычно ориентированы на английский язык, что приводит к более низкой производительности в других языках. Для улучшения работы с неанглийскими языками необходимо собирать языково-специфичные данные для обучения базовых LLM и создавать языково-специфичные инструкции для настройки, что требует значительных усилий. Чтобы минимизировать затраты человеческого труда, мы предлагаем переносить способности генерации текста и выполнения инструкций с английского на другие языки через интерактивную задачу перевода. Мы разработали BayLing — LLM, ориентированную на выполнение инструкций, используя LLaMA в качестве базовой модели и автоматически создавая интерактивные инструкции для перевода для настройки. Многочисленные оценки показывают, что BayLing достигает сопоставимой производительности с GPT-3.5-turbo, несмотря на значительно меньший размер параметров — всего 13 миллиардов. Результаты экспериментов на задачах перевода демонстрируют, что BayLing достигает 95% способности к одношаговому переводу по сравнению с GPT-4 при автоматической оценке и 96% способности к интерактивному переводу по сравнению с GPT-3.5-turbo при оценке человеком. Для оценки производительности на общих задачах мы создали тестовый набор многошаговых инструкций под названием BayLing-80. Результаты экспериментов на BayLing-80 показывают, что BayLing достигает 89% производительности по сравнению с GPT-3.5-turbo. BayLing также демонстрирует выдающиеся результаты в оценке знаний на китайском экзамене GaoKao и английском SAT, уступая только GPT-3.5-turbo среди множества LLM, ориентированных на выполнение инструкций. Демо, домашняя страница, код и модели BayLing доступны.

Направление языковых моделей кода с использованием глобального контекста через мониторы
Guiding Language Models of Code with Global Context using Monitors

Jun 19, 2023

Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K. Lahiri, Sriram K. Rajamani

Языковые модели для кода (LMs) работают эффективно, когда окружающий код вблизи места генерации предоставляет достаточный контекст. Однако это не так, когда необходимо использовать типы или функциональность, определенные в другом модуле или библиотеке, особенно тех, которые не встречались во время обучения. LMs страдают от ограниченного осознания такого глобального контекста и в результате могут "галлюцинировать", например, некорректно использовать типы, определенные в других файлах. Недавние исследования пытаются преодолеть эту проблему, извлекая глобальную информацию для расширения локального контекста. Однако это приводит к увеличению объема подсказки или требует модификации архитектуры и дополнительного обучения. Интегрированные среды разработки (IDEs) помогают разработчикам, предоставляя глобальный контекст под рукой с использованием статического анализа. Мы расширяем эту помощь, доступную разработчикам, на LMs. Мы предлагаем концепцию мониторов, которые используют статический анализ в фоновом режиме для управления процессом декодирования. В отличие от априорного извлечения, статический анализ вызывается итеративно на протяжении всего процесса декодирования, предоставляя наиболее релевантные предложения по запросу. Мы демонстрируем полезность нашего предложения, отслеживая типосогласованное использование идентификаторов каждый раз, когда LM генерирует код для разыменования объекта. Для оценки нашего подхода мы создали PragmaticCode — набор данных из проектов с открытым исходным кодом и их средами разработки. На моделях с различным масштабом параметров мы показываем, что декодирование с использованием мониторов последовательно улучшает способность LM не только генерировать идентификаторы, соответствующие эталонным данным, но также повышает процент успешной компиляции и согласованность с эталоном. Мы обнаружили, что LMs с меньшим количеством параметров, управляемые нашим монитором, могут превосходить более крупные LMs. С декодированием под управлением монитора модель SantaCoder-1.1B достигает лучшего процента успешной компиляции и соответствия следующего идентификатора, чем значительно более крупная модель text-davinci-003. Наборы данных и код будут доступны по адресу https://aka.ms/monitors4codegen.

GLIMMER: универсальный ранжирующий механизм с памятью для позднего взаимодействия
GLIMMER: generalized late-interaction memory reranker

Jun 17, 2023

Michiel de Jong, Yury Zemlyanskiy, Nicholas FitzGerald, Sumit Sanghai, William W. Cohen, Joshua Ainslie

Увеличение памяти — это мощный подход для эффективного включения внешней информации в языковые модели, однако он приводит к снижению производительности по сравнению с извлечением текста. В недавних исследованиях был представлен LUMEN — гибридный метод, сочетающий память и извлечение, который частично предварительно вычисляет память и обновляет её представления на лету с помощью более компактного активного кодировщика. Мы предлагаем GLIMMER, который улучшает этот подход за счёт: 1) использования свободного доступа к мощным представлениям памяти путём применения поверх памяти неглубокого ранжировщика, что значительно повышает качество извлечения при низких затратах, и 2) включения многозадачного обучения для создания более универсальных и качественных представлений памяти и активного кодировщика. GLIMMER демонстрирует значительное улучшение производительности при более высокой скорости по сравнению с LUMEN и FiD на бенчмарке KILT для задач, требующих интенсивного использования знаний.

Метаперсонализация моделей "визуальный язык" для поиска именованных экземпляров в видео
Meta-Personalizing Vision-Language Models to Find Named Instances in Video

Jun 16, 2023

Chun-Hsiao Yeh, Bryan Russell, Josef Sivic, Fabian Caba Heilbron, Simon Jenni

Крупномасштабные модели, объединяющие зрение и язык (VLM), демонстрируют впечатляющие результаты в задачах поиска, управляемого языком. Хотя эти модели позволяют выполнять запросы на уровне категорий, они пока испытывают трудности с персонализированным поиском моментов в видео, где появляется конкретный объект, например, «Моя собака Бисквит». Мы представляем три ключевых вклада для решения этой проблемы. Во-первых, мы описываем метод мета-персонализации предварительно обученной VLM, то есть обучение тому, как персонализировать VLM во время тестирования для поиска в видео. Наш метод расширяет словарный запас токенов VLM, обучая новые встраивания слов, специфичные для каждого объекта. Чтобы учитывать только характеристики, уникальные для объекта, мы представляем каждое встраивание объекта как комбинацию общих и изученных глобальных признаков категории. Во-вторых, мы предлагаем обучать такую персонализацию без явного человеческого контроля. Наш подход автоматически идентифицирует моменты появления именованных визуальных объектов в видео, используя транскрипты и сходство между зрением и языком в пространстве встраиваний VLM. Наконец, мы представляем бенчмарк This-Is-My для персонализированного поиска объектов в видео. Мы оцениваем наш подход на This-Is-My и DeepFashion2, показывая относительное улучшение на 15% по сравнению с современными методами на последнем наборе данных.

Многодорожечная транскрипция музыки с использованием Time-Frequency Perceiver
Multitrack Music Transcription with a Time-Frequency Perceiver

Jun 19, 2023

Wei-Tsung Lu, Ju-Chiang Wang, Yun-Ning Hung

Многодорожечная транскрипция музыки ставит своей целью преобразование аудиовхода музыкального произведения в нотные записи для нескольких инструментов одновременно. Это крайне сложная задача, которая обычно требует более сложной модели для достижения удовлетворительных результатов. Кроме того, предыдущие работы в основном сосредоточены на транскрипции стандартных инструментов, однако пренебрегают вокалом, который, как правило, является наиболее важным источником сигнала, если он присутствует в музыкальной композиции. В данной статье мы предлагаем новую архитектуру глубокой нейронной сети, Perceiver TF, для моделирования временно-частотного представления аудиовхода при многодорожечной транскрипции. Perceiver TF расширяет архитектуру Perceiver за счет введения иерархического расширения с дополнительным слоем Transformer для моделирования временной согласованности. Соответственно, наша модель наследует преимущества Perceiver, обладая лучшей масштабируемостью, что позволяет ей эффективно справляться с транскрипцией множества инструментов в рамках одной модели. В экспериментах мы обучаем Perceiver TF моделировать 12 классов инструментов, а также вокал, используя подход многозадачного обучения. Наши результаты демонстрируют, что предложенная система превосходит современные аналоги (например, MT3 и SpecTNT) на различных публичных наборах данных.

Направление языковых моделей кода с использованием глобального контекста через мониторы
Guiding Language Models of Code with Global Context using Monitors

Jun 19, 2023

Lakshya A Agrawal, Aditya Kanade, Navin Goyal, Shuvendu K. Lahiri, Sriram K. Rajamani

Ежедневные статьи

Учебников Вам Достаточно
Textbooks Are All You Need

MotionGPT: Тонко настроенные языковые модели как универсальные генераторы движения
MotionGPT: Finetuned LLMs are General-Purpose Motion Generators

HomeRobot: Мобильная манипуляция с открытым словарём
HomeRobot: Open-Vocabulary Mobile Manipulation

RepoFusion: Обучение моделей кода для понимания вашего репозитория
RepoFusion: Training Code Models to Understand Your Repository

Завершение облаков точек с использованием предобученных моделей диффузии для генерации изображений из текста
Point-Cloud Completion with Pretrained Text-to-image Diffusion Models

Диффузия с прямыми моделями: решение стохастических обратных задач без прямого наблюдения
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision

RoboCat: Самообучающийся базовый агент для роботизированного манипулирования
RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation

Направление языковых моделей кода с использованием глобального контекста через мониторы
Guiding Language Models of Code with Global Context using Monitors

GLIMMER: универсальный ранжирующий механизм с памятью для позднего взаимодействия
GLIMMER: generalized late-interaction memory reranker

Метаперсонализация моделей "визуальный язык" для поиска именованных экземпляров в видео
Meta-Personalizing Vision-Language Models to Find Named Instances in Video

Многодорожечная транскрипция музыки с использованием Time-Frequency Perceiver
Multitrack Music Transcription with a Time-Frequency Perceiver

Support

Support

Ежедневные статьи

Учебников Вам Достаточно
Textbooks Are All You Need

MotionGPT: Тонко настроенные языковые модели как универсальные генераторы движения
MotionGPT: Finetuned LLMs are General-Purpose Motion Generators

HomeRobot: Мобильная манипуляция с открытым словарём
HomeRobot: Open-Vocabulary Mobile Manipulation

RepoFusion: Обучение моделей кода для понимания вашего репозитория
RepoFusion: Training Code Models to Understand Your Repository

Завершение облаков точек с использованием предобученных моделей диффузии для генерации изображений из текста
Point-Cloud Completion with Pretrained Text-to-image Diffusion Models

Диффузия с прямыми моделями: решение стохастических обратных задач без прямого наблюдения
Diffusion with Forward Models: Solving Stochastic Inverse Problems Without Direct Supervision

RoboCat: Самообучающийся базовый агент для роботизированного манипулирования
RoboCat: A Self-Improving Foundation Agent for Robotic Manipulation

Направление языковых моделей кода с использованием глобального контекста через мониторы
Guiding Language Models of Code with Global Context using Monitors

GLIMMER: универсальный ранжирующий механизм с памятью для позднего взаимодействия
GLIMMER: generalized late-interaction memory reranker

Метаперсонализация моделей "визуальный язык" для поиска именованных экземпляров в видео
Meta-Personalizing Vision-Language Models to Find Named Instances in Video

Многодорожечная транскрипция музыки с использованием Time-Frequency Perceiver
Multitrack Music Transcription with a Time-Frequency Perceiver