Ежедневно отобранные исследовательские статьи по ИИ с переводами
Проект BigCode, открыто-научное сотрудничество, сосредоточенное на ответственной разработке больших языковых моделей для кода (Code LLMs), представляет StarCoder2. В партнерстве с Software Heritage (SWH) мы строим The Stack v2 на основе цифрового общего доступа к архиву исходного кода. Параллельно с репозиториями SWH, охватывающими 619 языков программирования, мы тщательно выбираем другие источники данных высокого качества, такие как запросы на объединение в GitHub, ноутбуки Kaggle и документацию по коду. Это приводит к обучающему набору данных, в четыре раза превосходящем первый набор данных StarCoder. Мы обучаем модели StarCoder2 с 3 миллиардами, 7 миллиардами и 15 миллиардами параметров на 3,3 до 4,3 триллиона токенов и тщательно оцениваем их на обширном наборе тестов для Code LLM. Мы обнаружили, что наша небольшая модель, StarCoder2-3B, превосходит другие Code LLM схожего размера на большинстве тестов, а также превосходит StarCoderBase-15B. Наша крупная модель, StarCoder2-15B, значительно превосходит другие модели сопоставимого размера. Кроме того, она соответствует или превосходит CodeLlama-34B, модель более чем вдвое большего размера. Хотя DeepSeekCoder-33B является наилучшей моделью для завершения кода на языках с высокими ресурсами, мы обнаружили, что StarCoder2-15B превосходит ее на математических и кодовых тестах, а также на нескольких языках с низкими ресурсами. Мы предоставляем веса модели на условиях лицензии OpenRAIL и обеспечиваем полную прозрачность относительно данных обучения, публикуя постоянные идентификаторы Software Heritage (SWHIDs) исходных данных по коду.
Рекуррентные нейронные сети (RNN) обладают быстрым выводом и эффективно масштабируются на длинных последовательностях, но их сложно обучать и трудно масштабировать. Мы предлагаем Hawk, RNN с затворными линейными повторениями, и Griffin, гибридную модель, которая сочетает в себе затворные линейные повторения с локальным вниманием. Hawk превосходит отчетную производительность Mamba на последующих задачах, в то время как Griffin соответствует производительности Llama-2, несмотря на то, что обучалась на более чем в 6 раз меньшем количестве токенов. Мы также показываем, что Griffin способна экстраполировать последовательности значительно длиннее тех, что были использованы во время обучения. Наши модели соответствуют аппаратной эффективности Трансформеров во время обучения, а во время вывода они имеют более низкую задержку и значительно большую пропускную способность. Мы масштабируем Griffin до 14 миллиардов параметров и объясняем, как разделить наши модели для эффективного распределенного обучения.
Традиционное глубокое обучение часто не учитывает байты, основные единицы цифрового мира, где все формы информации и операции кодируются и обрабатываются в двоичном формате. Вдохновленные успехом предсказания следующего токена в обработке естественного языка, мы представляем bGPT, модель с предсказанием следующего байта для имитации цифрового мира. bGPT соответствует специализированным моделям по производительности в различных модальностях, включая текст, аудио и изображения, и предлагает новые возможности для предсказания, имитации и диагностики поведения алгоритмов или аппаратных средств. Он практически безупречно воспроизвел процесс преобразования символьных данных музыки, достигнув низкой ошибки в 0.0011 бит на байт при преобразовании нотации ABC в формат MIDI. Кроме того, bGPT демонстрирует исключительные способности в имитации поведения ЦП, с точностью более 99.99% при выполнении различных операций. Используя предсказание следующего байта, модели, подобные bGPT, могут напрямую учиться на огромных объемах двоичных данных, эффективно имитируя сложные закономерности цифрового мира.
Качество данных и аннотации ограничивает качество последующей модели. В то время как существуют большие корпусы текста и пары изображение-текст, собрать высококачественные видео-текстовые данные гораздо сложнее. Во-первых, ручная разметка требует больше времени, поскольку аннотатор должен просмотреть всё видео. Во-вторых, видео имеют временное измерение, состоящее из нескольких сцен, собранных вместе, и показывающих несколько действий. С учётом этого, для создания набора данных видео с высококачественными подписями мы предлагаем автоматический подход, используя мультимодальные входные данные, такие как текстовое описание видео, субтитры и отдельные кадры видео. Конкретно, мы подбираем 3,8 миллиона видео высокого разрешения из публично доступного набора данных HD-VILA-100M. Затем мы разбиваем их на семантически согласованные видео-клипы и применяем несколько моделей учителей межмодальности для получения подписей для каждого видео. Затем мы донастраиваем модель поиска по небольшому подмножеству, где лучшая подпись для каждого видео выбирается вручную, и затем применяем модель ко всему набору данных для выбора лучшей подписи в качестве аннотации. Таким образом, мы получаем 70 миллионов видео, сопоставленных с высококачественными текстовыми подписями. Мы называем этот набор данных Panda-70M. Мы демонстрируем ценность предложенного набора данных на трёх последующих задачах: описании видео, поиске видео и текста, и генерации видео на основе текста. Модели, обученные на предложенных данных, показывают значительно лучшие результаты по большинству метрик во всех задачах.
Мы представляем управление гуманоидами в реальном мире как проблему предсказания следующего токена, аналогичную предсказанию следующего слова в языке. Наша модель - это причинный трансформер, обученный путем авторегрессивного предсказания траекторий сенсорно-двигательных данных. Для учета мультимодальной природы данных мы выполняем предсказание способом, выровненным по модальностям, и для каждого входного токена предсказываем следующий токен из той же модальности. Эта общая формулировка позволяет нам использовать данные с отсутствующими модальностями, например, видеотраектории без действий. Мы обучаем нашу модель на коллекции симулированных траекторий, полученных из предыдущих политик нейронных сетей, контроллеров на основе моделей, данных захвата движения и видеороликов с людьми на YouTube. Мы показываем, что наша модель позволяет полноразмерному гуманоиду ходить в Сан-Франциско без предварительного обучения. Наша модель способна переноситься в реальный мир даже при обучении всего на 27 часах данных о ходьбе и может обобщаться на команды, не встреченные во время обучения, например, ходьбу назад. Эти результаты указывают на многообещающий путь к изучению сложных задач управления в реальном мире путем генеративного моделирования траекторий сенсорно-двигательных данных.
Мы представляем MOSAIC, модульную архитектуру для домашних роботов, способных выполнять сложные совместные задачи, такие как готовка с обычными пользователями. MOSAIC тесно сотрудничает с людьми, взаимодействует с пользователями на естественном языке, координирует действия нескольких роботов и управляет открытым словарем повседневных объектов. В основе MOSAIC лежит модульность: он использует несколько крупномасштабных предварительно обученных моделей для общих задач, таких как распознавание языка и изображений, а также упрощенные модули, разработанные для управления задачами. Мы подробно оцениваем MOSAIC на 60 полных испытаниях, где два робота сотрудничают с человеческим пользователем для приготовления 6 различных рецептов. Мы также тщательно тестируем отдельные модули с помощью 180 эпизодов визуомоторного захвата, 60 эпизодов прогнозирования движения человека и 46 онлайн-оценок пользователей планировщика задач. Мы показываем, что MOSAIC способен эффективно сотрудничать с людьми, запуская систему end-to-end с реальным человеческим пользователем, завершая 68,3% (41 из 60) совместных кулинарных испытаний 6 различных рецептов с процентом завершения подзадач в 91,6%. Наконец, мы обсуждаем ограничения текущей системы и захватывающие открытые вызовы в этой области. Веб-сайт проекта находится по адресу https://portal-cornell.github.io/MOSAIC/
Модели диффузии достигли большого успеха в синтезе изображений высокого качества. Однако генерация изображений высокого разрешения с помощью моделей диффузии по-прежнему представляет собой сложную задачу из-за огромных вычислительных затрат, что приводит к запретительной задержке для интерактивных приложений. В данной статье мы предлагаем DistriFusion для решения этой проблемы путем использования параллелизма на нескольких графических процессорах (GPU). Наш метод разбивает входную модель на несколько участков и назначает каждый участок одному GPU. Однако наивная реализация такого алгоритма нарушает взаимодействие между участками и теряет точность, в то время как включение такого взаимодействия повлечет за собой огромные накладные расходы на коммуникацию. Чтобы преодолеть это дилемму, мы замечаем высокую схожесть между входами смежных шагов диффузии и предлагаем параллелизм с смещенными участками, который использует последовательную природу процесса диффузии путем повторного использования предварительно вычисленных карт признаков с предыдущего временного шага для обеспечения контекста текущего шага. Таким образом, наш метод поддерживает асинхронную коммуникацию, которая может быть организована в виде конвейера вычислений. Обширные эксперименты показывают, что наш метод может быть применен к недавней модели Stable Diffusion XL без ухудшения качества и достигает ускорения до 6,1 раза на восьми графических процессорах NVIDIA A100 по сравнению с одним. Наш код доступен по адресу https://github.com/mit-han-lab/distrifuser.
Недавние исследования показали, что языковые модели на основе внимания отличаются по способности к воспроизведению, к способности привязывать генерации к токенам, ранее увиденным в контексте. Однако эффективность моделей на основе внимания ограничивается в процессе вывода из-за агрессивного потребления памяти KV-кэшем. В данной работе мы исследуем, можно ли улучшить эффективность языковой модели (например, путем снижения потребления памяти) без ущерба для воспроизведения. Применяя эксперименты и теорию к широкому набору архитектур, мы выявляем ключевой компромисс между размером состояния модели и способностью к воспроизведению. Мы показываем, что эффективные альтернативы вниманию (например, H3, Mamba, RWKV) поддерживают фиксированный рекуррентный стейт, но испытывают трудности с воспроизведением. Мы предлагаем BASED - простую архитектуру, объединяющую линейное и скользящее оконное внимание. Изменяя размер окна BASED и размер признаков линейного внимания, мы можем настраивать размер состояния и двигаться по кривой компромисса между воспроизведением и памятью, восстанавливая полное качество внимания с одной стороны и небольшой размер состояния альтернатив вниманию - с другой. Мы обучаем языковые модели до 1.3 млрд параметров и показываем, что BASED соответствует самым мощным субквадратичным моделям (например, Mamba) по перплексии и превосходит их на реальных задачах с высоким воспроизведением на 6.22 пункта точности. Реализации линейного внимания часто менее эффективны, чем оптимизированные стандартные реализации внимания. Для того чтобы сделать BASED конкурентоспособным, мы разрабатываем алгоритмы, учитывающие ввод-вывод, которые обеспечивают в 24 раз большую производительность при генерации текста, чем FlashAttention-2, при генерации 1024 токенов с использованием моделей с 1.3 млрд параметров. Код для этой работы предоставлен по ссылке: https://github.com/HazyResearch/based.
Большие языковые модели показывают большой потенциал в генерации и оптимизации кода. Широко используемые методы выборки, такие как Сэмплирование Ядра, увеличивают разнообразие генерации, но часто приводят к повторяющимся образцам при низких температурах и несвязным образцам при высоких температурах. Более того, коэффициент температуры должен быть настроен для каждой задачи, что ограничивает его применимость. Мы представляем Приоритетное Сэмплирование, простой и детерминированный метод выборки, который производит уникальные образцы, упорядоченные по уверенности модели. Каждый новый образец расширяет неразвернутый токен с наивысшей вероятностью в дополненном дереве поиска. Кроме того, Приоритетное Сэмплирование поддерживает генерацию на основе регулярного выражения, что обеспечивает управляемый и структурированный процесс исследования. Приоритетное Сэмплирование превосходит Сэмплирование Ядра для любого количества образцов, увеличивая производительность исходной модели с 2,87% до 5% улучшения по сравнению с -Oz. Более того, оно превосходит автонастраиваемый инструмент, используемый для генерации меток для обучения исходной модели всего за 30 образцов.
Модель скрытой согласованности (LCM) расширяет модель согласованности на скрытое пространство и использует технику направленной дистилляции согласованности для достижения впечатляющей производительности в ускорении синтеза текста в изображение. Однако мы обнаружили, что LCM испытывает затруднения при создании изображений с четкостью и детальной сложностью. Для решения этого ограничения мы вначале погружаемся в изучение и пояснение основных причин. Наше исследование выявляет, что основная проблема происходит из ошибок в трех различных областях. В результате мы представляем Траекторную дистилляцию согласованности (TCD), которая включает функцию траекторной согласованности и стратегическую стохастическую выборку. Функция траекторной согласованности уменьшает ошибки дистилляции, расширяя область условия самосогласованности и наделяя TCD способностью точно проследить всю траекторию уравнения ОДЕ потока вероятности. Кроме того, стратегическая стохастическая выборка специально разработана для обхода накапливающихся ошибок, присущих многошаговой выборке согласованности, которая тщательно настроена для дополнения модели TCD. Эксперименты показывают, что TCD не только значительно улучшает качество изображений при низких NFE, но также дает более детальные результаты по сравнению с учителем при высоких NFE.
Синтез изображений с нового ракурса с использованием моделей диффузии продемонстрировал замечательный потенциал для создания разнообразных и высококачественных изображений. Однако независимый процесс генерации изображений в этих преобладающих методах приводит к трудностям в поддержании согласованности между несколькими ракурсами. Для решения этой проблемы мы представляем ViewFusion, новый алгоритм, не требующий обучения, который может быть легко интегрирован в существующие предварительно обученные модели диффузии. Наш подход использует авторегрессионный метод, который неявно использует ранее сгенерированные ракурсы в качестве контекста для генерации следующего ракурса, обеспечивая надежную согласованность между несколькими ракурсами в процессе генерации нового ракурса. Через процесс диффузии, который объединяет информацию о известных ракурсах с помощью интерполированного шумоподавления, наша структура успешно расширяет модели, обученные на одном ракурсе, для работы в условиях многоракурсной установки без дополнительной донастройки. Обширные экспериментальные результаты демонстрируют эффективность ViewFusion в создании согласованных и детальных новых ракурсов.