HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

11 papers found

StarCoder 2 и The Stack v2: Следующее поколение
StarCoder 2 and The Stack v2: The Next Generation

Feb 29

ByAnton Lozhkov, Raymond Li, Loubna Ben Allal, Federico Cassano, Joel Lamy-Poirier, Nouamane Tazi, Ao Tang, Dmytro Pykhtar, Jiawei Liu, Yuxiang Wei, Tianyang Liu, Max Tian, Denis Kocetkov, Arthur Zucker, Younes Belkada, Zijian Wang, Qian Liu, Dmitry Abulkhanov, Indraneil Paul, Zhuang Li, Wen-Ding Li, Megan Risdal, Jia Li, Jian Zhu, Terry Yue Zhuo, Evgenii Zheltonozhskii, Nii Osae Osae Dade, Wenhao Yu, Lucas Krauß, Naman Jain, Yixuan Su, Xuanli He, Manan Dey, Edoardo Abati, Yekun Chai, Niklas Muennighoff, Xiangru Tang, Muhtasham Oblokulov, Christopher Akiki, Marc Marone, Chenghao Mou, Mayank Mishra, Alex Gu, Binyuan Hui, Tri Dao, Armel Zebaze, Olivier Dehaene, Nicolas Patry, Canwen Xu, Julian McAuley, Han Hu, Torsten Scholak, Sebastien Paquet, Jennifer Robinson, Carolyn Jane Anderson, Nicolas Chapados, Mostofa Patwary, Nima Tajbakhsh, Yacine Jernite, Carlos Muñoz Ferrandis, Lingming Zhang, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries

148

Проект BigCode, открыто-научное сотрудничество, сосредоточенное на ответственной разработке больших языковых моделей для кода (Code LLMs), представляет StarCoder2. В партнерстве с Software Heritage (SWH) мы строим The Stack v2 на основе цифрового общего доступа к архиву исходного кода. Параллельно с репозиториями SWH, охватывающими 619 языков программирования, мы тщательно выбираем другие источники данных высокого качества, такие как запросы на объединение в GitHub, ноутбуки Kaggle и документацию по коду. Это приводит к обучающему набору данных, в четыре раза превосходящем первый набор данных StarCoder. Мы обучаем модели StarCoder2 с 3 миллиардами, 7 миллиардами и 15 миллиардами параметров на 3,3 до 4,3 триллиона токенов и тщательно оцениваем их на обширном наборе тестов для Code LLM. Мы обнаружили, что наша небольшая модель, StarCoder2-3B, превосходит другие Code LLM схожего размера на большинстве тестов, а также превосходит StarCoderBase-15B. Наша крупная модель, StarCoder2-15B, значительно превосходит другие модели сопоставимого размера. Кроме того, она соответствует или превосходит CodeLlama-34B, модель более чем вдвое большего размера. Хотя DeepSeekCoder-33B является наилучшей моделью для завершения кода на языках с высокими ресурсами, мы обнаружили, что StarCoder2-15B превосходит ее на математических и кодовых тестах, а также на нескольких языках с низкими ресурсами. Мы предоставляем веса модели на условиях лицензии OpenRAIL и обеспечиваем полную прозрачность относительно данных обучения, публикуя постоянные идентификаторы Software Heritage (SWHIDs) исходных данных по коду.

Гриффин: Смешивание линейных рекуррент с воротной функцией и локального внимания для эффективных языковых моделей
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Feb 29

BySoham De, Samuel L. Smith, Anushan Fernando, Aleksandar Botev, George Cristian-Muraru, Albert Gu, Ruba Haroun, Leonard Berrada, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, Arnaud Doucet, David Budden, Yee Whye Teh, Razvan Pascanu, Nando De Freitas, Caglar Gulcehre

Рекуррентные нейронные сети (RNN) обладают быстрым выводом и эффективно масштабируются на длинных последовательностях, но их сложно обучать и трудно масштабировать. Мы предлагаем Hawk, RNN с затворными линейными повторениями, и Griffin, гибридную модель, которая сочетает в себе затворные линейные повторения с локальным вниманием. Hawk превосходит отчетную производительность Mamba на последующих задачах, в то время как Griffin соответствует производительности Llama-2, несмотря на то, что обучалась на более чем в 6 раз меньшем количестве токенов. Мы также показываем, что Griffin способна экстраполировать последовательности значительно длиннее тех, что были использованы во время обучения. Наши модели соответствуют аппаратной эффективности Трансформеров во время обучения, а во время вывода они имеют более низкую задержку и значительно большую пропускную способность. Мы масштабируем Griffin до 14 миллиардов параметров и объясняем, как разделить наши модели для эффективного распределенного обучения.

За пределами языковых моделей: Байт-модели являются симуляторами цифрового мира.
Beyond Language Models: Byte Models are Digital World Simulators

Feb 29

ByShangda Wu, Xu Tan, Zili Wang, Rui Wang, Xiaobing Li, Maosong Sun

Традиционное глубокое обучение часто не учитывает байты, основные единицы цифрового мира, где все формы информации и операции кодируются и обрабатываются в двоичном формате. Вдохновленные успехом предсказания следующего токена в обработке естественного языка, мы представляем bGPT, модель с предсказанием следующего байта для имитации цифрового мира. bGPT соответствует специализированным моделям по производительности в различных модальностях, включая текст, аудио и изображения, и предлагает новые возможности для предсказания, имитации и диагностики поведения алгоритмов или аппаратных средств. Он практически безупречно воспроизвел процесс преобразования символьных данных музыки, достигнув низкой ошибки в 0.0011 бит на байт при преобразовании нотации ABC в формат MIDI. Кроме того, bGPT демонстрирует исключительные способности в имитации поведения ЦП, с точностью более 99.99% при выполнении различных операций. Используя предсказание следующего байта, модели, подобные bGPT, могут напрямую учиться на огромных объемах двоичных данных, эффективно имитируя сложные закономерности цифрового мира.

Panda-70M: Подписывание 70 млн видеороликов с использованием нескольких учителей между модальностями
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers

Feb 29

ByTsai-Shien Chen, Aliaksandr Siarohin, Willi Menapace, Ekaterina Deyneka, Hsiang-wei Chao, Byung Eun Jeon, Yuwei Fang, Hsin-Ying Lee, Jian Ren, Ming-Hsuan Yang, Sergey Tulyakov

Качество данных и аннотации ограничивает качество последующей модели. В то время как существуют большие корпусы текста и пары изображение-текст, собрать высококачественные видео-текстовые данные гораздо сложнее. Во-первых, ручная разметка требует больше времени, поскольку аннотатор должен просмотреть всё видео. Во-вторых, видео имеют временное измерение, состоящее из нескольких сцен, собранных вместе, и показывающих несколько действий. С учётом этого, для создания набора данных видео с высококачественными подписями мы предлагаем автоматический подход, используя мультимодальные входные данные, такие как текстовое описание видео, субтитры и отдельные кадры видео. Конкретно, мы подбираем 3,8 миллиона видео высокого разрешения из публично доступного набора данных HD-VILA-100M. Затем мы разбиваем их на семантически согласованные видео-клипы и применяем несколько моделей учителей межмодальности для получения подписей для каждого видео. Затем мы донастраиваем модель поиска по небольшому подмножеству, где лучшая подпись для каждого видео выбирается вручную, и затем применяем модель ко всему набору данных для выбора лучшей подписи в качестве аннотации. Таким образом, мы получаем 70 миллионов видео, сопоставленных с высококачественными текстовыми подписями. Мы называем этот набор данных Panda-70M. Мы демонстрируем ценность предложенного набора данных на трёх последующих задачах: описании видео, поиске видео и текста, и генерации видео на основе текста. Модели, обученные на предложенных данных, показывают значительно лучшие результаты по большинству метрик во всех задачах.

Локомоция гуманоида как предсказание следующего токена
Humanoid Locomotion as Next Token Prediction

Feb 29

ByIlija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik

Мы представляем управление гуманоидами в реальном мире как проблему предсказания следующего токена, аналогичную предсказанию следующего слова в языке. Наша модель - это причинный трансформер, обученный путем авторегрессивного предсказания траекторий сенсорно-двигательных данных. Для учета мультимодальной природы данных мы выполняем предсказание способом, выровненным по модальностям, и для каждого входного токена предсказываем следующий токен из той же модальности. Эта общая формулировка позволяет нам использовать данные с отсутствующими модальностями, например, видеотраектории без действий. Мы обучаем нашу модель на коллекции симулированных траекторий, полученных из предыдущих политик нейронных сетей, контроллеров на основе моделей, данных захвата движения и видеороликов с людьми на YouTube. Мы показываем, что наша модель позволяет полноразмерному гуманоиду ходить в Сан-Франциско без предварительного обучения. Наша модель способна переноситься в реальный мир даже при обучении всего на 27 часах данных о ходьбе и может обобщаться на команды, не встреченные во время обучения, например, ходьбу назад. Эти результаты указывают на многообещающий путь к изучению сложных задач управления в реальном мире путем генеративного моделирования траекторий сенсорно-двигательных данных.

МОЗАИКА: Модульная система для помощи и интерактивного приготовления пищи
MOSAIC: A Modular System for Assistive and Interactive Cooking

Feb 29

ByHuaxiaoyue Wang, Kushal Kedia, Juntao Ren, Rahma Abdullah, Atiksh Bhardwaj, Angela Chao, Kelly Y Chen, Nathaniel Chin, Prithwish Dan, Xinyi Fan, Gonzalo Gonzalez-Pumariega, Aditya Kompella, Maximus Adrian Pace, Yash Sharma, Xiangwan Sun, Neha Sunkara, Sanjiban Choudhury

Мы представляем MOSAIC, модульную архитектуру для домашних роботов, способных выполнять сложные совместные задачи, такие как готовка с обычными пользователями. MOSAIC тесно сотрудничает с людьми, взаимодействует с пользователями на естественном языке, координирует действия нескольких роботов и управляет открытым словарем повседневных объектов. В основе MOSAIC лежит модульность: он использует несколько крупномасштабных предварительно обученных моделей для общих задач, таких как распознавание языка и изображений, а также упрощенные модули, разработанные для управления задачами. Мы подробно оцениваем MOSAIC на 60 полных испытаниях, где два робота сотрудничают с человеческим пользователем для приготовления 6 различных рецептов. Мы также тщательно тестируем отдельные модули с помощью 180 эпизодов визуомоторного захвата, 60 эпизодов прогнозирования движения человека и 46 онлайн-оценок пользователей планировщика задач. Мы показываем, что MOSAIC способен эффективно сотрудничать с людьми, запуская систему end-to-end с реальным человеческим пользователем, завершая 68,3% (41 из 60) совместных кулинарных испытаний 6 различных рецептов с процентом завершения подзадач в 91,6%. Наконец, мы обсуждаем ограничения текущей системы и захватывающие открытые вызовы в этой области. Веб-сайт проекта находится по адресу https://portal-cornell.github.io/MOSAIC/

DistriFusion: Распределенное параллельное вывод для моделей диффузии высокого разрешения
DistriFusion: Distributed Parallel Inference for High-Resolution Diffusion Models

Feb 29

ByMuyang Li, Tianle Cai, Jiaxin Cao, Qinsheng Zhang, Han Cai, Junjie Bai, Yangqing Jia, Ming-Yu Liu, Kai Li, Song Han

Модели диффузии достигли большого успеха в синтезе изображений высокого качества. Однако генерация изображений высокого разрешения с помощью моделей диффузии по-прежнему представляет собой сложную задачу из-за огромных вычислительных затрат, что приводит к запретительной задержке для интерактивных приложений. В данной статье мы предлагаем DistriFusion для решения этой проблемы путем использования параллелизма на нескольких графических процессорах (GPU). Наш метод разбивает входную модель на несколько участков и назначает каждый участок одному GPU. Однако наивная реализация такого алгоритма нарушает взаимодействие между участками и теряет точность, в то время как включение такого взаимодействия повлечет за собой огромные накладные расходы на коммуникацию. Чтобы преодолеть это дилемму, мы замечаем высокую схожесть между входами смежных шагов диффузии и предлагаем параллелизм с смещенными участками, который использует последовательную природу процесса диффузии путем повторного использования предварительно вычисленных карт признаков с предыдущего временного шага для обеспечения контекста текущего шага. Таким образом, наш метод поддерживает асинхронную коммуникацию, которая может быть организована в виде конвейера вычислений. Обширные эксперименты показывают, что наш метод может быть применен к недавней модели Stable Diffusion XL без ухудшения качества и достигает ускорения до 6,1 раза на восьми графических процессорах NVIDIA A100 по сравнению с одним. Наш код доступен по адресу https://github.com/mit-han-lab/distrifuser.

Простые линейные модели внимания языка уравновешивают компромисс между recall (полнотой) и throughput (производительностью).
Simple linear attention language models balance the recall-throughput tradeoff

Feb 28

BySimran Arora, Sabri Eyuboglu, Michael Zhang, Aman Timalsina, Silas Alberti, Dylan Zinsley, James Zou, Atri Rudra, Christopher Ré

Недавние исследования показали, что языковые модели на основе внимания отличаются по способности к воспроизведению, к способности привязывать генерации к токенам, ранее увиденным в контексте. Однако эффективность моделей на основе внимания ограничивается в процессе вывода из-за агрессивного потребления памяти KV-кэшем. В данной работе мы исследуем, можно ли улучшить эффективность языковой модели (например, путем снижения потребления памяти) без ущерба для воспроизведения. Применяя эксперименты и теорию к широкому набору архитектур, мы выявляем ключевой компромисс между размером состояния модели и способностью к воспроизведению. Мы показываем, что эффективные альтернативы вниманию (например, H3, Mamba, RWKV) поддерживают фиксированный рекуррентный стейт, но испытывают трудности с воспроизведением. Мы предлагаем BASED - простую архитектуру, объединяющую линейное и скользящее оконное внимание. Изменяя размер окна BASED и размер признаков линейного внимания, мы можем настраивать размер состояния и двигаться по кривой компромисса между воспроизведением и памятью, восстанавливая полное качество внимания с одной стороны и небольшой размер состояния альтернатив вниманию - с другой. Мы обучаем языковые модели до 1.3 млрд параметров и показываем, что BASED соответствует самым мощным субквадратичным моделям (например, Mamba) по перплексии и превосходит их на реальных задачах с высоким воспроизведением на 6.22 пункта точности. Реализации линейного внимания часто менее эффективны, чем оптимизированные стандартные реализации внимания. Для того чтобы сделать BASED конкурентоспособным, мы разрабатываем алгоритмы, учитывающие ввод-вывод, которые обеспечивают в 24 раз большую производительность при генерации текста, чем FlashAttention-2, при генерации 1024 токенов с использованием моделей с 1.3 млрд параметров. Код для этой работы предоставлен по ссылке: https://github.com/HazyResearch/based.

Приоритетная выборка больших языковых моделей для компиляторов
Priority Sampling of Large Language Models for Compilers

Feb 28

ByDejan Grubisic, Chris Cummins, Volker Seeker, Hugh Leather

Большие языковые модели показывают большой потенциал в генерации и оптимизации кода. Широко используемые методы выборки, такие как Сэмплирование Ядра, увеличивают разнообразие генерации, но часто приводят к повторяющимся образцам при низких температурах и несвязным образцам при высоких температурах. Более того, коэффициент температуры должен быть настроен для каждой задачи, что ограничивает его применимость. Мы представляем Приоритетное Сэмплирование, простой и детерминированный метод выборки, который производит уникальные образцы, упорядоченные по уверенности модели. Каждый новый образец расширяет неразвернутый токен с наивысшей вероятностью в дополненном дереве поиска. Кроме того, Приоритетное Сэмплирование поддерживает генерацию на основе регулярного выражения, что обеспечивает управляемый и структурированный процесс исследования. Приоритетное Сэмплирование превосходит Сэмплирование Ядра для любого количества образцов, увеличивая производительность исходной модели с 2,87% до 5% улучшения по сравнению с -Oz. Более того, оно превосходит автонастраиваемый инструмент, используемый для генерации меток для обучения исходной модели всего за 30 образцов.

Дистилляция последовательности траекторий
Trajectory Consistency Distillation

Feb 29

ByJianbin Zheng, Minghui Hu, Zhongyi Fan, Chaoyue Wang, Changxing Ding, Dacheng Tao, Tat-Jen Cham

Модель скрытой согласованности (LCM) расширяет модель согласованности на скрытое пространство и использует технику направленной дистилляции согласованности для достижения впечатляющей производительности в ускорении синтеза текста в изображение. Однако мы обнаружили, что LCM испытывает затруднения при создании изображений с четкостью и детальной сложностью. Для решения этого ограничения мы вначале погружаемся в изучение и пояснение основных причин. Наше исследование выявляет, что основная проблема происходит из ошибок в трех различных областях. В результате мы представляем Траекторную дистилляцию согласованности (TCD), которая включает функцию траекторной согласованности и стратегическую стохастическую выборку. Функция траекторной согласованности уменьшает ошибки дистилляции, расширяя область условия самосогласованности и наделяя TCD способностью точно проследить всю траекторию уравнения ОДЕ потока вероятности. Кроме того, стратегическая стохастическая выборка специально разработана для обхода накапливающихся ошибок, присущих многошаговой выборке согласованности, которая тщательно настроена для дополнения модели TCD. Эксперименты показывают, что TCD не только значительно улучшает качество изображений при низких NFE, но также дает более детальные результаты по сравнению с учителем при высоких NFE.

ViewFusion: Достижение согласованности между несколькими видами через интерполированное подавление шума
ViewFusion: Towards Multi-View Consistency via Interpolated Denoising

Feb 29

ByXianghui Yang, Yan Zuo, Sameera Ramasinghe, Loris Bazzani, Gil Avraham, Anton van den Hengel

Синтез изображений с нового ракурса с использованием моделей диффузии продемонстрировал замечательный потенциал для создания разнообразных и высококачественных изображений. Однако независимый процесс генерации изображений в этих преобладающих методах приводит к трудностям в поддержании согласованности между несколькими ракурсами. Для решения этой проблемы мы представляем ViewFusion, новый алгоритм, не требующий обучения, который может быть легко интегрирован в существующие предварительно обученные модели диффузии. Наш подход использует авторегрессионный метод, который неявно использует ранее сгенерированные ракурсы в качестве контекста для генерации следующего ракурса, обеспечивая надежную согласованность между несколькими ракурсами в процессе генерации нового ракурса. Через процесс диффузии, который объединяет информацию о известных ракурсах с помощью интерполированного шумоподавления, наша структура успешно расширяет модели, обученные на одном ракурсе, для работы в условиях многоракурсной установки без дополнительной донастройки. Обширные экспериментальные результаты демонстрируют эффективность ViewFusion в создании согласованных и детальных новых ракурсов.

Простые линейные модели внимания языка уравновешивают компромисс между recall (полнотой) и throughput (производительностью).
Simple linear attention language models balance the recall-throughput tradeoff

Feb 28

BySimran Arora, Sabri Eyuboglu, Michael Zhang, Aman Timalsina, Silas Alberti, Dylan Zinsley, James Zou, Atri Rudra, Christopher Ré