HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

10 papers found

MobileLLM: Оптимизация языковых моделей с параметрами менее миллиарда для использования на устройствах
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Feb 22

ByZechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra

134

В данной статье рассматривается растущая потребность в эффективных больших языковых моделях (LLM) для мобильных устройств, обусловленная увеличением затрат на облачные вычисления и проблемами с задержками. Мы сосредоточились на разработке высококачественных LLM с менее чем миллиардом параметров, что является практичным выбором для развертывания на мобильных устройствах. Вопреки распространенному мнению, подчеркивающему ключевую роль данных и количества параметров в определении качества модели, наше исследование выделяет важность архитектуры модели для LLM с менее чем миллиардом параметров. Используя глубокие и узкие архитектуры в сочетании с механизмами совместного использования эмбеддингов и группового внимания, мы создали базовую сеть под названием MobileLLM, которая демонстрирует впечатляющее увеличение точности на 2,7%/4,3% по сравнению с предыдущими моделями на 125M/350M параметров. Кроме того, мы предлагаем подход к немедленному блочному совместному использованию весов без увеличения размера модели и с минимальными накладными расходами на задержку. Полученные модели, обозначенные как MobileLLM-LS, показывают дальнейшее улучшение точности на 0,7%/0,8% по сравнению с MobileLLM 125M/350M. Более того, семейство моделей MobileLLM демонстрирует значительные улучшения по сравнению с предыдущими моделями с менее чем миллиардом параметров в тестах на чат и показывает близкую к LLaMA-v2 7B точность в задачах вызова API, что подчеркивает возможности небольших моделей для типичных сценариев использования на устройствах.

Genie: Генеративные Интерактивные Среды
Genie: Generative Interactive Environments

Feb 23

ByJake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel

Мы представляем Genie — первую генеративную интерактивную среду, обученную без учителя на основе немаркированных интернет-видео. Модель может создавать бесконечное разнообразие виртуальных миров, управляемых действиями и описываемых через текст, синтетические изображения, фотографии и даже наброски. С 11 миллиардами параметров Genie можно считать фундаментальной моделью мира. Она состоит из пространственно-временного токенизатора видео, авторегрессивной модели динамики и простой, масштабируемой модели латентных действий. Genie позволяет пользователям взаимодействовать с генерируемыми средами на уровне отдельных кадров, несмотря на обучение без использования истинных меток действий или других доменно-специфических требований, типичных для литературы по моделям мира. Более того, полученное латентное пространство действий облегчает обучение агентов имитировать поведение из ранее невиданных видео, открывая путь для обучения универсальных агентов будущего.

Водяные знаки делают языковые модели радиоактивными
Watermarking Makes Language Models Radioactive

Feb 22

ByTom Sander, Pierre Fernandez, Alain Durmus, Matthijs Douze, Teddy Furon

В данной работе исследуется радиоактивность текстов, сгенерированных крупными языковыми моделями (LLM), то есть возможность обнаружения того, что такие данные использовались в качестве обучающего набора. Традиционные методы, такие как вывод о принадлежности, могут выполнять это обнаружение с определенной точностью. Мы показываем, что водяные знаки в обучающих данных оставляют следы, которые легче обнаружить и которые гораздо более надежны, чем вывод о принадлежности. Мы связываем уровень загрязнения с устойчивостью водяного знака, его долей в обучающем наборе и процессом тонкой настройки. В частности, мы демонстрируем, что обучение на синтетических инструкциях с водяными знаками может быть обнаружено с высокой степенью уверенности (p-значение < 1e-5) даже в случае, когда всего 5% обучающего текста содержит водяные знаки. Таким образом, водяные знаки в LLM, изначально разработанные для обнаружения машинно-сгенерированных текстов, позволяют легко определить, использовались ли выходы LLM с водяными знаками для тонкой настройки другой LLM.

Разделяй или властвуй? Какую часть вашей большой языковой модели следует дистиллировать?
Divide-or-Conquer? Which Part Should You Distill Your LLM?

Feb 22

ByZhuofeng Wu, He Bai, Aonan Zhang, Jiatao Gu, VG Vinod Vydiswaran, Navdeep Jaitly, Yizhe Zhang

Последние исследования показали, что крупные языковые модели (LLM) лучше справляются с задачами, требующими рассуждений, если их поощрять сначала решать подзадачи основной задачи. В данной работе мы разрабатываем аналогичную стратегию, которая разбивает задачи рассуждений на этап декомпозиции проблемы и этап её решения, и демонстрируем, что такая стратегия превосходит одноэтапное решение. Кроме того, мы выдвигаем гипотезу, что декомпозицию проблемы легче дистиллировать в меньшую модель по сравнению с этапом решения, поскольку последний требует значительных знаний в предметной области, тогда как первый — лишь освоения общих стратегий решения задач. Мы предлагаем методы для дистилляции этих двух способностей и оцениваем их влияние на результаты рассуждений и стоимость вывода. Мы обнаруживаем, что можно успешно дистиллировать этап декомпозиции проблемы, одновременно достигая хорошей обобщаемости на различных задачах, наборах данных и моделях. Однако дистилляция способности к решению проблем без потери производительности оказывается сложнее, и полученная дистиллированная модель испытывает трудности с обобщением. Эти результаты указывают на то, что использование меньших, дистиллированных моделей для декомпозиции проблемы в сочетании с LLM для решения задач позволяет достичь эффективного рассуждения с экономичным выводом и локальной адаптацией.

GPTVQ: Преимущество многомерности для квантования больших языковых моделей
GPTVQ: The Blessing of Dimensionality for LLM Quantization

Feb 23

ByMart van Baalen, Andrey Kuzmin, Markus Nagel, Peter Couperus, Cedric Bastoul, Eric Mahurin, Tijmen Blankevoort, Paul Whatmough

В данной работе мы демонстрируем, что компромисс между размером и точностью при квантовании нейронных сетей может быть значительно улучшен за счет увеличения размерности квантования. Мы предлагаем метод GPTVQ — новый быстрый метод посттренировочного векторного квантования (VQ), который хорошо масштабируется для больших языковых моделей (LLM). Наш метод чередует квантование одного или нескольких столбцов с обновлением оставшихся неквантованных весов, используя информацию из гессиана среднеквадратичной ошибки (MSE) восстановления выхода на уровне слоя. Кодбуки квантования инициализируются с помощью эффективной версии EM-алгоритма, учитывающей данные. Затем кодбуки обновляются и дополнительно сжимаются с использованием целочисленного квантования и сжатия на основе сингулярного разложения (SVD). GPTVQ устанавливает новый эталон в компромиссе между размером и точностью для широкого спектра LLM, таких как Llama-v2 и Mistral. Кроме того, наш метод эффективен: на одном GPU H100 обработка модели Llamav2-70B занимает от 3 до 11 часов в зависимости от настроек квантования. Наконец, с помощью измерений времени декомпрессии VQ на мобильном CPU мы показываем, что VQ приводит к улучшению задержек по сравнению с использованием 4-битного целочисленного формата.

ChunkAttention: Эффективный механизм самовнимания с префиксно-осведомленным кэшем ключей и значений и двухфазным разделением
ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition

Feb 23

ByLu Ye, Ze Tao, Yong Huang, Yang Li

Само-внимание (self-attention) является ключевым компонентом больших языковых моделей (LLM), но также представляет собой значительный источник задержек при выполнении выводов для длинных последовательностей. В сценариях обслуживания мультитенантных LLM вычислительные затраты и операции с памятью, связанные с само-вниманием, могут быть оптимизированы за счет использования вероятности того, что несколько запросов к LLM имеют общие системные промпты в префиксах. В данной статье мы представляем ChunkAttention — модуль само-внимания, учитывающий префиксы, который способен обнаруживать совпадающие префиксы промптов в нескольких запросах и совместно использовать их тензоры ключей/значений в памяти во время выполнения, что повышает эффективность использования памяти KV-кэша. Это достигается за счет разбиения монолитных тензоров ключей/значений на меньшие фрагменты и организации их во вспомогательное префиксное дерево. В результате, на основе KV-кэша, структурированного в виде префиксного дерева, мы разрабатываем эффективное ядро само-внимания, в котором реализован двухфазный алгоритм разделения для улучшения локальности данных во время вычисления само-внимания при наличии общих системных промптов. Эксперименты показывают, что ChunkAttention ускоряет выполнение ядра само-внимания в 3,2–4,8 раза по сравнению с современными реализациями при длине системного промпта от 1024 до 4096.

Та же задача, больше токенов: влияние длины входных данных на способность к рассуждению у крупных языковых моделей
Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

Feb 19

ByMosh Levy, Alon Jacoby, Yoav Goldberg

В данной работе исследуется влияние увеличения длины входных данных на возможности крупных языковых моделей (LLM). Несмотря на значительные достижения LLM в последнее время, их стабильность производительности при различных длинах входных данных остается недостаточно изученной. Мы изучаем этот аспект, вводя новую структуру для оценки рассуждений в формате вопрос-ответ, специально разработанную для анализа влияния длины входных данных. Мы изолируем эффект длины входных данных, используя несколько версий одного и того же образца, каждая из которых расширена заполнением разной длины, типа и расположения. Наши результаты показывают значительное ухудшение производительности рассуждений LLM при гораздо более коротких длинах входных данных, чем их технический максимум. Мы демонстрируем, что тенденция к ухудшению проявляется в каждой версии нашего набора данных, хотя и с разной интенсивностью. Кроме того, наше исследование показывает, что традиционные метрики перплексии не коррелируют с производительностью LLM в задачах рассуждений с длинными входными данными. Мы анализируем наши результаты и выявляем типичные ошибки, которые могут служить полезным руководством для будущих исследований, потенциально информируя стратегии для устранения наблюдаемых ограничений LLM.

AgentOhana: Проектирование унифицированного конвейера данных и обучения для эффективного обучения агентов
AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning

Feb 23

ByJianguo Zhang, Tian Lan, Rithesh Murthy, Zhiwei Liu, Weiran Yao, Juntao Tan, Thai Hoang, Liangwei Yang, Yihao Feng, Zuxin Liu, Tulika Awalgaonkar, Juan Carlos Niebles, Silvio Savarese, Shelby Heinecke, Huan Wang, Caiming Xiong

Автономные агенты, основанные на больших языковых моделях (LLM), привлекают значительное внимание исследователей. Однако полное раскрытие потенциала LLM для задач, связанных с агентами, сопряжено с рядом сложностей, обусловленных разнородным характером различных источников данных, содержащих многошаговые траектории. В данной статье мы представляем AgentOhana как комплексное решение для преодоления этих трудностей. AgentOhana объединяет траектории агентов из различных сред, охватывая широкий спектр сценариев. Она тщательно стандартизирует и унифицирует эти траектории в единый формат, упрощая создание универсального загрузчика данных, оптимизированного для обучения агентов. Благодаря унификации данных, наш обучающий конвейер поддерживает баланс между различными источниками данных и сохраняет независимую случайность при разделении наборов данных и обучении моделей на разных устройствах. Кроме того, мы представляем xLAM-v0.1 — крупную модель действий, разработанную специально для ИИ-агентов, которая демонстрирует выдающуюся производительность на различных тестовых наборах.

API-BLEND: Комплексный корпус для обучения и тестирования языковых моделей, работающих с API
API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs

Feb 23

ByKinjal Basu, Ibrahim Abdelaziz, Subhajit Chaudhury, Soham Dan, Maxwell Crouse, Asim Munawar, Sadhana Kumaravel, Vinod Muthusamy, Pavan Kapanipathi, Luis A. Lastras

Растет потребность в том, чтобы крупные языковые модели (LLM) эффективно использовали инструменты и внешние интерфейсы прикладного программирования (API) для планирования и выполнения задач. В связи с этим наблюдается значительный интерес к методам, которые позволяют получить достаточное количество обучающих и тестовых данных, включающих вызовы инструментов и API. Два направления исследований стали основными стратегиями для решения этой задачи. Первое сосредоточено на методах генерации синтетических данных, а второе — на создании наборов данных, смежных с задачами, которые можно преобразовать в задачи, связанные с использованием API и инструментов. В данной статье мы сосредотачиваемся на задаче выявления, создания и преобразования существующих наборов данных и представляем API-BLEND — крупный корпус для обучения и систематического тестирования LLM, усиленных инструментами. Наборы данных имитируют реальные сценарии, связанные с задачами API, такие как обнаружение API/инструментов, заполнение слотов и упорядочение обнаруженных API. Мы демонстрируем полезность набора данных API-BLEND как для обучения, так и для тестирования.

Беспрепятственная композиция человеческих движений с использованием смешанных позиционных кодировок
Seamless Human Motion Composition with Blended Positional Encodings

Feb 23

ByGerman Barquero, Sergio Escalera, Cristina Palmero

Генерация условных движений человека является важной темой с множеством применений в виртуальной реальности, игровой индустрии и робототехнике. Хотя предыдущие работы были сосредоточены на создании движений, управляемых текстом, музыкой или сценами, они обычно ограничивались изолированными движениями короткой продолжительности. Вместо этого мы решаем задачу генерации длинных, непрерывных последовательностей, управляемых серией изменяющихся текстовых описаний. В этом контексте мы представляем FlowMDM — первую диффузионную модель, которая генерирует бесшовные композиции движений человека (Human Motion Compositions, HMC) без какой-либо постобработки или избыточных шагов денойзинга. Для этого мы вводим метод Blended Positional Encodings, который использует как абсолютные, так и относительные позиционные кодировки в цепочке денойзинга. Более конкретно, глобальная согласованность движений восстанавливается на этапе абсолютной кодировки, тогда как плавные и реалистичные переходы создаются на этапе относительной кодировки. В результате мы достигаем современных результатов по точности, реалистичности и плавности на наборах данных Babel и HumanML3D. FlowMDM демонстрирует выдающиеся результаты при обучении с использованием всего одного описания на последовательность движений благодаря Pose-Centric Cross-ATtention, что делает модель устойчивой к изменяющимся текстовым описаниям на этапе вывода. Наконец, чтобы устранить ограничения существующих метрик для HMC, мы предлагаем две новые метрики: Peak Jerk (Пиковый рывок) и Area Under the Jerk (Площадь под кривой рывка), которые позволяют обнаруживать резкие переходы.

MobileLLM: Оптимизация языковых моделей с параметрами менее миллиарда для использования на устройствах
MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Feb 22

ByZechun Liu, Changsheng Zhao, Forrest Iandola, Chen Lai, Yuandong Tian, Igor Fedorov, Yunyang Xiong, Ernie Chang, Yangyang Shi, Raghuraman Krishnamoorthi, Liangzhen Lai, Vikas Chandra

134