Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной статье рассматривается растущая потребность в эффективных больших языковых моделях (LLM) для мобильных устройств, обусловленная увеличением затрат на облачные вычисления и проблемами с задержками. Мы сосредоточились на разработке высококачественных LLM с менее чем миллиардом параметров, что является практичным выбором для развертывания на мобильных устройствах. Вопреки распространенному мнению, подчеркивающему ключевую роль данных и количества параметров в определении качества модели, наше исследование выделяет важность архитектуры модели для LLM с менее чем миллиардом параметров. Используя глубокие и узкие архитектуры в сочетании с механизмами совместного использования эмбеддингов и группового внимания, мы создали базовую сеть под названием MobileLLM, которая демонстрирует впечатляющее увеличение точности на 2,7%/4,3% по сравнению с предыдущими моделями на 125M/350M параметров. Кроме того, мы предлагаем подход к немедленному блочному совместному использованию весов без увеличения размера модели и с минимальными накладными расходами на задержку. Полученные модели, обозначенные как MobileLLM-LS, показывают дальнейшее улучшение точности на 0,7%/0,8% по сравнению с MobileLLM 125M/350M. Более того, семейство моделей MobileLLM демонстрирует значительные улучшения по сравнению с предыдущими моделями с менее чем миллиардом параметров в тестах на чат и показывает близкую к LLaMA-v2 7B точность в задачах вызова API, что подчеркивает возможности небольших моделей для типичных сценариев использования на устройствах.
Мы представляем Genie — первую генеративную интерактивную среду, обученную без учителя на основе немаркированных интернет-видео. Модель может создавать бесконечное разнообразие виртуальных миров, управляемых действиями и описываемых через текст, синтетические изображения, фотографии и даже наброски. С 11 миллиардами параметров Genie можно считать фундаментальной моделью мира. Она состоит из пространственно-временного токенизатора видео, авторегрессивной модели динамики и простой, масштабируемой модели латентных действий. Genie позволяет пользователям взаимодействовать с генерируемыми средами на уровне отдельных кадров, несмотря на обучение без использования истинных меток действий или других доменно-специфических требований, типичных для литературы по моделям мира. Более того, полученное латентное пространство действий облегчает обучение агентов имитировать поведение из ранее невиданных видео, открывая путь для обучения универсальных агентов будущего.
В данной работе исследуется радиоактивность текстов, сгенерированных крупными языковыми моделями (LLM), то есть возможность обнаружения того, что такие данные использовались в качестве обучающего набора. Традиционные методы, такие как вывод о принадлежности, могут выполнять это обнаружение с определенной точностью. Мы показываем, что водяные знаки в обучающих данных оставляют следы, которые легче обнаружить и которые гораздо более надежны, чем вывод о принадлежности. Мы связываем уровень загрязнения с устойчивостью водяного знака, его долей в обучающем наборе и процессом тонкой настройки. В частности, мы демонстрируем, что обучение на синтетических инструкциях с водяными знаками может быть обнаружено с высокой степенью уверенности (p-значение < 1e-5) даже в случае, когда всего 5% обучающего текста содержит водяные знаки. Таким образом, водяные знаки в LLM, изначально разработанные для обнаружения машинно-сгенерированных текстов, позволяют легко определить, использовались ли выходы LLM с водяными знаками для тонкой настройки другой LLM.
Последние исследования показали, что крупные языковые модели (LLM) лучше справляются с задачами, требующими рассуждений, если их поощрять сначала решать подзадачи основной задачи. В данной работе мы разрабатываем аналогичную стратегию, которая разбивает задачи рассуждений на этап декомпозиции проблемы и этап её решения, и демонстрируем, что такая стратегия превосходит одноэтапное решение. Кроме того, мы выдвигаем гипотезу, что декомпозицию проблемы легче дистиллировать в меньшую модель по сравнению с этапом решения, поскольку последний требует значительных знаний в предметной области, тогда как первый — лишь освоения общих стратегий решения задач. Мы предлагаем методы для дистилляции этих двух способностей и оцениваем их влияние на результаты рассуждений и стоимость вывода. Мы обнаруживаем, что можно успешно дистиллировать этап декомпозиции проблемы, одновременно достигая хорошей обобщаемости на различных задачах, наборах данных и моделях. Однако дистилляция способности к решению проблем без потери производительности оказывается сложнее, и полученная дистиллированная модель испытывает трудности с обобщением. Эти результаты указывают на то, что использование меньших, дистиллированных моделей для декомпозиции проблемы в сочетании с LLM для решения задач позволяет достичь эффективного рассуждения с экономичным выводом и локальной адаптацией.
В данной работе мы демонстрируем, что компромисс между размером и точностью при квантовании нейронных сетей может быть значительно улучшен за счет увеличения размерности квантования. Мы предлагаем метод GPTVQ — новый быстрый метод посттренировочного векторного квантования (VQ), который хорошо масштабируется для больших языковых моделей (LLM). Наш метод чередует квантование одного или нескольких столбцов с обновлением оставшихся неквантованных весов, используя информацию из гессиана среднеквадратичной ошибки (MSE) восстановления выхода на уровне слоя. Кодбуки квантования инициализируются с помощью эффективной версии EM-алгоритма, учитывающей данные. Затем кодбуки обновляются и дополнительно сжимаются с использованием целочисленного квантования и сжатия на основе сингулярного разложения (SVD). GPTVQ устанавливает новый эталон в компромиссе между размером и точностью для широкого спектра LLM, таких как Llama-v2 и Mistral. Кроме того, наш метод эффективен: на одном GPU H100 обработка модели Llamav2-70B занимает от 3 до 11 часов в зависимости от настроек квантования. Наконец, с помощью измерений времени декомпрессии VQ на мобильном CPU мы показываем, что VQ приводит к улучшению задержек по сравнению с использованием 4-битного целочисленного формата.
Само-внимание (self-attention) является ключевым компонентом больших языковых моделей (LLM), но также представляет собой значительный источник задержек при выполнении выводов для длинных последовательностей. В сценариях обслуживания мультитенантных LLM вычислительные затраты и операции с памятью, связанные с само-вниманием, могут быть оптимизированы за счет использования вероятности того, что несколько запросов к LLM имеют общие системные промпты в префиксах. В данной статье мы представляем ChunkAttention — модуль само-внимания, учитывающий префиксы, который способен обнаруживать совпадающие префиксы промптов в нескольких запросах и совместно использовать их тензоры ключей/значений в памяти во время выполнения, что повышает эффективность использования памяти KV-кэша. Это достигается за счет разбиения монолитных тензоров ключей/значений на меньшие фрагменты и организации их во вспомогательное префиксное дерево. В результате, на основе KV-кэша, структурированного в виде префиксного дерева, мы разрабатываем эффективное ядро само-внимания, в котором реализован двухфазный алгоритм разделения для улучшения локальности данных во время вычисления само-внимания при наличии общих системных промптов. Эксперименты показывают, что ChunkAttention ускоряет выполнение ядра само-внимания в 3,2–4,8 раза по сравнению с современными реализациями при длине системного промпта от 1024 до 4096.
В данной работе исследуется влияние увеличения длины входных данных на возможности крупных языковых моделей (LLM). Несмотря на значительные достижения LLM в последнее время, их стабильность производительности при различных длинах входных данных остается недостаточно изученной. Мы изучаем этот аспект, вводя новую структуру для оценки рассуждений в формате вопрос-ответ, специально разработанную для анализа влияния длины входных данных. Мы изолируем эффект длины входных данных, используя несколько версий одного и того же образца, каждая из которых расширена заполнением разной длины, типа и расположения. Наши результаты показывают значительное ухудшение производительности рассуждений LLM при гораздо более коротких длинах входных данных, чем их технический максимум. Мы демонстрируем, что тенденция к ухудшению проявляется в каждой версии нашего набора данных, хотя и с разной интенсивностью. Кроме того, наше исследование показывает, что традиционные метрики перплексии не коррелируют с производительностью LLM в задачах рассуждений с длинными входными данными. Мы анализируем наши результаты и выявляем типичные ошибки, которые могут служить полезным руководством для будущих исследований, потенциально информируя стратегии для устранения наблюдаемых ограничений LLM.
Автономные агенты, основанные на больших языковых моделях (LLM), привлекают значительное внимание исследователей. Однако полное раскрытие потенциала LLM для задач, связанных с агентами, сопряжено с рядом сложностей, обусловленных разнородным характером различных источников данных, содержащих многошаговые траектории. В данной статье мы представляем AgentOhana как комплексное решение для преодоления этих трудностей. AgentOhana объединяет траектории агентов из различных сред, охватывая широкий спектр сценариев. Она тщательно стандартизирует и унифицирует эти траектории в единый формат, упрощая создание универсального загрузчика данных, оптимизированного для обучения агентов. Благодаря унификации данных, наш обучающий конвейер поддерживает баланс между различными источниками данных и сохраняет независимую случайность при разделении наборов данных и обучении моделей на разных устройствах. Кроме того, мы представляем xLAM-v0.1 — крупную модель действий, разработанную специально для ИИ-агентов, которая демонстрирует выдающуюся производительность на различных тестовых наборах.
Генерация условных движений человека является важной темой с множеством применений в виртуальной реальности, игровой индустрии и робототехнике. Хотя предыдущие работы были сосредоточены на создании движений, управляемых текстом, музыкой или сценами, они обычно ограничивались изолированными движениями короткой продолжительности. Вместо этого мы решаем задачу генерации длинных, непрерывных последовательностей, управляемых серией изменяющихся текстовых описаний. В этом контексте мы представляем FlowMDM — первую диффузионную модель, которая генерирует бесшовные композиции движений человека (Human Motion Compositions, HMC) без какой-либо постобработки или избыточных шагов денойзинга. Для этого мы вводим метод Blended Positional Encodings, который использует как абсолютные, так и относительные позиционные кодировки в цепочке денойзинга. Более конкретно, глобальная согласованность движений восстанавливается на этапе абсолютной кодировки, тогда как плавные и реалистичные переходы создаются на этапе относительной кодировки. В результате мы достигаем современных результатов по точности, реалистичности и плавности на наборах данных Babel и HumanML3D. FlowMDM демонстрирует выдающиеся результаты при обучении с использованием всего одного описания на последовательность движений благодаря Pose-Centric Cross-ATtention, что делает модель устойчивой к изменяющимся текстовым описаниям на этапе вывода. Наконец, чтобы устранить ограничения существующих метрик для HMC, мы предлагаем две новые метрики: Peak Jerk (Пиковый рывок) и Area Under the Jerk (Площадь под кривой рывка), которые позволяют обнаруживать резкие переходы.
Растет потребность в том, чтобы крупные языковые модели (LLM) эффективно использовали инструменты и внешние интерфейсы прикладного программирования (API) для планирования и выполнения задач. В связи с этим наблюдается значительный интерес к методам, которые позволяют получить достаточное количество обучающих и тестовых данных, включающих вызовы инструментов и API. Два направления исследований стали основными стратегиями для решения этой задачи. Первое сосредоточено на методах генерации синтетических данных, а второе — на создании наборов данных, смежных с задачами, которые можно преобразовать в задачи, связанные с использованием API и инструментов. В данной статье мы сосредотачиваемся на задаче выявления, создания и преобразования существующих наборов данных и представляем API-BLEND — крупный корпус для обучения и систематического тестирования LLM, усиленных инструментами. Наборы данных имитируют реальные сценарии, связанные с задачами API, такие как обнаружение API/инструментов, заполнение слотов и упорядочение обнаруженных API. Мы демонстрируем полезность набора данных API-BLEND как для обучения, так и для тестирования.