HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

11 papers found

Mixtral экспертов
Mixtral of Experts

Jan 8

ByAlbert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, Arthur Mensch, Blanche Savary, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Emma Bou Hanna, Florian Bressand, Gianna Lengyel, Guillaume Bour, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Sandeep Subramanian, Sophia Yang, Szymon Antoniak, Teven Le Scao, Théophile Gervet, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed

159

Мы представляем Mixtral 8x7B — языковую модель, основанную на разреженной смеси экспертов (Sparse Mixture of Experts, SMoE). Mixtral имеет ту же архитектуру, что и Mistral 7B, с тем отличием, что каждый слой состоит из 8 блоков прямого распространения (экспертов). Для каждого токена на каждом слое маршрутизирующая сеть выбирает двух экспертов для обработки текущего состояния и объединяет их выходы. Хотя каждый токен взаимодействует только с двумя экспертами, выбранные эксперты могут меняться на каждом шаге. В результате каждый токен имеет доступ к 47 миллиардам параметров, но использует только 13 миллиардов активных параметров во время вывода. Mixtral обучалась с размером контекста в 32 тысячи токенов и превосходит или соответствует Llama 2 70B и GPT-3.5 на всех оцениваемых тестах. В частности, Mixtral значительно превосходит Llama 2 70B в задачах по математике, генерации кода и многоязычных тестах. Мы также предоставляем модель, дообученную для выполнения инструкций, Mixtral 8x7B - Instruct, которая превосходит GPT-3.5 Turbo, Claude-2.1, Gemini Pro и Llama 2 70B - chat model в тестах, оцениваемых людьми. Как базовая, так и инструктивная модели выпущены под лицензией Apache 2.0.

MoE-Mamba: Эффективные селективные модели пространства состояний с использованием смеси экспертов
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

Jan 8

ByMaciej Pióro, Kamil Ciebiera, Krystian Król, Jan Ludziejewski, Sebastian Jaszczur

Модели пространства состояний (SSM) стали серьезными конкурентами в области последовательного моделирования, бросая вызов доминированию трансформеров. В то же время смесь экспертов (MoE) значительно улучшила трансформерные языковые модели (LLM), включая недавние передовые модели с открытым исходным кодом. Мы предлагаем, что для раскрытия потенциала SSM в масштабировании их следует комбинировать с MoE. Мы демонстрируем это на примере Mamba, недавней модели на основе SSM, которая достигает впечатляющей производительности, сравнимой с трансформерами. Наша модель, MoE-Mamba, превосходит как Mamba, так и Transformer-MoE. В частности, MoE-Mamba достигает той же производительности, что и Mamba, за 2.2 раза меньше шагов обучения, сохраняя при этом преимущества Mamba в производительности на этапе вывода по сравнению с трансформером.

Смешение — это всё, что нужно: более дешёвая и эффективная альтернатива языковым моделям с триллионами параметров.
Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

Jan 4

ByXiaoding Lu, Adian Liusie, Vyas Raina, Yuwen Zhang, William Beauchamp

В исследованиях в области диалогового ИИ наблюдается заметная тенденция к разработке моделей с большим количеством параметров, примером которых является ChatGPT. Хотя такие масштабные модели демонстрируют всё более качественные ответы в чате, они требуют значительных вычислительных ресурсов и памяти. В данном исследовании рассматривается важный вопрос: может ли комбинация более компактных моделей совместно достичь сопоставимой или даже превосходящей производительности по сравнению с одной крупной моделью? Мы представляем подход под названием "смешивание" — простой, но эффективный метод интеграции нескольких чат-ботов. Наши эмпирические данные показывают, что при синергетическом смешивании определённых небольших моделей они могут потенциально превзойти или соответствовать возможностям гораздо более крупных аналогов. Например, объединение всего трёх моделей умеренного размера (6B/13B параметров) может конкурировать или даже превосходить показатели производительности значительно более крупной модели, такой как ChatGPT (175B+ параметров). Эта гипотеза тщательно проверяется с использованием методологии A/B-тестирования на большой пользовательской базе платформы Chai Research в течение тридцати дней. Результаты подчеркивают потенциал стратегии "смешивания" как жизнеспособного подхода для повышения эффективности чат-ботов без соответствующего увеличения вычислительных затрат.

От 4K до 400K: Расширение контекста языковых моделей с помощью активационных маяков
Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon

Jan 7

ByPeitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng Dou

Использование длинных контекстов представляет собой серьезную проблему для больших языковых моделей из-за ограниченной длины их контекстного окна. Хотя контекстное окно можно расширить с помощью тонкой настройки, это приведет к значительным затратам как на этапе обучения, так и на этапе вывода, а также негативно повлияет на исходные возможности модели. В данной работе мы предлагаем Activation Beacon, который сжимает исходные активации языковой модели в более компактные формы, что позволяет воспринимать значительно более длинный контекст при ограниченном размере окна. Activation Beacon представлен как модуль plug-and-play для языковой модели. Он полностью сохраняет исходные возможности модели на коротких контекстах, одновременно расширяя её способность обрабатывать более длинные контексты. Кроме того, он работает с короткими скользящими окнами для обработки длинного контекста, что обеспечивает конкурентоспособную эффективность по памяти и времени как на этапе обучения, так и на этапе вывода. Activation Beacon обучается на задаче авторегрессии, учитывающей смесь маяков с различными коэффициентами сжатия. Благодаря такому подходу, его можно эффективно обучить исключительно на данных с короткими последовательностями всего за 10 тысяч шагов, что занимает менее 9 часов на одной машине с 8 GPU A800. Экспериментальные исследования показывают, что Activation Beacon способен увеличить длину контекста модели Llama-2-7B в 100 раз (с 4K до 400K), одновременно демонстрируя превосходные результаты как в задачах генерации, так и в задачах понимания длинных контекстов. Наша модель и код будут доступны в репозитории BGE.

GPT-4V(ision) выступает в качестве согласованного с человеком оценщика для генерации 3D-моделей из текста.
GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation

Jan 8

ByTong Wu, Guandao Yang, Zhibing Li, Kai Zhang, Ziwei Liu, Leonidas Guibas, Dahua Lin, Gordon Wetzstein

Несмотря на недавние достижения в методах генерации 3D-моделей из текста, наблюдается заметное отсутствие надежных метрик оценки. Существующие метрики обычно сосредоточены на одном критерии, например, на том, насколько хорошо модель соответствует входному тексту. Эти метрики не обладают гибкостью для обобщения на различные критерии оценки и могут не соответствовать человеческим предпочтениям. Проведение исследований с участием пользователей является альтернативой, которая предлагает как адаптивность, так и результаты, согласованные с человеческими предпочтениями. Однако пользовательские исследования могут быть очень дорогостоящими для масштабирования. В данной статье представлена автоматическая, универсальная и согласованная с человеческими предпочтениями метрика оценки для моделей генерации 3D-моделей из текста. Для этого мы сначала разрабатываем генератор подсказок с использованием GPT-4V для создания оценочных подсказок, которые служат входными данными для сравнения моделей генерации 3D-моделей из текста. Далее мы разрабатываем метод, который инструктирует GPT-4V сравнивать две 3D-модели в соответствии с пользовательскими критериями. Наконец, мы используем результаты попарного сравнения для присвоения этим моделям рейтингов Elo. Экспериментальные результаты показывают, что наша метрика сильно согласуется с человеческими предпочтениями при различных критериях оценки.

DiarizationLM: Постобработка диаризации говорящих с использованием крупных языковых моделей
DiarizationLM: Speaker Diarization Post-Processing with Large Language Models

Jan 7

ByQuan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao

В данной статье мы представляем DiarizationLM — фреймворк, который использует большие языковые модели (LLM) для постобработки результатов системы диаризации говорящих. С помощью предложенного фреймворка можно достичь различных целей, таких как улучшение читаемости диаризованной расшифровки или снижение частоты ошибок диаризации слов (WDER). В этом фреймворке выходы системы автоматического распознавания речи (ASR) и системы диаризации представляются в компактном текстовом формате, который включается в промпт для опционально дообученной LLM. Выходы LLM могут использоваться как уточненные результаты диаризации с желаемыми улучшениями. В качестве шага постобработки этот фреймворк может быть легко применен к любым готовым системам ASR и диаризации без необходимости переобучения существующих компонентов. Наши эксперименты показывают, что дообученная модель PaLM 2-S может снизить WDER на 25,9% относительно базового уровня на наборе данных телефонных разговоров Fisher и на 31% на наборе данных Callhome English.

AST-T5: Структурно-ориентированное предобучение для генерации и понимания кода
AST-T5: Structure-Aware Pretraining for Code Generation and Understanding

Jan 5

ByLinyuan Gong, Mostafa Elhoushi, Alvin Cheung

Крупные языковые модели (LLMs) достигли значительных успехов в задачах, связанных с кодом, однако многие из них обрабатывают код как простые последовательности, игнорируя его структурированную природу. Мы представляем AST-T5 — новую парадигму предварительного обучения, которая использует абстрактное синтаксическое дерево (AST) для улучшенной генерации, трансляции и понимания кода. Наш метод AST-Aware Segmentation, основанный на динамическом программировании, сохраняет структуру кода, а задача AST-Aware Span Corruption позволяет модели восстанавливать различные структуры кода. В отличие от других моделей, AST-T5 не требует сложного анализа программ или изменений архитектуры, что позволяет ей легко интегрироваться с любым кодировщиком-декодировщиком на основе Transformer. Оценки показывают, что AST-T5 стабильно превосходит языковые модели аналогичного размера в различных задачах, связанных с кодом. Осознание структуры делает AST-T5 особенно эффективной в задачах преобразования кода, превосходя CodeT5 на 2 балла по точному совпадению в задаче Bugs2Fix и на 3 балла в задаче трансляции Java-C# в CodeXGLUE. Наш код и модель доступны по адресу https://github.com/gonglinyuan/ast_t5.

CRUXEval: Бенчмарк для анализа, понимания и выполнения кода
CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

Jan 5

ByAlex Gu, Baptiste Rozière, Hugh Leather, Armando Solar-Lezama, Gabriel Synnaeve, Sida I. Wang

Мы представляем CRUXEval (Code Reasoning, Understanding, and eXecution Evaluation) — эталонный набор, состоящий из 800 функций на Python (3–13 строк). Каждая функция сопровождается парой входных и выходных данных, что формирует две естественные задачи: предсказание входных данных и предсказание выходных данных. Во-первых, мы предлагаем универсальный метод для создания нашего эталонного набора, который может быть использован для разработки его будущих вариаций. Во-вторых, мы оцениваем двадцать моделей обработки кода на нашем эталоне и обнаруживаем, что многие недавние модели, демонстрирующие высокие результаты на HumanEval, не показывают аналогичного улучшения на нашем наборе. В-третьих, мы показываем, что простые схемы с использованием цепочки рассуждений (CoT) и тонкой настройки могут улучшить производительность на нашем эталоне, но всё ещё далеки от его полного решения. Лучшая конфигурация, GPT-4 с цепочкой рассуждений (CoT), достигает показателя pass@1 в 75% и 81% для предсказания входных и выходных данных соответственно. В то же время Code Llama 34B достигает pass@1 в 50% и 46% для предсказания входных и выходных данных, что подчеркивает разрыв между открытыми и закрытыми моделями. Поскольку ни одна модель не близка к идеальному выполнению CRUXEval, мы приводим примеры устойчивых ошибок GPT-4 на простых программах, чтобы лучше понять его способности к анализу кода и выявить области для улучшения.

Улучшилась ли ваша предобученная модель? Подход на основе многоголового апостериорного распределения
Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach

Jan 2

ByPrince Aboagye, Yan Zheng, Junpeng Wang, Uday Singh Saini, Xin Dai, Michael Yeh, Yujie Fan, Zhongfang Zhuang, Shubham Jain, Liang Wang, Wei Zhang

Появление предобученных моделей существенно повлияло на различные области, от обработки естественного языка (NLP) и компьютерного зрения до работы с реляционными наборами данных. Традиционно такие модели оцениваются через тонкую настройку на последующих задачах. Однако это поднимает вопрос о том, как оценивать эти модели более эффективно и результативно. В данном исследовании мы изучаем новый подход, в котором используем мета-признаки, связанные с каждой сущностью, как источник знаний о мире, а также применяем представления сущностей, полученные из моделей. Мы предлагаем использовать согласованность между этими представлениями и мета-признаками в качестве метрики для оценки предобученных моделей. Эффективность нашего метода демонстрируется в различных областях, включая модели с реляционными наборами данных, крупные языковые модели и модели для работы с изображениями.

AGG: Амортизированные генеративные 3D-гауссовы распределения для преобразования одного изображения в 3D
AGG: Amortized Generative 3D Gaussians for Single Image to 3D

Jan 8

ByDejia Xu, Ye Yuan, Morteza Mardani, Sifei Liu, Jiaming Song, Zhangyang Wang, Arash Vahdat

Учитывая растущую потребность в автоматизированных конвейерах создания 3D-контента, различные 3D-представления были изучены для генерации 3D-объектов из одного изображения. Благодаря своей превосходной эффективности рендеринга, модели на основе 3D-гауссовых сплатов (3D Gaussian splatting) недавно показали выдающиеся результаты как в 3D-реконструкции, так и в генерации. Подходы, использующие 3D-гауссовы сплаты для генерации 3D из изображения, часто основаны на оптимизации, требующей множества вычислительно затратных шагов дистилляции оценок. Чтобы преодолеть эти трудности, мы представляем амортизированный генеративный фреймворк 3D-гауссовых сплатов (AGG), который мгновенно создает 3D-гауссовы сплаты из одного изображения, устраняя необходимость оптимизации для каждого отдельного экземпляра. Используя промежуточное гибридное представление, AGG разделяет генерацию местоположений 3D-гауссовых сплатов и других атрибутов внешнего вида для совместной оптимизации. Кроме того, мы предлагаем каскадный конвейер, который сначала генерирует грубое представление 3D-данных, а затем повышает его детализацию с помощью модуля супер-разрешения на основе 3D-гауссовых сплатов. Наш метод сравнивается с существующими оптимизационными фреймворками на основе 3D-гауссовых сплатов и конвейерами, использующими другие 3D-представления, где AGG демонстрирует конкурентоспособные способности генерации как качественно, так и количественно, при этом работая на несколько порядков быстрее. Страница проекта: https://ir1d.github.io/AGG/

Технический отчет по TeleChat
TeleChat Technical Report

Jan 8

ByZihan Wang, Xinzhang Liu, Shixuan Liu, Yitong Yao, Yuyao Huang, Zhongjiang He, Xuelong Li, Yongxiang Li, Zhonghao Che, Zhaoxi Zhang, Yan Wang, Xin Wang, Luwen Pu, Huihan Xu, Ruiyu Fang, Yu Zhao, Jie Zhang, Xiaomeng Huang, Zhilong Lu, Jiaxin Peng, Wenjun Zheng, Shiquan Wang, Bingkai Yang, Xuewei he, Zhuoru Jiang, Qiyi Xie, Yanhan Zhang, Zhongqiu Li, Lingling Shi, Weiwei Fu, Yin Zhang, Zilu Huang, Sishi Xiong, Yuxiang Zhang, Chao Wang, Shuangyong Song

В данном техническом отчете мы представляем TeleChat — набор крупных языковых моделей (LLM) с параметрами 3 миллиарда, 7 миллиардов и 12 миллиардов. Он включает предобученные языковые модели, а также дообученные чат-модели, согласованные с человеческими предпочтениями. TeleChat изначально предобучается на обширном корпусе, содержащем разнообразные тексты на английском и китайском языках, включая триллионы токенов. Впоследствии модель проходит дообучение для согласования с человеческими предпочтениями, следуя детально описанной методологии. Мы оцениваем производительность TeleChat на различных задачах, включая понимание языка, математику, логическое мышление, генерацию кода и ответы на вопросы, основанные на знаниях. Наши результаты показывают, что TeleChat демонстрирует сопоставимую производительность с другими открытыми моделями аналогичного размера на широком спектре публичных бенчмарков. Для поддержки будущих исследований и приложений, использующих LLM, мы публикуем для сообщества контрольные точки дообученных моделей TeleChat с параметрами 7B и 12B, а также код и часть наших данных предобучения.

От 4K до 400K: Расширение контекста языковых моделей с помощью активационных маяков
Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon

Jan 7

ByPeitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng Dou