Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Mixtral 8x7B — языковую модель, основанную на разреженной смеси экспертов (Sparse Mixture of Experts, SMoE). Mixtral имеет ту же архитектуру, что и Mistral 7B, с тем отличием, что каждый слой состоит из 8 блоков прямого распространения (экспертов). Для каждого токена на каждом слое маршрутизирующая сеть выбирает двух экспертов для обработки текущего состояния и объединяет их выходы. Хотя каждый токен взаимодействует только с двумя экспертами, выбранные эксперты могут меняться на каждом шаге. В результате каждый токен имеет доступ к 47 миллиардам параметров, но использует только 13 миллиардов активных параметров во время вывода. Mixtral обучалась с размером контекста в 32 тысячи токенов и превосходит или соответствует Llama 2 70B и GPT-3.5 на всех оцениваемых тестах. В частности, Mixtral значительно превосходит Llama 2 70B в задачах по математике, генерации кода и многоязычных тестах. Мы также предоставляем модель, дообученную для выполнения инструкций, Mixtral 8x7B - Instruct, которая превосходит GPT-3.5 Turbo, Claude-2.1, Gemini Pro и Llama 2 70B - chat model в тестах, оцениваемых людьми. Как базовая, так и инструктивная модели выпущены под лицензией Apache 2.0.
Модели пространства состояний (SSM) стали серьезными конкурентами в области последовательного моделирования, бросая вызов доминированию трансформеров. В то же время смесь экспертов (MoE) значительно улучшила трансформерные языковые модели (LLM), включая недавние передовые модели с открытым исходным кодом. Мы предлагаем, что для раскрытия потенциала SSM в масштабировании их следует комбинировать с MoE. Мы демонстрируем это на примере Mamba, недавней модели на основе SSM, которая достигает впечатляющей производительности, сравнимой с трансформерами. Наша модель, MoE-Mamba, превосходит как Mamba, так и Transformer-MoE. В частности, MoE-Mamba достигает той же производительности, что и Mamba, за 2.2 раза меньше шагов обучения, сохраняя при этом преимущества Mamba в производительности на этапе вывода по сравнению с трансформером.
В исследованиях в области диалогового ИИ наблюдается заметная тенденция к разработке моделей с большим количеством параметров, примером которых является ChatGPT. Хотя такие масштабные модели демонстрируют всё более качественные ответы в чате, они требуют значительных вычислительных ресурсов и памяти. В данном исследовании рассматривается важный вопрос: может ли комбинация более компактных моделей совместно достичь сопоставимой или даже превосходящей производительности по сравнению с одной крупной моделью? Мы представляем подход под названием "смешивание" — простой, но эффективный метод интеграции нескольких чат-ботов. Наши эмпирические данные показывают, что при синергетическом смешивании определённых небольших моделей они могут потенциально превзойти или соответствовать возможностям гораздо более крупных аналогов. Например, объединение всего трёх моделей умеренного размера (6B/13B параметров) может конкурировать или даже превосходить показатели производительности значительно более крупной модели, такой как ChatGPT (175B+ параметров). Эта гипотеза тщательно проверяется с использованием методологии A/B-тестирования на большой пользовательской базе платформы Chai Research в течение тридцати дней. Результаты подчеркивают потенциал стратегии "смешивания" как жизнеспособного подхода для повышения эффективности чат-ботов без соответствующего увеличения вычислительных затрат.
Использование длинных контекстов представляет собой серьезную проблему для больших языковых моделей из-за ограниченной длины их контекстного окна. Хотя контекстное окно можно расширить с помощью тонкой настройки, это приведет к значительным затратам как на этапе обучения, так и на этапе вывода, а также негативно повлияет на исходные возможности модели. В данной работе мы предлагаем Activation Beacon, который сжимает исходные активации языковой модели в более компактные формы, что позволяет воспринимать значительно более длинный контекст при ограниченном размере окна. Activation Beacon представлен как модуль plug-and-play для языковой модели. Он полностью сохраняет исходные возможности модели на коротких контекстах, одновременно расширяя её способность обрабатывать более длинные контексты. Кроме того, он работает с короткими скользящими окнами для обработки длинного контекста, что обеспечивает конкурентоспособную эффективность по памяти и времени как на этапе обучения, так и на этапе вывода. Activation Beacon обучается на задаче авторегрессии, учитывающей смесь маяков с различными коэффициентами сжатия. Благодаря такому подходу, его можно эффективно обучить исключительно на данных с короткими последовательностями всего за 10 тысяч шагов, что занимает менее 9 часов на одной машине с 8 GPU A800. Экспериментальные исследования показывают, что Activation Beacon способен увеличить длину контекста модели Llama-2-7B в 100 раз (с 4K до 400K), одновременно демонстрируя превосходные результаты как в задачах генерации, так и в задачах понимания длинных контекстов. Наша модель и код будут доступны в репозитории BGE.
Несмотря на недавние достижения в методах генерации 3D-моделей из текста, наблюдается заметное отсутствие надежных метрик оценки. Существующие метрики обычно сосредоточены на одном критерии, например, на том, насколько хорошо модель соответствует входному тексту. Эти метрики не обладают гибкостью для обобщения на различные критерии оценки и могут не соответствовать человеческим предпочтениям. Проведение исследований с участием пользователей является альтернативой, которая предлагает как адаптивность, так и результаты, согласованные с человеческими предпочтениями. Однако пользовательские исследования могут быть очень дорогостоящими для масштабирования. В данной статье представлена автоматическая, универсальная и согласованная с человеческими предпочтениями метрика оценки для моделей генерации 3D-моделей из текста. Для этого мы сначала разрабатываем генератор подсказок с использованием GPT-4V для создания оценочных подсказок, которые служат входными данными для сравнения моделей генерации 3D-моделей из текста. Далее мы разрабатываем метод, который инструктирует GPT-4V сравнивать две 3D-модели в соответствии с пользовательскими критериями. Наконец, мы используем результаты попарного сравнения для присвоения этим моделям рейтингов Elo. Экспериментальные результаты показывают, что наша метрика сильно согласуется с человеческими предпочтениями при различных критериях оценки.
В данной статье мы представляем DiarizationLM — фреймворк, который использует большие языковые модели (LLM) для постобработки результатов системы диаризации говорящих. С помощью предложенного фреймворка можно достичь различных целей, таких как улучшение читаемости диаризованной расшифровки или снижение частоты ошибок диаризации слов (WDER). В этом фреймворке выходы системы автоматического распознавания речи (ASR) и системы диаризации представляются в компактном текстовом формате, который включается в промпт для опционально дообученной LLM. Выходы LLM могут использоваться как уточненные результаты диаризации с желаемыми улучшениями. В качестве шага постобработки этот фреймворк может быть легко применен к любым готовым системам ASR и диаризации без необходимости переобучения существующих компонентов. Наши эксперименты показывают, что дообученная модель PaLM 2-S может снизить WDER на 25,9% относительно базового уровня на наборе данных телефонных разговоров Fisher и на 31% на наборе данных Callhome English.
Крупные языковые модели (LLMs) достигли значительных успехов в задачах, связанных с кодом, однако многие из них обрабатывают код как простые последовательности, игнорируя его структурированную природу. Мы представляем AST-T5 — новую парадигму предварительного обучения, которая использует абстрактное синтаксическое дерево (AST) для улучшенной генерации, трансляции и понимания кода. Наш метод AST-Aware Segmentation, основанный на динамическом программировании, сохраняет структуру кода, а задача AST-Aware Span Corruption позволяет модели восстанавливать различные структуры кода. В отличие от других моделей, AST-T5 не требует сложного анализа программ или изменений архитектуры, что позволяет ей легко интегрироваться с любым кодировщиком-декодировщиком на основе Transformer. Оценки показывают, что AST-T5 стабильно превосходит языковые модели аналогичного размера в различных задачах, связанных с кодом. Осознание структуры делает AST-T5 особенно эффективной в задачах преобразования кода, превосходя CodeT5 на 2 балла по точному совпадению в задаче Bugs2Fix и на 3 балла в задаче трансляции Java-C# в CodeXGLUE. Наш код и модель доступны по адресу https://github.com/gonglinyuan/ast_t5.
Мы представляем CRUXEval (Code Reasoning, Understanding, and eXecution Evaluation) — эталонный набор, состоящий из 800 функций на Python (3–13 строк). Каждая функция сопровождается парой входных и выходных данных, что формирует две естественные задачи: предсказание входных данных и предсказание выходных данных. Во-первых, мы предлагаем универсальный метод для создания нашего эталонного набора, который может быть использован для разработки его будущих вариаций. Во-вторых, мы оцениваем двадцать моделей обработки кода на нашем эталоне и обнаруживаем, что многие недавние модели, демонстрирующие высокие результаты на HumanEval, не показывают аналогичного улучшения на нашем наборе. В-третьих, мы показываем, что простые схемы с использованием цепочки рассуждений (CoT) и тонкой настройки могут улучшить производительность на нашем эталоне, но всё ещё далеки от его полного решения. Лучшая конфигурация, GPT-4 с цепочкой рассуждений (CoT), достигает показателя pass@1 в 75% и 81% для предсказания входных и выходных данных соответственно. В то же время Code Llama 34B достигает pass@1 в 50% и 46% для предсказания входных и выходных данных, что подчеркивает разрыв между открытыми и закрытыми моделями. Поскольку ни одна модель не близка к идеальному выполнению CRUXEval, мы приводим примеры устойчивых ошибок GPT-4 на простых программах, чтобы лучше понять его способности к анализу кода и выявить области для улучшения.
Появление предобученных моделей существенно повлияло на различные области, от обработки естественного языка (NLP) и компьютерного зрения до работы с реляционными наборами данных. Традиционно такие модели оцениваются через тонкую настройку на последующих задачах. Однако это поднимает вопрос о том, как оценивать эти модели более эффективно и результативно. В данном исследовании мы изучаем новый подход, в котором используем мета-признаки, связанные с каждой сущностью, как источник знаний о мире, а также применяем представления сущностей, полученные из моделей. Мы предлагаем использовать согласованность между этими представлениями и мета-признаками в качестве метрики для оценки предобученных моделей. Эффективность нашего метода демонстрируется в различных областях, включая модели с реляционными наборами данных, крупные языковые модели и модели для работы с изображениями.
Учитывая растущую потребность в автоматизированных конвейерах создания 3D-контента, различные 3D-представления были изучены для генерации 3D-объектов из одного изображения. Благодаря своей превосходной эффективности рендеринга, модели на основе 3D-гауссовых сплатов (3D Gaussian splatting) недавно показали выдающиеся результаты как в 3D-реконструкции, так и в генерации. Подходы, использующие 3D-гауссовы сплаты для генерации 3D из изображения, часто основаны на оптимизации, требующей множества вычислительно затратных шагов дистилляции оценок. Чтобы преодолеть эти трудности, мы представляем амортизированный генеративный фреймворк 3D-гауссовых сплатов (AGG), который мгновенно создает 3D-гауссовы сплаты из одного изображения, устраняя необходимость оптимизации для каждого отдельного экземпляра. Используя промежуточное гибридное представление, AGG разделяет генерацию местоположений 3D-гауссовых сплатов и других атрибутов внешнего вида для совместной оптимизации. Кроме того, мы предлагаем каскадный конвейер, который сначала генерирует грубое представление 3D-данных, а затем повышает его детализацию с помощью модуля супер-разрешения на основе 3D-гауссовых сплатов. Наш метод сравнивается с существующими оптимизационными фреймворками на основе 3D-гауссовых сплатов и конвейерами, использующими другие 3D-представления, где AGG демонстрирует конкурентоспособные способности генерации как качественно, так и количественно, при этом работая на несколько порядков быстрее. Страница проекта: https://ir1d.github.io/AGG/
В данном техническом отчете мы представляем TeleChat — набор крупных языковых моделей (LLM) с параметрами 3 миллиарда, 7 миллиардов и 12 миллиардов. Он включает предобученные языковые модели, а также дообученные чат-модели, согласованные с человеческими предпочтениями. TeleChat изначально предобучается на обширном корпусе, содержащем разнообразные тексты на английском и китайском языках, включая триллионы токенов. Впоследствии модель проходит дообучение для согласования с человеческими предпочтениями, следуя детально описанной методологии. Мы оцениваем производительность TeleChat на различных задачах, включая понимание языка, математику, логическое мышление, генерацию кода и ответы на вопросы, основанные на знаниях. Наши результаты показывают, что TeleChat демонстрирует сопоставимую производительность с другими открытыми моделями аналогичного размера на широком спектре публичных бенчмарков. Для поддержки будущих исследований и приложений, использующих LLM, мы публикуем для сообщества контрольные точки дообученных моделей TeleChat с параметрами 7B и 12B, а также код и часть наших данных предобучения.