Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Самостоятельное выравнивание с помощью обратного перевода инструкций
Self-Alignment with Instruction Backtranslation

Aug 11, 2023

Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston, Mike Lewis

423

Мы представляем масштабируемый метод создания высококачественной языковой модели, способной следовать инструкциям, путем автоматической разметки текстов, написанных человеком, соответствующими инструкциями. Наш подход, названный обратным переводом инструкций, начинается с языковой модели, дообученной на небольшом объеме начальных данных, и заданного веб-корпуса. Начальная модель используется для создания обучающих примеров путем генерации инструкций для веб-документов (самоаугментация) и последующего отбора высококачественных примеров из этих кандидатов (самокурация). Эти данные затем используются для дообучения более мощной модели. Дообучение модели LLaMa на двух итерациях нашего подхода позволяет получить модель, которая превосходит все другие модели на основе LLaMa в рейтинге Alpaca, не полагаясь на данные дистилляции, демонстрируя высокоэффективное самонастраивание.

PIPPA: Частично синтетический набор данных для диалоговых систем
PIPPA: A Partially Synthetic Conversational Dataset

Aug 11, 2023

Tear Gosling, Alpin Dale, Yinhe Zheng

322

С появлением все более мощных больших языковых моделей наблюдается растущий интерес к их использованию для приложений, связанных с неформальным общением и ролевыми играми. Однако существующие наборы данных для диалогов и ролевых игр часто не отражают разнообразные и тонкие взаимодействия, которые обычно демонстрируют участники ролевых игр в реальном мире. Чтобы устранить это ограничение и внести вклад в быстро развивающуюся область, мы представляем частично синтетический набор данных под названием PIPPA (Personal Interaction Pairs between People and AI — Пары личных взаимодействий между людьми и ИИ). PIPPA является результатом краудсорсингового проекта, организованного сообществом энтузиастов ролевых игр. Набор данных включает более 1 миллиона реплик, распределенных по 26 000 сессий диалогов, и предоставляет богатый ресурс для исследователей и разработчиков ИИ, позволяющий изучать и совершенствовать системы диалогового ИИ в контексте ролевых сценариев.

Композируемые расширения, сохраняющие функциональность для архитектур трансформаторов
Composable Function-preserving Expansions for Transformer Architectures

Aug 11, 2023

Andrea Gesmundo, Kaitlin Maile

201

Обучение современных нейронных сетей требует значительных затрат вычислительных ресурсов и времени. Масштаб модели признан критическим фактором для достижения и улучшения современных результатов. Увеличение масштаба нейронной сети обычно требует перезапуска с нуля, включая случайную инициализацию всех параметров модели, так как это подразумевает изменение параметров архитектуры, что не позволяет напрямую переносить знания из моделей меньшего размера. В данной работе мы предлагаем шесть композиционных преобразований для постепенного увеличения размера трансформерных нейронных сетей с сохранением функциональности, что позволяет расширять возможности модели по мере необходимости. Мы предоставляем доказательства точного сохранения функции при минимальных ограничениях на инициализацию для каждого преобразования. Предложенные методы могут обеспечить эффективные конвейеры обучения для более крупных и мощных моделей за счёт постепенного расширения архитектуры в процессе обучения.

BOLAA: Бенчмаркинг и Оркестрация Автономных Агентов, Усиленных Большими Языковыми Моделями
BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents

Aug 11, 2023

Zhiwei Liu, Weiran Yao, Jianguo Zhang, Le Xue, Shelby Heinecke, Rithesh Murthy, Yihao Feng, Zeyuan Chen, Juan Carlos Niebles, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese

192

Огромные успехи крупных языковых моделей (LLM) стимулируют активное исследование автономных агентов, усиленных LLM (LAA). LAA способен генерировать действия с использованием своей основной LLM и взаимодействовать с окружающей средой, что позволяет решать сложные задачи, учитывая прошлые взаимодействия, такие как наблюдения и действия. Поскольку исследование LAA является весьма новым, доступно ограниченное количество исследований. Поэтому мы предоставляем всестороннее сравнение LAA с точки зрения как архитектур агентов, так и базовых LLM. Кроме того, мы предлагаем новую стратегию для координации нескольких LAA, при которой каждый отдельный LAA фокусируется на одном типе действий, т.е. BOLAA, где контроллер управляет взаимодействием между несколькими агентами. Мы проводим симуляции в средах, связанных с принятием решений и многошаговым рассуждением, что всесторонне подтверждает возможности LAA. Наши результаты производительности предоставляют количественные рекомендации для проектирования архитектур LAA, оптимального выбора LLM, а также их совместимости. Мы публикуем наш код реализации LAA в открытый доступ по адресу https://github.com/salesforce/BOLAA.

Улучшение совместных речевых и текстовых представлений без выравнивания
Improving Joint Speech-Text Representations Without Alignment

Aug 11, 2023

Cal Peyser, Zhong Meng, Ke Hu, Rohit Prabhavalkar, Andrew Rosenberg, Tara N. Sainath, Michael Picheny, Kyunghyun Cho

За последний год был достигнут впечатляющий прогресс в генерации изображений на основе текстовых запросов, основанной на идее кросс-модального пространства представлений, в котором текстовые и визуальные домены представлены совместно. В области автоматического распознавания речи (ASR) эта идея нашла применение в виде совместных кодировщиков речи и текста, которые могут масштабироваться до возможностей моделей с очень большим количеством параметров благодаря обучению на непарных данных речи и текста. Хотя эти методы демонстрируют перспективность, они требуют специального подхода к обработке несоответствия длины последовательностей, присущего речи и тексту, либо с помощью эвристик повышения частоты дискретизации, либо с использованием явной модели выравнивания. В данной работе мы предоставляем доказательства того, что совместные кодировщики речи и текста естественным образом достигают согласованных представлений между модальностями, игнорируя длину последовательностей, и утверждаем, что функции потерь на согласованность могут прощать различия в длине и просто предполагать наилучшее выравнивание. Мы показываем, что такая функция потерь улучшает показатель WER (Word Error Rate) как в крупнопараметрической монолингвальной, так и в многоязычной системе.

Улучшение управления сетями с использованием кода, создаваемого большими языковыми моделями
Enhancing Network Management Using Code Generated by Large Language Models

Aug 11, 2023

Sathiya Kumaran Mani, Yajie Zhou, Kevin Hsieh, Santiago Segarra, Ranveer Chandra, Srikanth Kandula

Анализ топологий сетей и графов коммуникаций играет ключевую роль в современном управлении сетями. Однако отсутствие единого подхода приводит к сложному процессу обучения, увеличению ошибок и неэффективности. В данной статье мы представляем новый подход, который облегчает управление сетями с использованием естественного языка, применяя большие языковые модели (LLM) для генерации специализированного кода на основе запросов на естественном языке. Этот метод решает проблемы объяснимости, масштабируемости и конфиденциальности, позволяя сетевым операторам проверять сгенерированный код, устраняя необходимость делиться сетевыми данными с LLM и фокусируясь на прикладных запросах в сочетании с общими методами синтеза программ. Мы разрабатываем и оцениваем прототип системы с использованием эталонных приложений, демонстрируя высокую точность, экономическую эффективность и потенциал для дальнейших улучшений с использованием дополнительных методов синтеза программ.

Улучшение совместных речевых и текстовых представлений без выравнивания
Improving Joint Speech-Text Representations Without Alignment

Aug 11, 2023

Cal Peyser, Zhong Meng, Ke Hu, Rohit Prabhavalkar, Andrew Rosenberg, Tara N. Sainath, Michael Picheny, Kyunghyun Cho

Ежедневные статьи

Самостоятельное выравнивание с помощью обратного перевода инструкций
Self-Alignment with Instruction Backtranslation

PIPPA: Частично синтетический набор данных для диалоговых систем
PIPPA: A Partially Synthetic Conversational Dataset

Композируемые расширения, сохраняющие функциональность для архитектур трансформаторов
Composable Function-preserving Expansions for Transformer Architectures

BOLAA: Бенчмаркинг и Оркестрация Автономных Агентов, Усиленных Большими Языковыми Моделями
BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents

Улучшение совместных речевых и текстовых представлений без выравнивания
Improving Joint Speech-Text Representations Without Alignment

Улучшение управления сетями с использованием кода, создаваемого большими языковыми моделями
Enhancing Network Management Using Code Generated by Large Language Models

Support

Support

Ежедневные статьи

Самостоятельное выравнивание с помощью обратного перевода инструкций
Self-Alignment with Instruction Backtranslation

PIPPA: Частично синтетический набор данных для диалоговых систем
PIPPA: A Partially Synthetic Conversational Dataset

Композируемые расширения, сохраняющие функциональность для архитектур трансформаторов
Composable Function-preserving Expansions for Transformer Architectures

BOLAA: Бенчмаркинг и Оркестрация Автономных Агентов, Усиленных Большими Языковыми Моделями
BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents

Улучшение совместных речевых и текстовых представлений без выравнивания
Improving Joint Speech-Text Representations Without Alignment

Улучшение управления сетями с использованием кода, создаваемого большими языковыми моделями
Enhancing Network Management Using Code Generated by Large Language Models