Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем масштабируемый метод создания высококачественной языковой модели, способной следовать инструкциям, путем автоматической разметки текстов, написанных человеком, соответствующими инструкциями. Наш подход, названный обратным переводом инструкций, начинается с языковой модели, дообученной на небольшом объеме начальных данных, и заданного веб-корпуса. Начальная модель используется для создания обучающих примеров путем генерации инструкций для веб-документов (самоаугментация) и последующего отбора высококачественных примеров из этих кандидатов (самокурация). Эти данные затем используются для дообучения более мощной модели. Дообучение модели LLaMa на двух итерациях нашего подхода позволяет получить модель, которая превосходит все другие модели на основе LLaMa в рейтинге Alpaca, не полагаясь на данные дистилляции, демонстрируя высокоэффективное самонастраивание.
С появлением все более мощных больших языковых моделей наблюдается растущий интерес к их использованию для приложений, связанных с неформальным общением и ролевыми играми. Однако существующие наборы данных для диалогов и ролевых игр часто не отражают разнообразные и тонкие взаимодействия, которые обычно демонстрируют участники ролевых игр в реальном мире. Чтобы устранить это ограничение и внести вклад в быстро развивающуюся область, мы представляем частично синтетический набор данных под названием PIPPA (Personal Interaction Pairs between People and AI — Пары личных взаимодействий между людьми и ИИ). PIPPA является результатом краудсорсингового проекта, организованного сообществом энтузиастов ролевых игр. Набор данных включает более 1 миллиона реплик, распределенных по 26 000 сессий диалогов, и предоставляет богатый ресурс для исследователей и разработчиков ИИ, позволяющий изучать и совершенствовать системы диалогового ИИ в контексте ролевых сценариев.
Обучение современных нейронных сетей требует значительных затрат вычислительных ресурсов и времени. Масштаб модели признан критическим фактором для достижения и улучшения современных результатов. Увеличение масштаба нейронной сети обычно требует перезапуска с нуля, включая случайную инициализацию всех параметров модели, так как это подразумевает изменение параметров архитектуры, что не позволяет напрямую переносить знания из моделей меньшего размера. В данной работе мы предлагаем шесть композиционных преобразований для постепенного увеличения размера трансформерных нейронных сетей с сохранением функциональности, что позволяет расширять возможности модели по мере необходимости. Мы предоставляем доказательства точного сохранения функции при минимальных ограничениях на инициализацию для каждого преобразования. Предложенные методы могут обеспечить эффективные конвейеры обучения для более крупных и мощных моделей за счёт постепенного расширения архитектуры в процессе обучения.
Огромные успехи крупных языковых моделей (LLM) стимулируют активное исследование автономных агентов, усиленных LLM (LAA). LAA способен генерировать действия с использованием своей основной LLM и взаимодействовать с окружающей средой, что позволяет решать сложные задачи, учитывая прошлые взаимодействия, такие как наблюдения и действия. Поскольку исследование LAA является весьма новым, доступно ограниченное количество исследований. Поэтому мы предоставляем всестороннее сравнение LAA с точки зрения как архитектур агентов, так и базовых LLM. Кроме того, мы предлагаем новую стратегию для координации нескольких LAA, при которой каждый отдельный LAA фокусируется на одном типе действий, т.е. BOLAA, где контроллер управляет взаимодействием между несколькими агентами. Мы проводим симуляции в средах, связанных с принятием решений и многошаговым рассуждением, что всесторонне подтверждает возможности LAA. Наши результаты производительности предоставляют количественные рекомендации для проектирования архитектур LAA, оптимального выбора LLM, а также их совместимости. Мы публикуем наш код реализации LAA в открытый доступ по адресу https://github.com/salesforce/BOLAA.
За последний год был достигнут впечатляющий прогресс в генерации изображений на основе текстовых запросов, основанной на идее кросс-модального пространства представлений, в котором текстовые и визуальные домены представлены совместно. В области автоматического распознавания речи (ASR) эта идея нашла применение в виде совместных кодировщиков речи и текста, которые могут масштабироваться до возможностей моделей с очень большим количеством параметров благодаря обучению на непарных данных речи и текста. Хотя эти методы демонстрируют перспективность, они требуют специального подхода к обработке несоответствия длины последовательностей, присущего речи и тексту, либо с помощью эвристик повышения частоты дискретизации, либо с использованием явной модели выравнивания. В данной работе мы предоставляем доказательства того, что совместные кодировщики речи и текста естественным образом достигают согласованных представлений между модальностями, игнорируя длину последовательностей, и утверждаем, что функции потерь на согласованность могут прощать различия в длине и просто предполагать наилучшее выравнивание. Мы показываем, что такая функция потерь улучшает показатель WER (Word Error Rate) как в крупнопараметрической монолингвальной, так и в многоязычной системе.
Анализ топологий сетей и графов коммуникаций играет ключевую роль в современном управлении сетями. Однако отсутствие единого подхода приводит к сложному процессу обучения, увеличению ошибок и неэффективности. В данной статье мы представляем новый подход, который облегчает управление сетями с использованием естественного языка, применяя большие языковые модели (LLM) для генерации специализированного кода на основе запросов на естественном языке. Этот метод решает проблемы объяснимости, масштабируемости и конфиденциальности, позволяя сетевым операторам проверять сгенерированный код, устраняя необходимость делиться сетевыми данными с LLM и фокусируясь на прикладных запросах в сочетании с общими методами синтеза программ. Мы разрабатываем и оцениваем прототип системы с использованием эталонных приложений, демонстрируя высокую точность, экономическую эффективность и потенциал для дальнейших улучшений с использованием дополнительных методов синтеза программ.