Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем LongLoRA, эффективный подход тонкой настройки, который расширяет размеры контекста предварительно обученных больших языковых моделей (LLM) при ограниченных вычислительных затратах. Обычно обучение LLM с длинными контекстами требует значительных вычислительных ресурсов, включая длительное время обучения и использование GPU. Например, обучение с длиной контекста 8192 требует в 16 раз больше вычислительных затрат в слоях самовнимания по сравнению с длиной контекста 2048. В данной работе мы ускоряем расширение контекста LLM в двух аспектах. С одной стороны, хотя плотное глобальное внимание необходимо во время вывода, тонкую настройку модели можно эффективно и экономно выполнить с помощью разреженного локального внимания. Предложенное сдвиговое короткое внимание эффективно позволяет расширить контекст, что приводит к значительной экономии вычислений при сохранении производительности, сравнимой с тонкой настройкой с использованием стандартного внимания. В частности, его можно реализовать всего двумя строками кода во время обучения, при этом оно остается необязательным во время вывода. С другой стороны, мы пересматриваем режим параметрически эффективной тонкой настройки для расширения контекста. В частности, мы обнаруживаем, что LoRA для расширения контекста хорошо работает при условии обучаемых встраиваний и нормализации. LongLoRA демонстрирует убедительные эмпирические результаты на различных задачах для моделей LLaMA2 от 7B/13B до 70B. LongLoRA адаптирует LLaMA2 7B от контекста 4k до 100k или LLaMA2 70B до 32k на одной машине с 8x A100. LongLoRA расширяет контекст моделей, сохраняя их исходные архитектуры, и совместим с большинством существующих технологий, таких как FlashAttention-2. Кроме того, чтобы сделать LongLoRA практичным, мы собрали набор данных LongQA для контролируемой тонкой настройки. Он содержит более 3k пар вопросов и ответов с длинным контекстом.
Transformer впервые появился в области обработки естественного языка и впоследствии был перенесён в область компьютерного зрения, где продемонстрировал выдающиеся результаты в задачах зрения. Однако недавно Retentive Network (RetNet) появилась как архитектура, способная заменить Transformer, привлекая широкое внимание в сообществе NLP. Поэтому мы задаёмся вопросом: может ли перенос идей RetNet в область зрения также привести к выдающимся результатам в задачах зрения? Чтобы ответить на этот вопрос, мы объединяем RetNet и Transformer, предлагая RMT. Вдохновлённый RetNet, RMT вводит явное затухание в основу модели зрения, добавляя априорные знания, связанные с пространственными расстояниями, в модель зрения. Этот пространственный априор, связанный с расстоянием, позволяет явно контролировать диапазон токенов, к которым каждый токен может обращаться. Кроме того, чтобы снизить вычислительную стоимость глобального моделирования, мы разлагаем этот процесс моделирования по двум координатным осям изображения. Многочисленные эксперименты показали, что наш RMT демонстрирует исключительную производительность в различных задачах компьютерного зрения. Например, RMT достигает 84,1% Top1-acc на ImageNet-1k, используя всего 4,5G FLOPs. Насколько нам известно, среди всех моделей RMT достигает наивысшего Top1-acc при схожем размере моделей и одинаковой стратегии обучения. Более того, RMT значительно превосходит существующие основы моделей зрения в таких задачах, как обнаружение объектов, сегментация экземпляров и семантическая сегментация. Наша работа всё ещё продолжается.
Генеративные большие языковые модели (LLM) достигли значительных успехов в различных задачах обработки естественного языка (NLP). Однако эти достижения не нашли отражения в задаче перевода, особенно для моделей умеренного размера (например, с 7B или 13B параметрами), которые по-прежнему отстают от традиционных моделей перевода с контролируемым кодировщиком-декодировщиком. Предыдущие исследования пытались улучшить способности таких моделей к переводу, но их успехи были ограниченными. В данной работе мы предлагаем новый подход к тонкой настройке LLM, специально разработанный для задачи перевода, который устраняет необходимость в большом объеме параллельных данных, обычно используемых традиционными моделями перевода. Наш подход включает два этапа тонкой настройки: начальную настройку на монолингвальных данных с последующей настройкой на небольшом наборе высококачественных параллельных данных. Мы представляем LLM, разработанную с использованием этой стратегии, как Advanced Language Model-based trAnslator (ALMA). На основе модели LLaMA-2 наши результаты показывают, что модель может достичь среднего улучшения более чем на 12 BLEU и 12 COMET по сравнению с её нулевым сценарием (zero-shot) в 10 направлениях перевода на тестовых наборах данных WMT'21 (2 направления) и WMT'22 (8 направлений). Производительность значительно превосходит все предыдущие работы и даже превосходит модель NLLB-54B и GPT-3.5-text-davinci-003, имея всего 7B или 13B параметров. Этот метод закладывает основу для новой парадигмы обучения в машинном переводе.
Изучение того, как люди взаимодействуют с большими языковыми моделями (LLM) в реальных сценариях, становится все более важным из-за их широкого использования в различных приложениях. В этой статье мы представляем LMSYS-Chat-1M — крупномасштабный набор данных, содержащий один миллион реальных диалогов с 25 современными LLM. Этот набор данных был собран с 210 тысяч уникальных IP-адресов в естественной среде на нашем демо-сайте Vicuna и платформе Chatbot Arena. Мы предоставляем обзор содержания набора данных, включая процесс его формирования, базовую статистику и распределение тем, подчеркивая его разнообразие, оригинальность и масштаб. Мы демонстрируем его универсальность через четыре примера использования: разработку моделей модерации контента, сопоставимых по производительности с GPT-4, создание тестового набора для оценки безопасности, обучение моделей, следующих инструкциям, с производительностью, аналогичной Vicuna, и создание сложных тестовых вопросов. Мы считаем, что этот набор данных станет ценным ресурсом для понимания и развития возможностей LLM. Набор данных доступен публично по адресу: https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
Крупные языковые модели (LLM) расширили границы понимания естественного языка и продемонстрировали превосходные способности в решении задач. Однако, несмотря на значительные успехи, большинство существующих открытых LLM (например, LLaMA-2) всё ещё далеки от удовлетворительных результатов в решении математических задач из-за сложных процедур логического рассуждения. Чтобы устранить этот разрыв, мы предлагаем MetaMath — тонко настроенную языковую модель, специализирующуюся на математических рассуждениях. В частности, мы начинаем с создания математических вопросов путём переформулирования задач с различных точек зрения без использования дополнительных знаний, что приводит к созданию нового набора данных под названием {MetaMathQA}. Затем мы тонко настраиваем модели LLaMA-2 на основе MetaMathQA. Результаты экспериментов на двух популярных тестовых наборах (а именно GSM8K и MATH) для математических рассуждений показывают, что MetaMath значительно превосходит ряд открытых LLM. Наша модель MetaMath-7B достигает 66,4% на GSM8K и 19,4% на MATH, превышая показатели современных моделей того же размера на 11,5% и 8,7% соответственно. В частности, {MetaMath-70B} достигает точности 82,3% на {GSM8K}, что немного лучше, чем у {GPT-3.5-Turbo}. Мы публикуем набор данных {MetaMathQA}, модели {MetaMath} различных размеров и обучающий код для общего использования.
3D визуальное заземление является критически важным навыком для бытовых роботов, позволяя им ориентироваться, манипулировать объектами и отвечать на вопросы на основе окружающей среды. В то время как существующие подходы часто полагаются на обширные размеченные данные или демонстрируют ограничения в обработке сложных языковых запросов, мы предлагаем LLM-Grounder — новый метод нулевого снимка с открытым словарным запасом, основанный на использовании больших языковых моделей (LLM) для 3D визуального заземления. LLM-Grounder использует LLM для декомпозиции сложных естественно-языковых запросов на семантические составляющие и применяет инструмент визуального заземления, такой как OpenScene или LERF, для идентификации объектов в 3D сцене. Затем LLM оценивает пространственные и общепринятые отношения между предложенными объектами, чтобы принять окончательное решение о заземлении. Наш метод не требует размеченных обучающих данных и может обобщаться на новые 3D сцены и произвольные текстовые запросы. Мы оцениваем LLM-Grounder на бенчмарке ScanRefer и демонстрируем передовую точность заземления в условиях нулевого снимка. Наши результаты показывают, что LLM значительно улучшают способность к заземлению, особенно для сложных языковых запросов, что делает LLM-Grounder эффективным подходом для задач 3D зрения и языка в робототехнике. Видео и интерактивные демонстрации можно найти на сайте проекта https://chat-with-nerf.github.io/.
В данной работе мы представляем Boolformer — первую архитектуру Transformer, обученную для выполнения сквозной символьной регрессии булевых функций. Сначала мы показываем, что она способна предсказывать компактные формулы для сложных функций, которые не встречались во время обучения, при наличии чистой таблицы истинности. Затем мы демонстрируем её способность находить приближённые выражения при наличии неполных и зашумлённых наблюдений. Мы оцениваем Boolformer на широком наборе реальных наборов данных для бинарной классификации, демонстрируя его потенциал в качестве интерпретируемой альтернативы классическим методам машинного обучения. Наконец, мы применяем его к широко распространённой задаче моделирования динамики генетических регуляторных сетей. Используя недавний бенчмарк, мы показываем, что Boolformer конкурентоспособен с современными генетическими алгоритмами, при этом обеспечивая ускорение на несколько порядков. Наш код и модели доступны публично.
Мы представляем языковую модель Bittensor под названием "BTLM-3B-8K" — новую передовую открытую языковую модель с 3 миллиардами параметров. BTLM-3B-8K была обучена на 627 миллиардах токенов из набора данных SlimPajama с использованием смеси контекстных длин 2,048 и 8,192. BTLM-3B-8K превосходит все существующие модели с 3 миллиардами параметров на 2–5,5% в различных задачах. Более того, BTLM-3B-8K конкурирует с некоторыми моделями, имеющими 7 миллиардов параметров. Модель также демонстрирует выдающуюся производительность при работе с длинным контекстом, превосходя MPT-7B-8K и XGen-7B-8K в задачах с длиной контекста до 8,192 токенов. Мы обучили модель на очищенном и дедуплицированном наборе данных SlimPajama, тщательно настроили гиперпараметры \textmu P и график обучения, использовали позиционные эмбеддинги ALiBi и применили нелинейность SwiGLU. На платформе Hugging Face наиболее популярные модели имеют 7 миллиардов параметров, что указывает на предпочтение пользователями баланса качества и размера, характерного для моделей такого масштаба. Сжатие модели с 7 миллиардами параметров до 3 миллиардов с минимальной потерей производительности является важным достижением. BTLM-3B-8K требует всего 3 ГБ памяти при 4-битной точности и в 2,5 раза меньше вычислительных ресурсов для вывода по сравнению с моделями на 7 миллиардов параметров, что делает мощную языковую модель доступной для использования на мобильных и периферийных устройствах. BTLM-3B-8K доступна под лицензией Apache 2.0 на Hugging Face: https://huggingface.co/cerebras/btlm-3b-8k-base.