Ежедневно отобранные исследовательские статьи по ИИ с переводами
Языковые модели (ЯМ) стали повсеместными как в исследованиях в области обработки естественного языка (NLP), так и в коммерческих продуктах. По мере роста их коммерческой значимости наиболее мощные модели стали закрытыми, доступ к которым ограничен проприетарными интерфейсами, а важные детали их обучающих данных, архитектур и разработки остаются нераскрытыми. Учитывая важность этих деталей для научного изучения таких моделей, включая их предубеждения и потенциальные риски, мы считаем, что исследовательскому сообществу крайне необходим доступ к мощным, по-настоящему открытым ЯМ. В связи с этим данный технический отчет описывает первый релиз OLMo — современной, полностью открытой языковой модели, а также её фреймворка для создания и изучения науки о языковом моделировании. В отличие от большинства предыдущих усилий, которые ограничивались выпуском весов моделей и кода для вывода, мы публикуем OLMo и весь фреймворк, включая обучающие данные, а также код для обучения и оценки. Мы надеемся, что этот релиз укрепит и расширит возможности открытого исследовательского сообщества и вдохновит на новую волну инноваций.
Языковые модели стали ключевой технологией для решения широкого спектра задач обработки естественного языка, однако многие детали о том, как разрабатывались наиболее эффективные модели, остаются нераскрытыми. В частности, информация о корпусах данных, используемых для их предварительного обучения, обсуждается крайне редко: коммерческие языковые модели редко предоставляют какие-либо сведения о своих данных; даже открытые модели редко публикуют наборы данных, на которых они обучаются, или точные инструкции для их воспроизведения. В результате становится сложно проводить определённые направления исследований в области языкового моделирования, такие как изучение того, как обучающие данные влияют на возможности моделей и формируют их ограничения. Чтобы способствовать открытым исследованиям в области предварительного обучения языковых моделей, мы представляем Dolma — корпус английского текста объёмом три триллиона токенов, созданный из разнообразных источников, включая веб-контент, научные статьи, код, книги, находящиеся в общественном достоянии, материалы из социальных сетей и энциклопедий. Кроме того, мы открываем исходный код нашего инструментария для обработки данных, чтобы обеспечить возможность дальнейших экспериментов и воспроизведения нашей работы. В этом отчёте мы подробно описываем Dolma, включая принципы её разработки, детали создания и обзор её содержания. Мы дополняем отчёт анализом и экспериментальными результатами, полученными при обучении языковых моделей на промежуточных версиях Dolma, чтобы поделиться нашими выводами о важных практиках обработки данных, таких как роль фильтров по содержанию или качеству, дедупликация и смешивание данных из различных источников. Dolma использовалась для обучения OLMo — современной открытой языковой модели и фреймворка, предназначенного для разработки и изучения науки языкового моделирования.
Мы представляем CroissantLLM — языковую модель с 1,3 миллиардами параметров, предобученную на наборе из 3 триллионов токенов на английском и французском языках, чтобы предложить исследовательскому и промышленному сообществу высокопроизводительную, полностью открытую двуязычную модель, которая быстро работает на потребительском оборудовании. Для этого мы разработали подход к обучению изначально двуязычной модели с соотношением данных для предобучения 1:1 (английский к французскому), использованием специального токенизатора и двуязычных наборов данных для тонкой настройки. Мы публикуем набор данных для обучения, включающий французский сегмент с тщательно отобранными, высококачественными и разнообразными источниками данных. Для оценки производительности за пределами английского языка мы создали новый бенчмарк FrenchBench, состоящий из набора задач классификации и генерации, охватывающих различные аспекты производительности модели на французском языке. Кроме того, в духе прозрачности и для стимулирования дальнейших исследований в области больших языковых моделей, мы публикуем кодовые базы, десятки контрольных точек для моделей различных размеров, распределений обучающих данных и этапов обучения, а также тонко настроенные чат-модели и мощные модели перевода. Мы оцениваем нашу модель с помощью фреймворка FMTI и подтверждаем выполнение 81% критериев прозрачности, что значительно превышает показатели даже большинства открытых инициатив. Эта работа обогащает ландшафт NLP, отходя от предыдущих англоцентричных исследований, чтобы углубить наше понимание многоязычия в языковых моделях.
Понимание контекста является ключевым для понимания человеческого языка, способность, которую крупные языковые модели (LLM) демонстрируют всё более впечатляющим образом. Однако, хотя оценка LLM охватывает различные области в рамках обработки естественного языка, ограниченное внимание уделялось исследованию их лингвистической способности понимать контекстные особенности. В данной статье представлен бенчмарк для оценки понимания контекста, адаптированный из существующих наборов данных для оценки генеративных моделей. Этот бенчмарк включает четыре различные задачи и девять наборов данных, все из которых содержат промпты, предназначенные для оценки способности моделей понимать контекст. Во-первых, мы оцениваем производительность LLM в сценарии предварительного обучения с использованием контекстного обучения. Экспериментальные результаты показывают, что предварительно обученные плотные модели испытывают трудности с пониманием более тонких контекстных особенностей по сравнению с современными тонко настроенными моделями. Во-вторых, учитывая растущую значимость сжатия LLM как в исследованиях, так и в реальных приложениях, мы оцениваем понимание контекста квантованных моделей в условиях контекстного обучения. Мы обнаруживаем, что 3-битное посттренировочное квантование приводит к различной степени снижения производительности на нашем бенчмарке. Мы проводим детальный анализ этих сценариев, чтобы подтвердить наши экспериментальные результаты.
Мы представляем доказательства значительной пользы эффективного исследования при сборе человеческой обратной связи для улучшения больших языковых моделей. В наших экспериментах агент последовательно генерирует запросы, одновременно обучая модель вознаграждения на основе полученной обратной связи. Наиболее эффективный агент генерирует запросы с использованием двойного сэмплирования Томпсона, где неопределенность представлена эпистемической нейронной сетью. Наши результаты показывают, что эффективное исследование позволяет достичь высокого уровня производительности при значительно меньшем количестве запросов. Кроме того, как оценка неопределенности, так и выбор схемы исследования играют ключевые роли.
Мы представляем SymbolicAI — универсальную и модульную платформу, использующую логический подход к обучению концепциям и управлению потоками в генеративных процессах. SymbolicAI обеспечивает бесшовную интеграцию генеративных моделей с широким спектром решателей, рассматривая большие языковые модели (LLM) как семантические парсеры, выполняющие задачи на основе инструкций как на естественном, так и на формальном языке, тем самым устраняя разрыв между символическим рассуждением и генеративным ИИ. Мы используем принципы вероятностного программирования для решения сложных задач, а также применяем дифференцируемые и классические парадигмы программирования, учитывая их сильные стороны. Платформа предлагает набор полиморфных, композиционных и самоссылающихся операций для манипуляции потоками данных, согласовывая выходные данные LLM с целями пользователя. В результате мы можем переключаться между возможностями различных базовых моделей, обладающих способностями к обучению с нулевым и малым количеством примеров, и специализированными, тонко настроенными моделями или решателями, способными эффективно решать конкретные задачи. В свою очередь, платформа упрощает создание и оценку объяснимых вычислительных графов. В заключение мы вводим метрику качества и её эмпирическую оценку для анализа этих вычислительных графов, а также предлагаем бенчмарк, сравнивающий различные современные LLM на наборе сложных рабочих процессов. Мы называем эту эмпирическую оценку "Векторное вложение для оценки реляционных траекторий через кросс-сходство", или сокращённо VERTEX. Кодовая база платформы и бенчмарк доступны по ссылкам ниже.
Машинное "забывание" стало новой парадигмой, позволяющей целенаправленно удалять данные из заданной модели для соблюдения строгих нормативных требований. Однако существующие методы машинного забывания в основном были сосредоточены на моделях классификации, оставляя область забывания для генеративных моделей относительно неисследованной. Данная работа служит мостом, заполняя этот пробел, предлагая унифицированную структуру машинного забывания для моделей генерации изображений в изображения. В рамках этой структуры мы предлагаем вычислительно эффективный алгоритм, подкрепленный строгим теоретическим анализом, который демонстрирует незначительное ухудшение производительности на сохраняемых образцах, при этом эффективно удаляя информацию из забываемых образцов. Эмпирические исследования на двух крупномасштабных наборах данных, ImageNet-1K и Places-365, дополнительно показывают, что наш алгоритм не зависит от доступности сохраняемых образцов, что также соответствует политике хранения данных. Насколько нам известно, это первая работа, представляющая систематические теоретические и эмпирические исследования машинного забывания, специально адаптированного для моделей генерации изображений в изображения. Наш код доступен по адресу https://github.com/jpmorganchase/l2l-generator-unlearning.
Распространённый подход для согласования языковых моделей с человеческими предпочтениями заключается в том, чтобы сначала обучить модель вознаграждения на данных о предпочтениях, а затем использовать эту модель для обновления языковой модели. Мы исследуем две тесно связанные проблемы, возникающие в этом подходе. Во-первых, любое монотонное преобразование модели вознаграждения сохраняет ранжирование предпочтений; существует ли выбор, который является «лучшим» по сравнению с другими? Во-вторых, часто возникает необходимость согласовать языковые модели с несколькими свойствами: как следует комбинировать несколько моделей вознаграждения? Используя вероятностную интерпретацию процедуры согласования, мы определяем естественный выбор преобразования для (распространённого случая) вознаграждений, обученных на основе моделей предпочтений Брэдли-Терри. Это преобразование обладает двумя важными свойствами. Во-первых, оно акцентирует внимание на улучшении плохо работающих выходных данных, а не тех, которые уже получают высокие оценки. Это смягчает как недообучение (когда некоторые запросы не улучшаются), так и взлом вознаграждения (когда модель учится эксплуатировать некорректную спецификацию модели вознаграждения). Во-вторых, оно позволяет принципиально агрегировать вознаграждения, связывая суммирование с логической конъюнкцией: сумма преобразованных вознаграждений соответствует вероятности того, что выходные данные являются «хорошими» по всем измеряемым свойствам, в смысле, который мы уточняем. Эксперименты по согласованию языковых моделей, чтобы они были одновременно полезными и безопасными, с использованием RLHF показывают значительные улучшения по сравнению с базовым (непреобразованным) подходом.
Мы представляем Amortized Text-to-Mesh (AToM) — прямую архитектуру для преобразования текста в полигональную сетку, оптимизированную для одновременной обработки множества текстовых запросов. В отличие от существующих методов преобразования текста в 3D, которые часто требуют трудоемкой оптимизации для каждого запроса и обычно выводят представления, отличные от полигональных сеток, AToM напрямую генерирует высококачественные текстурированные сетки менее чем за 1 секунду с сокращением затрат на обучение примерно в 10 раз, а также обобщается на невидимые запросы. Наша ключевая идея заключается в новой архитектуре преобразования текста в сетку на основе триплейнов с двухэтапной стратегией амортизированной оптимизации, которая обеспечивает стабильное обучение и масштабируемость. В ходе обширных экспериментов на различных наборах текстовых запросов AToM значительно превосходит современные амортизированные подходы с более чем 4-кратным увеличением точности (на наборе данных DF415) и создает более различимые и качественные 3D-результаты. AToM демонстрирует высокую обобщаемость, предоставляя детализированные 3D-ассеты для невидимых интерполированных запросов без дополнительной оптимизации на этапе вывода, в отличие от решений, требующих оптимизации для каждого запроса.
В данной работе представлен EE-Tuning — легковесное и экономичное решение для обучения/настройки крупных языковых моделей (LLM) с ранним выходом. В отличие от традиционного подхода, предполагающего полное предварительное обучение всех параметров, EE-Tuning дополняет любую предварительно обученную (и, возможно, донастроенную) стандартную LLM дополнительными слоями раннего выхода, которые настраиваются с минимальными затратами параметров. Это требует значительно меньше вычислительных ресурсов и данных для обучения. Наша реализация EE-Tuning достигает высокой эффективности обучения благодаря оптимизации производительности, а также масштабируемости за счет полной совместимости с 3D-параллелизмом. Результаты систематических экспериментов подтверждают эффективность EE-Tuning, демонстрируя, что качественный вывод LLM с ранним выходом может быть достигнут при ограниченном бюджете на обучение. С целью сделать LLM с ранним выходом доступными для сообщества, мы публикуем исходный код нашей реализации EE-Tuning по адресу https://github.com/pan-x-c/EE-LLM.