HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

10 papers found

OLMo: Ускорение развития науки о языковых моделях
OLMo: Accelerating the Science of Language Models

Feb 1

ByDirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi

Языковые модели (ЯМ) стали повсеместными как в исследованиях в области обработки естественного языка (NLP), так и в коммерческих продуктах. По мере роста их коммерческой значимости наиболее мощные модели стали закрытыми, доступ к которым ограничен проприетарными интерфейсами, а важные детали их обучающих данных, архитектур и разработки остаются нераскрытыми. Учитывая важность этих деталей для научного изучения таких моделей, включая их предубеждения и потенциальные риски, мы считаем, что исследовательскому сообществу крайне необходим доступ к мощным, по-настоящему открытым ЯМ. В связи с этим данный технический отчет описывает первый релиз OLMo — современной, полностью открытой языковой модели, а также её фреймворка для создания и изучения науки о языковом моделировании. В отличие от большинства предыдущих усилий, которые ограничивались выпуском весов моделей и кода для вывода, мы публикуем OLMo и весь фреймворк, включая обучающие данные, а также код для обучения и оценки. Мы надеемся, что этот релиз укрепит и расширит возможности открытого исследовательского сообщества и вдохновит на новую волну инноваций.

Dolma: открытый корпус из трех триллионов токенов для исследований предварительного обучения языковых моделей
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Jan 31

ByLuca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo

Языковые модели стали ключевой технологией для решения широкого спектра задач обработки естественного языка, однако многие детали о том, как разрабатывались наиболее эффективные модели, остаются нераскрытыми. В частности, информация о корпусах данных, используемых для их предварительного обучения, обсуждается крайне редко: коммерческие языковые модели редко предоставляют какие-либо сведения о своих данных; даже открытые модели редко публикуют наборы данных, на которых они обучаются, или точные инструкции для их воспроизведения. В результате становится сложно проводить определённые направления исследований в области языкового моделирования, такие как изучение того, как обучающие данные влияют на возможности моделей и формируют их ограничения. Чтобы способствовать открытым исследованиям в области предварительного обучения языковых моделей, мы представляем Dolma — корпус английского текста объёмом три триллиона токенов, созданный из разнообразных источников, включая веб-контент, научные статьи, код, книги, находящиеся в общественном достоянии, материалы из социальных сетей и энциклопедий. Кроме того, мы открываем исходный код нашего инструментария для обработки данных, чтобы обеспечить возможность дальнейших экспериментов и воспроизведения нашей работы. В этом отчёте мы подробно описываем Dolma, включая принципы её разработки, детали создания и обзор её содержания. Мы дополняем отчёт анализом и экспериментальными результатами, полученными при обучении языковых моделей на промежуточных версиях Dolma, чтобы поделиться нашими выводами о важных практиках обработки данных, таких как роль фильтров по содержанию или качеству, дедупликация и смешивание данных из различных источников. Dolma использовалась для обучения OLMo — современной открытой языковой модели и фреймворка, предназначенного для разработки и изучения науки языкового моделирования.

CroissantLLM: Поистине двуязычная языковая модель для французского и английского языков
CroissantLLM: A Truly Bilingual French-English Language Model

Feb 1

ByManuel Faysse, Patrick Fernandes, Nuno Guerreiro, António Loison, Duarte Alves, Caio Corro, Nicolas Boizard, João Alves, Ricardo Rei, Pedro Martins, Antoni Bigata Casademunt, François Yvon, André Martins, Gautier Viaud, Céline Hudelot, Pierre Colombo

Мы представляем CroissantLLM — языковую модель с 1,3 миллиардами параметров, предобученную на наборе из 3 триллионов токенов на английском и французском языках, чтобы предложить исследовательскому и промышленному сообществу высокопроизводительную, полностью открытую двуязычную модель, которая быстро работает на потребительском оборудовании. Для этого мы разработали подход к обучению изначально двуязычной модели с соотношением данных для предобучения 1:1 (английский к французскому), использованием специального токенизатора и двуязычных наборов данных для тонкой настройки. Мы публикуем набор данных для обучения, включающий французский сегмент с тщательно отобранными, высококачественными и разнообразными источниками данных. Для оценки производительности за пределами английского языка мы создали новый бенчмарк FrenchBench, состоящий из набора задач классификации и генерации, охватывающих различные аспекты производительности модели на французском языке. Кроме того, в духе прозрачности и для стимулирования дальнейших исследований в области больших языковых моделей, мы публикуем кодовые базы, десятки контрольных точек для моделей различных размеров, распределений обучающих данных и этапов обучения, а также тонко настроенные чат-модели и мощные модели перевода. Мы оцениваем нашу модель с помощью фреймворка FMTI и подтверждаем выполнение 81% критериев прозрачности, что значительно превышает показатели даже большинства открытых инициатив. Эта работа обогащает ландшафт NLP, отходя от предыдущих англоцентричных исследований, чтобы углубить наше понимание многоязычия в языковых моделях.

Могут ли крупные языковые модели понимать контекст?
Can Large Language Models Understand Context?

Feb 1

ByYilun Zhu, Joel Ruben Antony Moniz, Shruti Bhargava, Jiarui Lu, Dhivya Piraviperumal, Site Li, Yuan Zhang, Hong Yu, Bo-Hsiang Tseng

Понимание контекста является ключевым для понимания человеческого языка, способность, которую крупные языковые модели (LLM) демонстрируют всё более впечатляющим образом. Однако, хотя оценка LLM охватывает различные области в рамках обработки естественного языка, ограниченное внимание уделялось исследованию их лингвистической способности понимать контекстные особенности. В данной статье представлен бенчмарк для оценки понимания контекста, адаптированный из существующих наборов данных для оценки генеративных моделей. Этот бенчмарк включает четыре различные задачи и девять наборов данных, все из которых содержат промпты, предназначенные для оценки способности моделей понимать контекст. Во-первых, мы оцениваем производительность LLM в сценарии предварительного обучения с использованием контекстного обучения. Экспериментальные результаты показывают, что предварительно обученные плотные модели испытывают трудности с пониманием более тонких контекстных особенностей по сравнению с современными тонко настроенными моделями. Во-вторых, учитывая растущую значимость сжатия LLM как в исследованиях, так и в реальных приложениях, мы оцениваем понимание контекста квантованных моделей в условиях контекстного обучения. Мы обнаруживаем, что 3-битное посттренировочное квантование приводит к различной степени снижения производительности на нашем бенчмарке. Мы проводим детальный анализ этих сценариев, чтобы подтвердить наши экспериментальные результаты.

SymbolicAI: фреймворк для логических подходов, объединяющий генеративные модели и решатели
SymbolicAI: A framework for logic-based approaches combining generative models and solvers

Feb 1

ByMarius-Constantin Dinu, Claudiu Leoveanu-Condrei, Markus Holzleitner, Werner Zellinger, Sepp Hochreiter

Мы представляем SymbolicAI — универсальную и модульную платформу, использующую логический подход к обучению концепциям и управлению потоками в генеративных процессах. SymbolicAI обеспечивает бесшовную интеграцию генеративных моделей с широким спектром решателей, рассматривая большие языковые модели (LLM) как семантические парсеры, выполняющие задачи на основе инструкций как на естественном, так и на формальном языке, тем самым устраняя разрыв между символическим рассуждением и генеративным ИИ. Мы используем принципы вероятностного программирования для решения сложных задач, а также применяем дифференцируемые и классические парадигмы программирования, учитывая их сильные стороны. Платформа предлагает набор полиморфных, композиционных и самоссылающихся операций для манипуляции потоками данных, согласовывая выходные данные LLM с целями пользователя. В результате мы можем переключаться между возможностями различных базовых моделей, обладающих способностями к обучению с нулевым и малым количеством примеров, и специализированными, тонко настроенными моделями или решателями, способными эффективно решать конкретные задачи. В свою очередь, платформа упрощает создание и оценку объяснимых вычислительных графов. В заключение мы вводим метрику качества и её эмпирическую оценку для анализа этих вычислительных графов, а также предлагаем бенчмарк, сравнивающий различные современные LLM на наборе сложных рабочих процессов. Мы называем эту эмпирическую оценку "Векторное вложение для оценки реляционных траекторий через кросс-сходство", или сокращённо VERTEX. Кодовая база платформы и бенчмарк доступны по ссылкам ниже.

Эффективное исследование для крупных языковых моделей
Efficient Exploration for LLMs

Feb 1

ByVikranth Dwaracherla, Seyed Mohammad Asghari, Botao Hao, Benjamin Van Roy

Мы представляем доказательства значительной пользы эффективного исследования при сборе человеческой обратной связи для улучшения больших языковых моделей. В наших экспериментах агент последовательно генерирует запросы, одновременно обучая модель вознаграждения на основе полученной обратной связи. Наиболее эффективный агент генерирует запросы с использованием двойного сэмплирования Томпсона, где неопределенность представлена эпистемической нейронной сетью. Наши результаты показывают, что эффективное исследование позволяет достичь высокого уровня производительности при значительно меньшем количестве запросов. Кроме того, как оценка неопределенности, так и выбор схемы исследования играют ключевые роли.

Машинное "забывание" для генеративных моделей "изображение в изображение"
Machine Unlearning for Image-to-Image Generative Models

Feb 1

ByGuihong Li, Hsiang Hsu, Chun-Fu, Chen, Radu Marculescu

Машинное "забывание" стало новой парадигмой, позволяющей целенаправленно удалять данные из заданной модели для соблюдения строгих нормативных требований. Однако существующие методы машинного забывания в основном были сосредоточены на моделях классификации, оставляя область забывания для генеративных моделей относительно неисследованной. Данная работа служит мостом, заполняя этот пробел, предлагая унифицированную структуру машинного забывания для моделей генерации изображений в изображения. В рамках этой структуры мы предлагаем вычислительно эффективный алгоритм, подкрепленный строгим теоретическим анализом, который демонстрирует незначительное ухудшение производительности на сохраняемых образцах, при этом эффективно удаляя информацию из забываемых образцов. Эмпирические исследования на двух крупномасштабных наборах данных, ImageNet-1K и Places-365, дополнительно показывают, что наш алгоритм не зависит от доступности сохраняемых образцов, что также соответствует политике хранения данных. Насколько нам известно, это первая работа, представляющая систематические теоретические и эмпирические исследования машинного забывания, специально адаптированного для моделей генерации изображений в изображения. Наш код доступен по адресу https://github.com/jpmorganchase/l2l-generator-unlearning.

Преобразование и комбинирование вознаграждений для согласования больших языковых моделей
Transforming and Combining Rewards for Aligning Large Language Models

Feb 1

ByZihao Wang, Chirag Nagpal, Jonathan Berant, Jacob Eisenstein, Alex D'Amour, Sanmi Koyejo, Victor Veitch

Распространённый подход для согласования языковых моделей с человеческими предпочтениями заключается в том, чтобы сначала обучить модель вознаграждения на данных о предпочтениях, а затем использовать эту модель для обновления языковой модели. Мы исследуем две тесно связанные проблемы, возникающие в этом подходе. Во-первых, любое монотонное преобразование модели вознаграждения сохраняет ранжирование предпочтений; существует ли выбор, который является «лучшим» по сравнению с другими? Во-вторых, часто возникает необходимость согласовать языковые модели с несколькими свойствами: как следует комбинировать несколько моделей вознаграждения? Используя вероятностную интерпретацию процедуры согласования, мы определяем естественный выбор преобразования для (распространённого случая) вознаграждений, обученных на основе моделей предпочтений Брэдли-Терри. Это преобразование обладает двумя важными свойствами. Во-первых, оно акцентирует внимание на улучшении плохо работающих выходных данных, а не тех, которые уже получают высокие оценки. Это смягчает как недообучение (когда некоторые запросы не улучшаются), так и взлом вознаграждения (когда модель учится эксплуатировать некорректную спецификацию модели вознаграждения). Во-вторых, оно позволяет принципиально агрегировать вознаграждения, связывая суммирование с логической конъюнкцией: сумма преобразованных вознаграждений соответствует вероятности того, что выходные данные являются «хорошими» по всем измеряемым свойствам, в смысле, который мы уточняем. Эксперименты по согласованию языковых моделей, чтобы они были одновременно полезными и безопасными, с использованием RLHF показывают значительные улучшения по сравнению с базовым (непреобразованным) подходом.

AToM: Амортизированное преобразование текста в 3D-модель с использованием 2D-диффузии
AToM: Amortized Text-to-Mesh using 2D Diffusion

Feb 1

ByGuocheng Qian, Junli Cao, Aliaksandr Siarohin, Yash Kant, Chaoyang Wang, Michael Vasilkovsky, Hsin-Ying Lee, Yuwei Fang, Ivan Skorokhodov, Peiye Zhuang, Igor Gilitschenski, Jian Ren, Bernard Ghanem, Kfir Aberman, Sergey Tulyakov

Мы представляем Amortized Text-to-Mesh (AToM) — прямую архитектуру для преобразования текста в полигональную сетку, оптимизированную для одновременной обработки множества текстовых запросов. В отличие от существующих методов преобразования текста в 3D, которые часто требуют трудоемкой оптимизации для каждого запроса и обычно выводят представления, отличные от полигональных сеток, AToM напрямую генерирует высококачественные текстурированные сетки менее чем за 1 секунду с сокращением затрат на обучение примерно в 10 раз, а также обобщается на невидимые запросы. Наша ключевая идея заключается в новой архитектуре преобразования текста в сетку на основе триплейнов с двухэтапной стратегией амортизированной оптимизации, которая обеспечивает стабильное обучение и масштабируемость. В ходе обширных экспериментов на различных наборах текстовых запросов AToM значительно превосходит современные амортизированные подходы с более чем 4-кратным увеличением точности (на наборе данных DF415) и создает более различимые и качественные 3D-результаты. AToM демонстрирует высокую обобщаемость, предоставляя детализированные 3D-ассеты для невидимых интерполированных запросов без дополнительной оптимизации на этапе вывода, в отличие от решений, требующих оптимизации для каждого запроса.

EE-Tuning: Экономичное, но масштабируемое решение для настройки крупных языковых моделей с ранним выходом
EE-Tuning: An Economical yet Scalable Solution for Tuning Early-Exit Large Language Models

Feb 1

ByXuchen Pan, Yanxi Chen, Yaliang Li, Bolin Ding, Jingren Zhou

В данной работе представлен EE-Tuning — легковесное и экономичное решение для обучения/настройки крупных языковых моделей (LLM) с ранним выходом. В отличие от традиционного подхода, предполагающего полное предварительное обучение всех параметров, EE-Tuning дополняет любую предварительно обученную (и, возможно, донастроенную) стандартную LLM дополнительными слоями раннего выхода, которые настраиваются с минимальными затратами параметров. Это требует значительно меньше вычислительных ресурсов и данных для обучения. Наша реализация EE-Tuning достигает высокой эффективности обучения благодаря оптимизации производительности, а также масштабируемости за счет полной совместимости с 3D-параллелизмом. Результаты систематических экспериментов подтверждают эффективность EE-Tuning, демонстрируя, что качественный вывод LLM с ранним выходом может быть достигнут при ограниченном бюджете на обучение. С целью сделать LLM с ранним выходом доступными для сообщества, мы публикуем исходный код нашей реализации EE-Tuning по адресу https://github.com/pan-x-c/EE-LLM.

Dolma: открытый корпус из трех триллионов токенов для исследований предварительного обучения языковых моделей
Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research

Jan 31