Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

ChatMusician: Понимание и генерация музыки на основе внутренних механизмов языковых моделей
ChatMusician: Understanding and Generating Music Intrinsically with LLM

Feb 25

ByRuibin Yuan, Hanfeng Lin, Yi Wang, Zeyue Tian, Shangda Wu, Tianhao Shen, Ge Zhang, Yuhang Wu, Cong Liu, Ziya Zhou, Ziyang Ma, Liumeng Xue, Ziyu Wang, Qin Liu, Tianyu Zheng, Yizhi Li, Yinghao Ma, Yiming Liang, Xiaowei Chi, Ruibo Liu, Zili Wang, Pengfei Li, Jingcheng Wu, Chenghua Lin, Qifeng Liu, Tao Jiang, Wenhao Huang, Wenhu Chen, Emmanouil Benetos, Jie Fu, Gus Xia, Roger Dannenberg, Wei Xue, Shiyin Kang, Yike Guo

Хотя крупные языковые модели (LLM) демонстрируют впечатляющие способности в генерации текста, мы обнаружили, что их возможности еще не были обобщены на музыку — творческий язык человечества. Мы представляем ChatMusician, открытую LLM, которая интегрирует встроенные музыкальные способности. Она основана на непрерывном предварительном обучении и тонкой настройке LLaMA2 на текстово-совместимом музыкальном представлении — нотации ABC, где музыка рассматривается как второй язык. ChatMusician может понимать и генерировать музыку с использованием чистого текстового токенизатора без каких-либо внешних мультимодальных нейронных структур или токенизаторов. Интересно, что наделение музыкальными способностями не ухудшает языковые возможности, даже слегка повышая оценку MMLU. Наша модель способна сочинять хорошо структурированную, полноценную музыку, основываясь на текстах, аккордах, мелодиях, мотивах, музыкальных формах и т.д., превосходя базовый уровень GPT-4. На нашем тщательно разработанном бенчмарке для понимания музыки на уровне колледжа, MusicTheoryBench, ChatMusician значительно опережает LLaMA2 и GPT-3.5 в условиях zero-shot. Наша работа показывает, что LLM могут быть отличным компрессором для музыки, но остается значительная территория для освоения. Мы публикуем наш корпус музыки и языка объемом 4B токенов MusicPile, собранный MusicTheoryBench, код, модель и демо на GitHub.

Технический отчет по Nemotron-4 15B
Nemotron-4 15B Technical Report

Feb 26

ByJupinder Parmar, Shrimai Prabhumoye, Joseph Jennings, Mostofa Patwary, Sandeep Subramanian, Dan Su, Chen Zhu, Deepak Narayanan, Aastha Jhunjhunwala, Ayush Dattagupta, Vibhu Jawa, Jiwei Liu, Ameya Mahabaleshwarkar, Osvald Nitski, Annika Brundyn, James Maki, Miguel Martinez, Jiaxuan You, John Kamalu, Patrick LeGresley, Denys Fridman, Jared Casper, Ashwath Aithal, Oleksii Kuchaiev, Mohammad Shoeybi, Jonathan Cohen, Bryan Catanzaro

Мы представляем Nemotron-4 15B — крупную многоязычную языковую модель с 15 миллиардами параметров, обученную на 8 триллионах текстовых токенов. Nemotron-4 15B демонстрирует высокую производительность при оценке на английских, многоязычных и программистских задачах: она превосходит все существующие открытые модели аналогичного размера в 4 из 7 областей последующей оценки и показывает конкурентоспособные результаты по сравнению с ведущими открытыми моделями в остальных областях. В частности, Nemotron-4 15B обладает лучшими многоязычными возможностями среди всех моделей аналогичного размера, даже превосходя модели, которые в четыре раза больше, а также модели, специально оптимизированные для многоязычных задач.

FuseChat: Объединение знаний чат-моделей
FuseChat: Knowledge Fusion of Chat Models

Feb 25

ByFanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi

Хотя обучение больших языковых моделей (LLM) с нуля действительно может привести к моделям с уникальными возможностями и сильными сторонами, этот подход сопряжен с существенными затратами и может привести к избыточности в компетенциях. Альтернативная стратегия заключается в объединении существующих LLM в более мощную модель, тем самым снижая необходимость в дорогостоящем предварительном обучении. Однако из-за разнообразия архитектур LLM прямое смешивание параметров оказывается невозможным. Недавно FuseLLM представил концепцию слияния знаний для передачи коллективных знаний нескольких структурно различных LLM в целевую модель с помощью легковесного непрерывного обучения. В данном отчете мы расширяем масштабируемость и гибкость фреймворка FuseLLM для реализации слияния чат-LLM, что приводит к созданию FuseChat. FuseChat состоит из двух основных этапов. Во-первых, мы осуществляем слияние знаний для исходных LLM с различной структурой и масштабом, чтобы получить несколько целевых LLM одинаковой структуры и размера с помощью легковесного тонкого настройки. Затем эти целевые LLM объединяются в пространстве параметров, где мы предлагаем новый метод определения весов объединения на основе коэффициента вариации матриц параметров до и после тонкой настройки. Мы проверяем наш подход на трех известных чат-LLM с различными архитектурами и масштабами, а именно NH2-Mixtral-8x7B, NH2-Solar-10.7B и OpenChat-3.5-7B. Экспериментальные результаты, охватывающие различные области чатов, демонстрируют превосходство \textsc{FuseChat-7B} в широком спектре чат-LLM на масштабах 7B и 34B, даже превосходя GPT-3.5 (март) и приближаясь к Mixtral-8x7B-Instruct. Наш код, веса модели и данные открыто доступны по адресу https://github.com/fanqiwan/FuseLLM.

MegaScale: Масштабирование обучения больших языковых моделей до более чем 10 000 GPU
MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

Feb 23

ByZiheng Jiang, Haibin Lin, Yinmin Zhong, Qi Huang, Yangrui Chen, Zhi Zhang, Yanghua Peng, Xiang Li, Cong Xie, Shibiao Nong, Yulu Jia, Sun He, Hongmin Chen, Zhihao Bai, Qi Hou, Shipeng Yan, Ding Zhou, Yiyao Sheng, Zhuo Jiang, Haohan Xu, Haoran Wei, Zhang Zhang, Pengfei Nie, Leqi Zou, Sida Zhao, Liang Xiang, Zherui Liu, Zhe Li, Xiaoying Jia, Jianxi Ye, Xin Jin, Xin Liu

Мы представляем проектирование, реализацию и инженерный опыт создания и развертывания MegaScale — производственной системы для обучения больших языковых моделей (LLM) на масштабе более 10 000 графических процессоров (GPU). Обучение LLM на таком масштабе ставит беспрецедентные задачи перед эффективностью и стабильностью процесса. Мы применяем комплексный подход, совместно проектируя алгоритмические и системные компоненты, включая дизайн блоков модели и оптимизатора, перекрытие вычислений и коммуникаций, оптимизацию операторов, конвейер данных и настройку производительности сети. Поддержание высокой эффективности на протяжении всего процесса обучения (т.е. стабильности) является важным аспектом в производственной среде, учитывая длительность задач обучения LLM. Многие сложные проблемы стабильности проявляются только на больших масштабах, и глубокая наблюдаемость является ключом к их решению. Мы разработали набор диагностических инструментов для мониторинга компонентов системы и событий на всех уровнях стека, выявления корневых причин и разработки эффективных методов для достижения отказоустойчивости и устранения отстающих узлов. MegaScale достигает 55,2% использования операций с плавающей запятой модели (Model FLOPs Utilization, MFU) при обучении LLM с 175 миллиардами параметров на 12 288 GPU, что улучшает MFU в 1,34 раза по сравнению с Megatron-LM. Мы делимся нашим операционным опытом в выявлении и устранении сбоев и отстающих узлов. Надеемся, что, формулируя проблемы и делясь нашим опытом с системной точки зрения, эта работа вдохновит будущие исследования в области систем для LLM.

Мульти-LoRA композиция для генерации изображений
Multi-LoRA Composition for Image Generation

Feb 26

ByMing Zhong, Yelong Shen, Shuohang Wang, Yadong Lu, Yizhu Jiao, Siru Ouyang, Donghan Yu, Jiawei Han, Weizhu Chen

Метод Low-Rank Adaptation (LoRA) широко используется в моделях генерации изображений из текста для точного воспроизведения конкретных элементов, таких как уникальные персонажи или особые стили в создаваемых изображениях. Однако существующие подходы сталкиваются с трудностями при эффективной композиции нескольких LoRA, особенно с увеличением количества интегрируемых LoRA, что ограничивает создание сложных изображений. В данной работе мы исследуем композицию нескольких LoRA с точки зрения декодирования. Мы предлагаем два метода, не требующих дополнительного обучения: LoRA Switch, который переключается между различными LoRA на каждом шаге удаления шума, и LoRA Composite, который одновременно включает все LoRA для более согласованного синтеза изображений. Для оценки предложенных подходов мы создали ComposLoRA — новую комплексную тестовую платформу, включающую 480 наборов композиций из разнообразных категорий LoRA. Используя оценочную систему на основе GPT-4V, наши результаты демонстрируют значительное улучшение производительности по сравнению с распространенным базовым методом, особенно заметное при увеличении количества LoRA в композиции.

StructLM: На пути к созданию универсальных моделей для работы со структурированными знаниями
StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

Feb 26

ByAlex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen

Структурированные источники данных, такие как таблицы, графики и базы данных, являются повсеместно распространёнными источниками знаний. Несмотря на продемонстрированные возможности крупных языковых моделей (LLM) в работе с обычным текстом, их способность интерпретировать и использовать структурированные данные остаётся ограниченной. Наше исследование выявило значительный недостаток в умении LLM обрабатывать структурированные данные: например, ChatGPT отстаёт от современных моделей (SoTA) в среднем на 35%. Для улучшения способности LLM к обработке структурированных знаний (Structured Knowledge Grounding, SKG) мы разработали обширный набор данных для настройки инструкций, содержащий 1,1 миллиона примеров. Используя этот набор данных, мы обучили серию моделей, названных StructLM, основанных на архитектуре Code-LLaMA, с количеством параметров от 7B до 34B. Наша серия StructLM превосходит специализированные модели на 14 из 18 оцениваемых наборов данных и устанавливает новые рекорды SoTA на 7 задачах SKG. Кроме того, StructLM демонстрирует исключительную способность к обобщению на 6 новых задачах SKG. Вопреки ожиданиям, мы наблюдаем, что увеличение размера модели приносит лишь незначительные преимущества: StructLM-34B показывает лишь небольшие улучшения по сравнению с StructLM-7B. Это говорит о том, что обработка структурированных знаний по-прежнему остаётся сложной задачей и требует более инновационных решений для выхода на новый уровень.

Выполняют ли крупные языковые модели скрытое многошаговое рассуждение?
Do Large Language Models Latently Perform Multi-Hop Reasoning?

Feb 26

BySohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel

Мы исследуем, выполняют ли крупные языковые модели (LLM) скрытое многошаговое рассуждение при работе со сложными запросами, такими как "Мать исполнителя песни 'Superstition' — это". Мы ищем доказательства скрытого пути рассуждения, в котором LLM (1) скрыто идентифицирует "исполнителя песни 'Superstition'" как Стиви Уандера, промежуточную сущность, и (2) использует свои знания о матери Стиви Уандера для завершения запроса. Мы анализируем эти два шага по отдельности и рассматриваем их совместное появление как показатель скрытого многошагового рассуждения. Для первого шага мы проверяем, увеличивает ли изменение запроса, чтобы косвенно упомянуть промежуточную сущность вместо любой другой сущности, внутреннее воспроизведение этой сущности в LLM. Для второго шага мы проверяем, приводит ли увеличение этого воспроизведения к более эффективному использованию знаний LLM о промежуточной сущности. Мы находим убедительные доказательства скрытого многошагового рассуждения для запросов определённых типов отношений, причём путь рассуждения используется более чем в 80% запросов. Однако использование знаний сильно зависит от контекста и варьируется для разных типов запросов. Кроме того, в среднем доказательства для второго шага и полного многошагового прохода довольно умеренные и значительны только для первого шага. Более того, мы обнаруживаем явную тенденцию масштабирования с увеличением размера модели для первого шага рассуждения, но не для второго. Наши экспериментальные результаты указывают на потенциальные вызовы и возможности для будущего развития и применения LLM.

MobiLlama: В направлении точной и легковесной полностью прозрачной GPT
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT

Feb 26

ByOmkar Thawakar, Ashmal Vayani, Salman Khan, Hisham Cholakal, Rao M. Anwer, Michael Felsberg, Tim Baldwin, Eric P. Xing, Fahad Shahbaz Khan

Тенденция "чем больше, тем лучше" доминировала в последних разработках крупных языковых моделей (LLM). Однако LLM плохо подходят для сценариев, требующих обработки на устройстве, энергоэффективности, низкого потребления памяти и быстрого отклика. Эти требования крайне важны для обеспечения конфиденциальности, безопасности и устойчивого развертывания. В данной статье исследуется парадигма "меньше — значит больше", решая задачу проектирования точных, но эффективных малых языковых моделей (SLM) для устройств с ограниченными ресурсами. Наш основной вклад — представление точной и полностью прозрачной SLM с открытым исходным кодом, содержащей 0,5 миллиарда параметров (0,5B), под названием MobiLlama, которая учитывает специфические потребности устройств с ограниченными ресурсами, делая акцент на повышении производительности при снижении требований к ресурсам. MobiLlama — это дизайн SLM, который начинается с более крупной модели и применяет тщательно продуманную схему совместного использования параметров для снижения как стоимости предварительного обучения, так и затрат на развертывание. Наша работа направлена не только на устранение пробела в открытых SLM, но и на обеспечение полной прозрачности: полный конвейер обучающих данных, код обучения, веса модели и более 300 контрольных точек вместе с кодом оценки доступны по адресу: https://github.com/mbzuai-oryx/MobiLlama.

К открытому сравнению визуального качества
Towards Open-ended Visual Quality Comparison

Feb 26

ByHaoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, Weisi Lin

Сравнительные подходы (например, попарный выбор, ранжирование по списку) широко используются в субъективных исследованиях для оценки качества изображений (IQA), поскольку они изначально стандартизируют критерии оценки для разных наблюдателей и предоставляют более четкие ответы. В данной работе мы расширяем возможности современных крупных мультимодальных моделей (LMM), чтобы продвинуть сравнение визуального качества в открытые условия, которые: 1) могут отвечать на вопросы с открытым диапазоном о сравнении качества; 2) могут предоставлять подробные обоснования, выходящие за рамки прямых ответов. Для этого мы предлагаем модель Co-Instruct. Чтобы обучить этот первый в своем роде открытый инструмент для сравнения визуального качества, мы собираем набор данных Co-Instruct-562K из двух источников: (а) описания качества отдельных изображений, сгенерированные LMM, (б) ответы "учителя" GPT-4V на немаркированные данные. Кроме того, для более качественной оценки этого подхода мы предлагаем MICBench — первый бенчмарк для сравнения нескольких изображений в контексте LMM. Мы демонстрируем, что Co-Instruct не только достигает на 30% более высокой точности, чем современные открытые LMM, но и превосходит GPT-4V (своего "учителя") как на существующих связанных бенчмарках, так и на предложенном MICBench. Наша модель опубликована по адресу https://huggingface.co/q-future/co-instruct.

Rainbow Teaming: Открытая генерация разнообразных адверсарных запросов
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts

Feb 26

ByMikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu

По мере того как крупные языковые модели (LLM) становятся все более распространенными в различных реальных приложениях, понимание и повышение их устойчивости к пользовательским запросам приобретает первостепенное значение. Существующие методы выявления вредоносных запросов (adversarial prompts) часто сосредоточены на узких областях, отличаются недостаточным разнообразием или требуют значительных объемов ручной разметки. Чтобы устранить эти ограничения, мы представляем Rainbow Teaming — новый подход для создания разнообразного набора вредоносных запросов. Rainbow Teaming рассматривает генерацию таких запросов как задачу оптимизации качества и разнообразия, используя открытый поиск для создания запросов, которые одновременно эффективны и разнообразны. Этот метод позволяет выявить уязвимости модели в широком спектре областей, включая, как показано в данной работе, безопасность, ответы на вопросы и кибербезопасность. Мы также демонстрируем, что дообучение на синтетических данных, сгенерированных с помощью Rainbow Teaming, повышает безопасность современных LLM, не ухудшая их общих возможностей и полезности, прокладывая путь к открытому самоулучшению.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

ChatMusician: Понимание и генерация музыки на основе внутренних механизмов языковых моделей
ChatMusician: Understanding and Generating Music Intrinsically with LLM

Feb 25

Технический отчет по Nemotron-4 15B
Nemotron-4 15B Technical Report

Feb 26

FuseChat: Объединение знаний чат-моделей
FuseChat: Knowledge Fusion of Chat Models

Feb 25

ByFanqi Wan, Ziyi Yang, Longguang Zhong, Xiaojun Quan, Xinting Huang, Wei Bi

MegaScale: Масштабирование обучения больших языковых моделей до более чем 10 000 GPU
MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs

Feb 23

Мульти-LoRA композиция для генерации изображений
Multi-LoRA Composition for Image Generation

Feb 26

ByMing Zhong, Yelong Shen, Shuohang Wang, Yadong Lu, Yizhu Jiao, Siru Ouyang, Donghan Yu, Jiawei Han, Weizhu Chen

StructLM: На пути к созданию универсальных моделей для работы со структурированными знаниями
StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

Feb 26

ByAlex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen

Выполняют ли крупные языковые модели скрытое многошаговое рассуждение?
Do Large Language Models Latently Perform Multi-Hop Reasoning?

Feb 26

BySohee Yang, Elena Gribovskaya, Nora Kassner, Mor Geva, Sebastian Riedel

MobiLlama: В направлении точной и легковесной полностью прозрачной GPT
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT

Feb 26

ByOmkar Thawakar, Ashmal Vayani, Salman Khan, Hisham Cholakal, Rao M. Anwer, Michael Felsberg, Tim Baldwin, Eric P. Xing, Fahad Shahbaz Khan

К открытому сравнению визуального качества
Towards Open-ended Visual Quality Comparison

Feb 26

ByHaoning Wu, Hanwei Zhu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Chunyi Li, Annan Wang, Wenxiu Sun, Qiong Yan, Xiaohong Liu, Guangtao Zhai, Shiqi Wang, Weisi Lin

Rainbow Teaming: Открытая генерация разнообразных адверсарных запросов
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts

Feb 26