Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя крупные языковые модели (LLM) демонстрируют впечатляющие способности в генерации текста, мы обнаружили, что их возможности еще не были обобщены на музыку — творческий язык человечества. Мы представляем ChatMusician, открытую LLM, которая интегрирует встроенные музыкальные способности. Она основана на непрерывном предварительном обучении и тонкой настройке LLaMA2 на текстово-совместимом музыкальном представлении — нотации ABC, где музыка рассматривается как второй язык. ChatMusician может понимать и генерировать музыку с использованием чистого текстового токенизатора без каких-либо внешних мультимодальных нейронных структур или токенизаторов. Интересно, что наделение музыкальными способностями не ухудшает языковые возможности, даже слегка повышая оценку MMLU. Наша модель способна сочинять хорошо структурированную, полноценную музыку, основываясь на текстах, аккордах, мелодиях, мотивах, музыкальных формах и т.д., превосходя базовый уровень GPT-4. На нашем тщательно разработанном бенчмарке для понимания музыки на уровне колледжа, MusicTheoryBench, ChatMusician значительно опережает LLaMA2 и GPT-3.5 в условиях zero-shot. Наша работа показывает, что LLM могут быть отличным компрессором для музыки, но остается значительная территория для освоения. Мы публикуем наш корпус музыки и языка объемом 4B токенов MusicPile, собранный MusicTheoryBench, код, модель и демо на GitHub.
Мы представляем Nemotron-4 15B — крупную многоязычную языковую модель с 15 миллиардами параметров, обученную на 8 триллионах текстовых токенов. Nemotron-4 15B демонстрирует высокую производительность при оценке на английских, многоязычных и программистских задачах: она превосходит все существующие открытые модели аналогичного размера в 4 из 7 областей последующей оценки и показывает конкурентоспособные результаты по сравнению с ведущими открытыми моделями в остальных областях. В частности, Nemotron-4 15B обладает лучшими многоязычными возможностями среди всех моделей аналогичного размера, даже превосходя модели, которые в четыре раза больше, а также модели, специально оптимизированные для многоязычных задач.
Хотя обучение больших языковых моделей (LLM) с нуля действительно может привести к моделям с уникальными возможностями и сильными сторонами, этот подход сопряжен с существенными затратами и может привести к избыточности в компетенциях. Альтернативная стратегия заключается в объединении существующих LLM в более мощную модель, тем самым снижая необходимость в дорогостоящем предварительном обучении. Однако из-за разнообразия архитектур LLM прямое смешивание параметров оказывается невозможным. Недавно FuseLLM представил концепцию слияния знаний для передачи коллективных знаний нескольких структурно различных LLM в целевую модель с помощью легковесного непрерывного обучения. В данном отчете мы расширяем масштабируемость и гибкость фреймворка FuseLLM для реализации слияния чат-LLM, что приводит к созданию FuseChat. FuseChat состоит из двух основных этапов. Во-первых, мы осуществляем слияние знаний для исходных LLM с различной структурой и масштабом, чтобы получить несколько целевых LLM одинаковой структуры и размера с помощью легковесного тонкого настройки. Затем эти целевые LLM объединяются в пространстве параметров, где мы предлагаем новый метод определения весов объединения на основе коэффициента вариации матриц параметров до и после тонкой настройки. Мы проверяем наш подход на трех известных чат-LLM с различными архитектурами и масштабами, а именно NH2-Mixtral-8x7B, NH2-Solar-10.7B и OpenChat-3.5-7B. Экспериментальные результаты, охватывающие различные области чатов, демонстрируют превосходство \textsc{FuseChat-7B} в широком спектре чат-LLM на масштабах 7B и 34B, даже превосходя GPT-3.5 (март) и приближаясь к Mixtral-8x7B-Instruct. Наш код, веса модели и данные открыто доступны по адресу https://github.com/fanqiwan/FuseLLM.
Мы представляем проектирование, реализацию и инженерный опыт создания и развертывания MegaScale — производственной системы для обучения больших языковых моделей (LLM) на масштабе более 10 000 графических процессоров (GPU). Обучение LLM на таком масштабе ставит беспрецедентные задачи перед эффективностью и стабильностью процесса. Мы применяем комплексный подход, совместно проектируя алгоритмические и системные компоненты, включая дизайн блоков модели и оптимизатора, перекрытие вычислений и коммуникаций, оптимизацию операторов, конвейер данных и настройку производительности сети. Поддержание высокой эффективности на протяжении всего процесса обучения (т.е. стабильности) является важным аспектом в производственной среде, учитывая длительность задач обучения LLM. Многие сложные проблемы стабильности проявляются только на больших масштабах, и глубокая наблюдаемость является ключом к их решению. Мы разработали набор диагностических инструментов для мониторинга компонентов системы и событий на всех уровнях стека, выявления корневых причин и разработки эффективных методов для достижения отказоустойчивости и устранения отстающих узлов. MegaScale достигает 55,2% использования операций с плавающей запятой модели (Model FLOPs Utilization, MFU) при обучении LLM с 175 миллиардами параметров на 12 288 GPU, что улучшает MFU в 1,34 раза по сравнению с Megatron-LM. Мы делимся нашим операционным опытом в выявлении и устранении сбоев и отстающих узлов. Надеемся, что, формулируя проблемы и делясь нашим опытом с системной точки зрения, эта работа вдохновит будущие исследования в области систем для LLM.
Метод Low-Rank Adaptation (LoRA) широко используется в моделях генерации изображений из текста для точного воспроизведения конкретных элементов, таких как уникальные персонажи или особые стили в создаваемых изображениях. Однако существующие подходы сталкиваются с трудностями при эффективной композиции нескольких LoRA, особенно с увеличением количества интегрируемых LoRA, что ограничивает создание сложных изображений. В данной работе мы исследуем композицию нескольких LoRA с точки зрения декодирования. Мы предлагаем два метода, не требующих дополнительного обучения: LoRA Switch, который переключается между различными LoRA на каждом шаге удаления шума, и LoRA Composite, который одновременно включает все LoRA для более согласованного синтеза изображений. Для оценки предложенных подходов мы создали ComposLoRA — новую комплексную тестовую платформу, включающую 480 наборов композиций из разнообразных категорий LoRA. Используя оценочную систему на основе GPT-4V, наши результаты демонстрируют значительное улучшение производительности по сравнению с распространенным базовым методом, особенно заметное при увеличении количества LoRA в композиции.
Мы исследуем, выполняют ли крупные языковые модели (LLM) скрытое многошаговое рассуждение при работе со сложными запросами, такими как "Мать исполнителя песни 'Superstition' — это". Мы ищем доказательства скрытого пути рассуждения, в котором LLM (1) скрыто идентифицирует "исполнителя песни 'Superstition'" как Стиви Уандера, промежуточную сущность, и (2) использует свои знания о матери Стиви Уандера для завершения запроса. Мы анализируем эти два шага по отдельности и рассматриваем их совместное появление как показатель скрытого многошагового рассуждения. Для первого шага мы проверяем, увеличивает ли изменение запроса, чтобы косвенно упомянуть промежуточную сущность вместо любой другой сущности, внутреннее воспроизведение этой сущности в LLM. Для второго шага мы проверяем, приводит ли увеличение этого воспроизведения к более эффективному использованию знаний LLM о промежуточной сущности. Мы находим убедительные доказательства скрытого многошагового рассуждения для запросов определённых типов отношений, причём путь рассуждения используется более чем в 80% запросов. Однако использование знаний сильно зависит от контекста и варьируется для разных типов запросов. Кроме того, в среднем доказательства для второго шага и полного многошагового прохода довольно умеренные и значительны только для первого шага. Более того, мы обнаруживаем явную тенденцию масштабирования с увеличением размера модели для первого шага рассуждения, но не для второго. Наши экспериментальные результаты указывают на потенциальные вызовы и возможности для будущего развития и применения LLM.
Структурированные источники данных, такие как таблицы, графики и базы данных, являются повсеместно распространёнными источниками знаний. Несмотря на продемонстрированные возможности крупных языковых моделей (LLM) в работе с обычным текстом, их способность интерпретировать и использовать структурированные данные остаётся ограниченной. Наше исследование выявило значительный недостаток в умении LLM обрабатывать структурированные данные: например, ChatGPT отстаёт от современных моделей (SoTA) в среднем на 35%. Для улучшения способности LLM к обработке структурированных знаний (Structured Knowledge Grounding, SKG) мы разработали обширный набор данных для настройки инструкций, содержащий 1,1 миллиона примеров. Используя этот набор данных, мы обучили серию моделей, названных StructLM, основанных на архитектуре Code-LLaMA, с количеством параметров от 7B до 34B. Наша серия StructLM превосходит специализированные модели на 14 из 18 оцениваемых наборов данных и устанавливает новые рекорды SoTA на 7 задачах SKG. Кроме того, StructLM демонстрирует исключительную способность к обобщению на 6 новых задачах SKG. Вопреки ожиданиям, мы наблюдаем, что увеличение размера модели приносит лишь незначительные преимущества: StructLM-34B показывает лишь небольшие улучшения по сравнению с StructLM-7B. Это говорит о том, что обработка структурированных знаний по-прежнему остаётся сложной задачей и требует более инновационных решений для выхода на новый уровень.
Тенденция "чем больше, тем лучше" доминировала в последних разработках крупных языковых моделей (LLM). Однако LLM плохо подходят для сценариев, требующих обработки на устройстве, энергоэффективности, низкого потребления памяти и быстрого отклика. Эти требования крайне важны для обеспечения конфиденциальности, безопасности и устойчивого развертывания. В данной статье исследуется парадигма "меньше — значит больше", решая задачу проектирования точных, но эффективных малых языковых моделей (SLM) для устройств с ограниченными ресурсами. Наш основной вклад — представление точной и полностью прозрачной SLM с открытым исходным кодом, содержащей 0,5 миллиарда параметров (0,5B), под названием MobiLlama, которая учитывает специфические потребности устройств с ограниченными ресурсами, делая акцент на повышении производительности при снижении требований к ресурсам. MobiLlama — это дизайн SLM, который начинается с более крупной модели и применяет тщательно продуманную схему совместного использования параметров для снижения как стоимости предварительного обучения, так и затрат на развертывание. Наша работа направлена не только на устранение пробела в открытых SLM, но и на обеспечение полной прозрачности: полный конвейер обучающих данных, код обучения, веса модели и более 300 контрольных точек вместе с кодом оценки доступны по адресу: https://github.com/mbzuai-oryx/MobiLlama.
Сравнительные подходы (например, попарный выбор, ранжирование по списку) широко используются в субъективных исследованиях для оценки качества изображений (IQA), поскольку они изначально стандартизируют критерии оценки для разных наблюдателей и предоставляют более четкие ответы. В данной работе мы расширяем возможности современных крупных мультимодальных моделей (LMM), чтобы продвинуть сравнение визуального качества в открытые условия, которые: 1) могут отвечать на вопросы с открытым диапазоном о сравнении качества; 2) могут предоставлять подробные обоснования, выходящие за рамки прямых ответов. Для этого мы предлагаем модель Co-Instruct. Чтобы обучить этот первый в своем роде открытый инструмент для сравнения визуального качества, мы собираем набор данных Co-Instruct-562K из двух источников: (а) описания качества отдельных изображений, сгенерированные LMM, (б) ответы "учителя" GPT-4V на немаркированные данные. Кроме того, для более качественной оценки этого подхода мы предлагаем MICBench — первый бенчмарк для сравнения нескольких изображений в контексте LMM. Мы демонстрируем, что Co-Instruct не только достигает на 30% более высокой точности, чем современные открытые LMM, но и превосходит GPT-4V (своего "учителя") как на существующих связанных бенчмарках, так и на предложенном MICBench. Наша модель опубликована по адресу https://huggingface.co/q-future/co-instruct.
По мере того как крупные языковые модели (LLM) становятся все более распространенными в различных реальных приложениях, понимание и повышение их устойчивости к пользовательским запросам приобретает первостепенное значение. Существующие методы выявления вредоносных запросов (adversarial prompts) часто сосредоточены на узких областях, отличаются недостаточным разнообразием или требуют значительных объемов ручной разметки. Чтобы устранить эти ограничения, мы представляем Rainbow Teaming — новый подход для создания разнообразного набора вредоносных запросов. Rainbow Teaming рассматривает генерацию таких запросов как задачу оптимизации качества и разнообразия, используя открытый поиск для создания запросов, которые одновременно эффективны и разнообразны. Этот метод позволяет выявить уязвимости модели в широком спектре областей, включая, как показано в данной работе, безопасность, ответы на вопросы и кибербезопасность. Мы также демонстрируем, что дообучение на синтетических данных, сгенерированных с помощью Rainbow Teaming, повышает безопасность современных LLM, не ухудшая их общих возможностей и полезности, прокладывая путь к открытому самоулучшению.