Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной работе представлена Weaver — первое семейство больших языковых моделей (LLM), специализирующихся на создании контента. Weaver предварительно обучается на тщательно отобранном корпусе текстов, направленном на улучшение навыков письма у крупных языковых моделей. Затем модель дообучается для задач творческого и профессионального письма и адаптируется к предпочтениям профессиональных авторов с использованием набора новых методов синтеза инструктивных данных и выравнивания LLM, что позволяет ей создавать более человекообразные тексты и следовать более разнообразным инструкциям для генерации контента. Семейство Weaver включает модели различных размеров: Weaver Mini (1,8 млрд параметров), Weaver Base (6 млрд), Weaver Pro (14 млрд) и Weaver Ultra (34 млрд), подходящие для различных приложений и динамически распределяемые маршрутизатором в зависимости от сложности запроса для баланса качества ответа и вычислительных затрат. Оценка на тщательно разработанном бенчмарке для проверки навыков письма LLM показывает, что модели Weaver всех размеров превосходят универсальные LLM, значительно превосходящие их по параметрам. Особенно примечательно, что наша наиболее мощная модель Weaver Ultra превосходит GPT-4, современную универсальную LLM, в различных сценариях письма, демонстрируя преимущество обучения специализированных LLM для задач письма. Кроме того, Weaver изначально поддерживает генерацию с использованием внешних данных (RAG) и вызов функций (использование инструментов). Мы представляем различные примеры использования этих возможностей для улучшения систем письма с ИИ, включая интеграцию внешних баз знаний, инструментов или API, а также предоставление персонализированной помощи в написании текстов. Кроме того, мы обсуждаем и обобщаем рекомендации и лучшие практики для предварительного обучения и дообучения специализированных LLM.
Серия детекторов You Only Look Once (YOLO) зарекомендовала себя как эффективный и практичный инструмент. Однако их зависимость от предопределённых и обученных категорий объектов ограничивает их применимость в открытых сценариях. Для устранения этого ограничения мы представляем YOLO-World — инновационный подход, который расширяет возможности YOLO за счёт открытого словарного детектирования с использованием моделирования "визуальный язык" и предварительного обучения на крупномасштабных наборах данных. В частности, мы предлагаем новую Перепараметризуемую Сеть Агрегации Путей "Визуальный Язык" (RepVL-PAN) и контрастную функцию потерь "регион-текст" для улучшения взаимодействия между визуальной и лингвистической информацией. Наш метод демонстрирует высокую эффективность в обнаружении широкого спектра объектов в режиме "нулевого сэмпла". На сложном наборе данных LVIS YOLO-World достигает показателя 35.4 AP при 52.0 FPS на V100, превосходя многие современные методы как по точности, так и по скорости. Кроме того, доработанная версия YOLO-World показывает выдающиеся результаты в нескольких последующих задачах, включая детектирование объектов и сегментацию экземпляров с открытым словарём.
Мы представляем BlockFusion, модель на основе диффузии, которая генерирует 3D-сцены в виде блоков и бесшовно добавляет новые блоки для расширения сцены. BlockFusion обучается на наборах данных 3D-блоков, которые случайным образом вырезаются из полных 3D-сцен. С помощью подгонки на уровне блоков все обучающие блоки преобразуются в гибридные нейронные поля: с использованием три-плоскости, содержащей геометрические признаки, и последующего многослойного перцептрона (MLP) для декодирования значений знаковых расстояний. Вариационный автоэнкодер используется для сжатия три-плоскостей в латентное пространство три-плоскостей, на котором выполняется процесс денизинга диффузии. Применение диффузии к латентным представлениям позволяет генерировать высококачественные и разнообразные 3D-сцены. Для расширения сцены во время генерации достаточно добавить пустые блоки, которые перекрываются с текущей сценой, и экстраполировать существующие латентные три-плоскости для заполнения новых блоков. Экстраполяция выполняется путем условной генерации с использованием выборок признаков из перекрывающихся три-плоскостей во время итераций денизинга. Экстраполяция латентных три-плоскостей создает семантически и геометрически осмысленные переходы, которые гармонично сочетаются с существующей сценой. Механизм условного управления 2D-макетом используется для контроля размещения и компоновки элементов сцены. Экспериментальные результаты показывают, что BlockFusion способен генерировать разнообразные, геометрически согласованные и неограниченно большие 3D-сцены с беспрецедентно высококачественными формами как в интерьерных, так и в экстерьерных сценариях.
Для использования больших языковых моделей (LLM) в задачах визуального синтеза традиционные методы преобразуют растровую информацию изображений в дискретные токены сетки с помощью специализированных визуальных модулей, что нарушает способность модели улавливать истинное семантическое представление визуальных сцен. В данной работе утверждается, что альтернативное представление изображений — векторная графика — может эффективно преодолеть это ограничение, обеспечивая более естественное и семантически согласованное сегментирование информации изображения. Таким образом, мы представляем StrokeNUWA — новаторскую работу, исследующую более эффективное визуальное представление «токенов штрихов» на основе векторной графики, которое изначально богато визуальной семантикой, естественно совместимо с LLM и обладает высокой степенью сжатия. Оснащенная токенами штрихов, StrokeNUWA значительно превосходит традиционные методы, основанные на LLM и оптимизации, по различным метрикам в задаче генерации векторной графики. Кроме того, StrokeNUWA достигает ускорения вывода до 94 раз по сравнению с предыдущими методами при исключительном коэффициенте сжатия SVG-кода в 6,9%.
В быстро развивающейся области генеративных моделей речи существует острая необходимость обеспечения подлинности аудио в условиях рисков клонирования голоса. Мы представляем AudioSeal — первую технологию аудиоводяных знаков, специально разработанную для локализованного обнаружения речи, созданной искусственным интеллектом. AudioSeal использует архитектуру генератора/детектора, обученную совместно с функцией потерь для локализации, что позволяет обнаруживать водяные знаки с точностью до уровня отдельных сэмплов, а также новую перцептивную функцию потерь, вдохновленную аудиомаскированием, которая обеспечивает лучшую незаметность. AudioSeal демонстрирует передовые результаты с точки зрения устойчивости к реальным манипуляциям с аудио и незаметности, что подтверждается автоматическими и человеческими метриками оценки. Кроме того, AudioSeal оснащен быстрым однопроходным детектором, который значительно превосходит существующие модели по скорости — обеспечивая обнаружение до двух порядков быстрее, что делает его идеальным для крупномасштабных и приложений реального времени.
Мы представляем H2O-Danube-1.8B — языковую модель объемом 1,8 миллиарда параметров, обученную на 1 триллионе токенов с использованием основных принципов LLama 2 и Mistral. Мы применяем и совершенствуем различные методы предварительного обучения больших языковых моделей. Несмотря на то, что наша модель обучена на значительно меньшем общем количестве токенов по сравнению с эталонными моделями аналогичного размера, она демонстрирует высококонкурентные показатели на множестве бенчмарков. Дополнительно мы выпускаем чат-модель, обученную с использованием контролируемого тонкого настройки, за которым следует оптимизация прямых предпочтений. Мы делаем H2O-Danube-1.8B открыто доступной под лицензией Apache 2.0, что способствует дальнейшей демократизации больших языковых моделей для более широкой аудитории с экономической точки зрения.
В данном отчете мы исследуем потенциал использования диффузии текста в качестве альтернативы авторегрессивному (AR) декодированию для обучения и применения крупных языковых моделей (LLM). Нас особенно интересует, можно ли преобразовать предобученные AR-модели в модели диффузии текста с помощью легковесной процедуры адаптации, которую мы называем «AR2Diff». Мы начинаем с создания надежной базовой конфигурации для обучения моделей диффузии текста. Сравнивая различные архитектуры и цели предобучения, мы обнаруживаем, что обучение модели только с декодером и использованием задачи префиксного языкового моделирования (prefix LM) показывает наилучшие или близкие к ним результаты в нескольких задачах. Опираясь на это наблюдение, мы тестируем различные подходы к трансферному обучению для моделей диффузии текста. В задаче машинного перевода мы обнаруживаем, что диффузия текста уступает стандартному AR-подходу. Однако в задачах синтеза кода и извлечения ответов на вопросы (extractive QA) модели диффузии, обученные с нуля, во многих случаях превосходят AR-модели. Мы также отмечаем улучшение качества при использовании AR2Diff — адаптации AR-моделей для декодирования с помощью диффузии. Эти результаты обнадеживают, учитывая, что диффузия текста остается малоизученной и может быть значительно быстрее AR-декодирования при генерации длинных текстов.
Несмотря на значительные усилия, направленные на согласование крупных языковых моделей (LLM), отчеты о тестировании на уязвимости (red-teaming) показывают, что эти тщательно согласованные LLM всё ещё могут быть взломаны с помощью адверсарных запросов, настройки или декодирования. Изучая уязвимость согласованных LLM к взлому, мы наблюдаем, что распределения декодирования взломанных и согласованных моделей различаются только в начальных генерациях. Это наблюдение побуждает нас предложить атаку "от слабого к сильному" (weak-to-strong jailbreaking attack), при которой злоумышленники могут использовать меньшие небезопасные/согласованные LLM (например, 7B) для взлома значительно более крупных согласованных LLM (например, 70B). Для взлома достаточно лишь однократно декодировать две меньшие LLM, что требует минимальных вычислительных ресурсов и задержек по сравнению с декодированием более крупных LLM. Эффективность этой атаки демонстрируется в экспериментах, проведенных на пяти моделях от трех различных организаций. Наше исследование выявляет ранее незамеченный, но эффективный способ взлома, что подчеркивает актуальную проблему безопасности, которую необходимо учитывать при согласовании LLM. В качестве первоначальной попытки мы предлагаем стратегию защиты от таких атак, однако разработка более продвинутых методов защиты остается сложной задачей. Код для воспроизведения метода доступен по адресу https://github.com/XuandongZhao/weak-to-strong.
Современные методы манипуляции с изображениями в основном сосредоточены на статической обработке, такой как замена определенных областей изображения или изменение его общего стиля. В данной статье мы представляем инновационную задачу динамической манипуляции — перестановку объекта. Эта задача предполагает перемещение указанного пользователем объекта в желаемую позицию с сохранением реалистичности изображения. Наше исследование показывает, что основные подзадачи перестановки объекта, включая заполнение пустоты, оставшейся после перемещения объекта, восстановление скрытых частей объекта и гармоничное встраивание объекта в окружающую область, могут быть эффективно переформулированы как единая задача инпантинга, управляемая подсказками. В результате мы можем использовать одну диффузионную генеративную модель для решения этих подзадач с помощью различных подсказок, изученных с помощью предложенной нами техники инверсии задач. Дополнительно мы интегрируем методы предварительной и последующей обработки для дальнейшего повышения качества перестановки объекта. Эти элементы вместе формируют наш фреймворк SEgment-gEnerate-and-bLEnd (SEELE). Для оценки эффективности SEELE в задаче перестановки объекта мы собрали набор данных реальных изображений для перестановки объектов, названный ReS. Наши результаты на ReS демонстрируют качество генерации изображений с переставленными объектами.
Недавние исследования выступают за полностью открытые базовые модели для повышения прозрачности и развития открытой науки. В качестве первого шага, модель Open Whisper-style Speech Model (OWSM) воспроизвела Whisper от OpenAI, используя общедоступные данные и инструменты с открытым исходным кодом. С целью воспроизведения Whisper, предыдущие версии OWSM v1–v3 были основаны на архитектуре Transformer, что могло приводить к ухудшению производительности по сравнению с другими современными кодировщиками речи. В данной работе мы стремимся улучшить производительность и эффективность OWSM без использования дополнительных обучающих данных. Мы представляем модели OWSM v3.1 на основе E-Branchformer в двух масштабах: 100M и 1B. Модель с 1B параметрами является крупнейшей моделью речи на основе E-Branchformer, которая была опубликована в открытом доступе. Она превосходит предыдущую версию OWSM v3 на большинстве оценочных тестов, демонстрируя при этом до 25% более высокую скорость вывода. Мы публикуем скрипты подготовки данных, предобученные модели и журналы обучения.
Восстановление изображений — это фундаментальная задача, которая заключается в получении высококачественного чистого изображения из его деградировавшего наблюдения. Универсальные модели восстановления изображений (All-In-One) способны эффективно восстанавливать изображения от различных типов и уровней деградации, используя информацию о конкретных видах деградации в качестве подсказок для управления процессом восстановления. В данной работе мы представляем первый подход, в котором для управления моделью восстановления изображений используются инструкции, написанные человеком. При наличии естественноязыковых подсказок наша модель может восстанавливать высококачественные изображения из их деградировавших версий, учитывая множественные типы деградации. Наш метод, InstructIR, достигает наилучших результатов на нескольких задачах восстановления, включая удаление шума, устранение дождя, размытия, тумана и улучшение изображений при слабом освещении. InstructIR улучшает результаты на +1 дБ по сравнению с предыдущими универсальными методами восстановления. Более того, наш набор данных и результаты представляют собой новый эталон для дальнейших исследований в области текстово-управляемого восстановления и улучшения изображений. Наш код, наборы данных и модели доступны по адресу: https://github.com/mv-lab/InstructIR.
Хотя крупные языковые модели (LLM) всё чаще используются для синтеза программ, им не хватает глобального представления, необходимого для создания полезных абстракций; они обычно предсказывают программы по одной, часто повторяя одну и ту же функциональность. Генерация избыточного кода с нуля является как неэффективной, так и подверженной ошибкам. Чтобы решить эту проблему, мы предлагаем метод Refactoring for Generalizable Abstraction Learning (ReGAL), градиент-фри подход для изучения библиотеки повторно используемых функций через рефакторизацию кода, то есть реструктуризацию кода без изменения его результата выполнения. ReGAL обучается на небольшом наборе существующих программ, итеративно проверяя и уточняя свои абстракции через выполнение. Мы обнаруживаем, что общие библиотеки функций, обнаруженные ReGAL, делают программы более предсказуемыми в различных областях. На трёх наборах данных (генерация графики LOGO, рассуждения о датах и TextCraft, текстовая игра на основе Minecraft) как открытые, так и проприетарные LLM показывают улучшение точности при предсказании программ с функциями ReGAL. Для CodeLlama-13B ReGAL приводит к абсолютному увеличению точности на 11,5% в графике, 26,1% в понимании дат и 8,1% в TextCraft, превосходя GPT-3.5 в двух из трёх областей. Наш анализ показывает, что абстракции ReGAL инкапсулируют часто используемые подпрограммы, а также динамику окружения.
Современные крупные модели обработки визуальной и языковой информации (VLMs) часто сталкиваются с такими проблемами, как недостаточная эффективность отдельных визуальных компонентов и чрезмерно длинные визуальные токены. Эти ограничения могут снижать способность модели точно интерпретировать сложную визуальную информацию и обрабатывать избыточно длинные контекстные данные. Решение этих проблем имеет ключевое значение для повышения производительности и применимости VLMs. В данной работе предлагается использование техники ансамбля экспертов, которая объединяет возможности отдельных визуальных кодировщиков, включая специалистов в области сопоставления изображений и текста, оптического распознавания символов (OCR), сегментации изображений и других задач. Данная техника вводит сеть слияния для унификации обработки выходных данных от различных визуальных экспертов, одновременно устраняя разрыв между кодировщиками изображений и предварительно обученными языковыми моделями (LLMs). Кроме того, исследуются различные схемы позиционного кодирования для минимизации потерь, вызванных длинными последовательностями визуальных признаков, что эффективно решает проблемы переполнения позиций и ограничений по длине. Например, в нашей реализации эта техника значительно сокращает использование позиционных кодировок в таких моделях, как SAM, с 4096 до более эффективных и управляемых значений, таких как 64 или даже 1. Экспериментальные результаты показывают, что VLMs с использованием нескольких экспертов демонстрируют стабильно более высокую производительность по сравнению с изолированными визуальными кодировщиками, а интеграция большего числа экспертов приводит к значительному увеличению эффективности. Мы открыли исходный код для обучения, использованный в данном исследовании. Все ресурсы доступны на сайте нашего проекта.
Крупные языковые модели всё чаще полагаются на распределённые методы для их обучения и вывода. Эти методы требуют взаимодействия между устройствами, что может снижать эффективность масштабирования с увеличением количества устройств. Хотя некоторые распределённые методы могут перекрываться и, таким образом, скрывать это взаимодействие за счёт независимых вычислений, такие методы, как тензорный параллелизм (TP), по своей природе сериализуют взаимодействие с выполнением модели. Один из подходов для скрытия этой сериализованной коммуникации заключается в её тонком переплетении с операцией-производителем (данных, передаваемых в процессе взаимодействия). Однако такое тонкое переплетение коммуникации и вычислений на уровне программного обеспечения может быть сложным. Более того, как и в любом параллельном выполнении, оно требует совместного использования вычислительных и ресурсов памяти между вычислениями и коммуникацией, что приводит к конкуренции за ресурсы и снижает эффективность перекрытия. Для преодоления этих проблем мы предлагаем T3, который применяет совместное проектирование аппаратного и программного обеспечения для прозрачного перекрытия сериализованной коммуникации при минимизации конкуренции за ресурсы с вычислениями. T3 прозрачно объединяет операции-производители с последующей коммуникацией через простую настройку адресного пространства вывода производителя и требует минимальных изменений в программном обеспечении. На аппаратном уровне T3 добавляет лёгкий механизм отслеживания и запуска для координации вычислений и коммуникации производителя. Кроме того, он использует вычислительно-усиленные памяти для вспомогательных вычислений, связанных с коммуникацией. В результате T3 снижает конкуренцию за ресурсы и эффективно перекрывает сериализованную коммуникацию с вычислениями. Для важных моделей трансформеров, таких как T-NLG, T3 ускоряет подуровни с интенсивной коммуникацией на 30% в среднем (максимум 47%) и сокращает перемещение данных на 22% в среднем (максимум 36%). Более того, преимущества T3 сохраняются при масштабировании моделей: в среднем 29% для подуровней в моделях с 500 миллиардами параметров, таких как PALM и MT-NLG.