Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы предлагаем новый метод вывода, основанный на предварительно обученной модели диффузии для генерации видео с учетом текста. Наш подход, названный FIFO-Diffusion, концептуально способен генерировать бесконечно длинные видео без обучения. Это достигается путем итеративного выполнения диагональной денойзинга, который одновременно обрабатывает серию последовательных кадров с увеличением уровня шума в очереди; наш метод извлекает полностью денойзингированный кадр в начале, в то время как добавляет новый случайный шумовой кадр в конец. Однако диагональный денойзинг - это меч с двумя лезвиями, так как кадры около конца могут воспользоваться более чистыми кадрами посредством прямой ссылки, но такая стратегия вызывает расхождение между обучением и выводом. Поэтому мы вводим разделение латентных переменных для уменьшения разрыва между обучением и выводом, а также денойзинг с просмотром вперед для использования преимуществ прямой ссылки. Мы продемонстрировали многообещающие результаты и эффективность предложенных методов на существующих базовых моделях генерации видео по тексту.
Адаптация низкого ранга является популярным методом эффективной настройки параметров для больших языковых моделей. В данной статье мы анализируем влияние низкорангового обновления, реализованного в LoRA. Наши результаты показывают, что механизм низкорангового обновления может ограничивать способность LLMs эффективно учиться и запоминать новые знания. Вдохновленные этим наблюдением, мы предлагаем новый метод под названием MoRA, который использует квадратную матрицу для достижения обновления высокого ранга при сохранении того же количества обучаемых параметров. Для этого мы вводим соответствующие непараметрические операторы для уменьшения размерности входа и увеличения размерности выхода для квадратной матрицы. Более того, эти операторы обеспечивают возможность объединения весов обратно в LLMs, что позволяет нашему методу быть развернутым, как LoRA. Мы проводим всестороннюю оценку нашего метода на пяти задачах: настройка инструкций, математическое рассуждение, непрерывное предварительное обучение, память и предварительное обучение. Наш метод превосходит LoRA на задачах с высоким объемом памяти и достигает сопоставимой производительности на других задачах.
Поскольку крупные языковые модели (LLM) продолжают расти в соответствии с законами масштабирования, обучение с подкреплением на основе обратной связи от человека (RLHF) привлекло значительное внимание благодаря своим выдающимся показателям. Однако в отличие от предварительного обучения или донастройки одной модели, масштабирование обучения с подкреплением на основе обратной связи от человека (RLHF) для обучения крупных языковых моделей представляет собой вызов с точки зрения координации между четырьмя моделями. Мы представляем OpenRLHF, открытую платформу, обеспечивающую эффективное масштабирование RLHF. В отличие от существующих платформ RLHF, которые размещают четыре модели на одних и тех же графических процессорах, OpenRLHF перерабатывает планирование для моделей, превышающих 70 миллиардов параметров, с использованием Ray, vLLM и DeepSpeed, опираясь на улучшенное использование ресурсов и разнообразные методики обучения. Интегрируясь плавно с Hugging Face, OpenRLHF предоставляет готовое решение с оптимизированными алгоритмами и запускными скриптами, что обеспечивает удобство использования. OpenRLHF реализует RLHF, DPO, отборочную выборку и другие методы выравнивания. Повышая уровень развития LLM новейшего поколения, код OpenRLHF доступен по адресу https://github.com/OpenLLMAI/OpenRLHF.
Растущее количество параметроэффективных адаптаций базовой крупной модели языка (LLM) требует изучения возможности повторного использования таких обученных адаптеров для улучшения производительности на новых задачах. Мы исследуем, как лучше всего создать библиотеку адаптеров на основе мультизадачных данных и разрабатываем методики как для обобщения задач как с нулевым шотом, так и с учителем через маршрутизацию в такой библиотеке. Мы сравниваем существующие подходы к созданию этой библиотеки и представляем модельно-основанную кластеризацию, MBC, метод, который группирует задачи на основе сходства их параметров адаптеров, косвенно оптимизируя передачу через мультизадачный набор данных. Для повторного использования библиотеки мы представляем новый механизм нулевой маршрутизации, Arrow, который обеспечивает динамический выбор наиболее релевантных адаптеров для новых входных данных без необходимости повторного обучения. Мы экспериментируем с несколькими LLM, такими как Phi-2 и Mistral, на широком спектре задач, подтверждая, что адаптеры на основе MBC и маршрутизация Arrow приводят к превосходному обобщению на новые задачи. Мы делаем шаги к созданию модульных, адаптивных LLM, способных соответствовать или превзойти традиционное совместное обучение.
Путем использования возможностей крупных языковых моделей (LLM) недавние крупные мультимодальные модели (LMM) продемонстрировали замечательную гибкость в понимании мультимодальных данных в открытом мире. Тем не менее, они обычно требуют большого количества параметров и вычислительных ресурсов, что затрудняет их применение в условиях ограниченных ресурсов. В этой связи было предложено несколько легких LMM последовательно для максимизации возможностей при ограниченном масштабе (например, 3B). Несмотря на обнадеживающие результаты, достигнутые этими методами, большинство из них сосредоточены только на одном или двух аспектах пространства проектирования, и ключевые выборы проектирования, влияющие на возможности модели, еще не были тщательно изучены. В данной статье мы проводим систематическое исследование легких LMM с точки зрения архитектуры модели, стратегии обучения и обучающих данных. Основываясь на наших выводах, мы создаем Imp - семейство высококвалифицированных LMM в масштабах от 2B до 4B. Заметно, что наша модель Imp-3B стабильно превосходит все существующие легкие LMM схожего размера, и даже превосходит передовые LMM в масштабе 13B. С использованием техник квантования низкого разрешения и уменьшения разрешения нашу модель Imp можно развернуть на мобильном чипе Qualcomm Snapdragon 8Gen3 с высокой скоростью вывода около 13 токенов/с.
Большие заранее обученные политики на разнообразных наборах данных роботов имеют потенциал трансформировать обучение роботов: вместо обучения новых политик с нуля, такие общие политики роботов могут быть дообучены с минимальным количеством данных в предметной области, при этом обладая широкой обобщающей способностью. Однако для широкого применения в различных сценариях обучения роботов, средах и задачах, такие политики должны обрабатывать разнообразные сенсоры и пространства действий, адаптироваться к различным распространенным робототехническим платформам и легко и эффективно дообучаться в новых областях. В данной работе мы стремимся заложить основы для разработки открытых, широко применимых, общих политик для робототехнического манипулирования. В качестве первого шага мы представляем Octo, большую политику на основе трансформера, обученную на 800 тыс. траекториях из набора данных Open X-Embodiment, крупнейшего на сегодняшний день набора данных по манипулированию роботов. Она может быть инструктирована с помощью языковых команд или целевых изображений и может быть эффективно дообучена к настройкам робота с новыми сенсорными входами и пространствами действий в течение нескольких часов на стандартных потребительских GPU. В экспериментах на 9 робототехнических платформах мы демонстрируем, что Octo служит в качестве универсальной инициализации политики, которую можно эффективно дообучить к новым пространствам наблюдений и действий. Мы также проводим детальные абляции дизайнерских решений для модели Octo, от архитектуры до обучающих данных, чтобы направить будущие исследования по созданию общих моделей роботов.
Трансформеры стали основополагающими архитектурами как для задач обработки естественного языка, так и для задач компьютерного зрения. Однако высокая вычислительная стоимость делает их довольно сложными для развертывания на устройствах с ограниченными ресурсами. В данной статье исследуются вычислительные узкие места эффективного трансформера, а именно слои нормализации и модули внимания. LayerNorm обычно используется в архитектурах трансформеров, но не является вычислительно эффективным из-за статистических вычислений во время вывода. Однако замена LayerNorm более эффективным BatchNorm в трансформере часто приводит к ухудшению производительности и краху обучения. Для решения этой проблемы мы предлагаем новый метод под названием PRepBN для постепенной замены LayerNorm на перепараметризованный BatchNorm во время обучения. Более того, мы предлагаем упрощенный линейный модуль внимания (SLA), который прост в реализации, но эффективен для достижения высокой производительности. Обширные эксперименты по классификации изображений, а также по обнаружению объектов, демонстрируют эффективность нашего предложенного метода. Например, наш SLAB-Swin достигает точности на уровне 83.6% top-1 на ImageNet-1K с задержкой 16.2 мс, что на 2.4 мс меньше, чем у Flatten-Swin, при точности на 0.1% выше. Мы также оценили наш метод для задачи языкового моделирования и получили сопоставимую производительность и более низкую задержку. Коды доступны по ссылкам https://github.com/xinghaochen/SLAB и https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLAB.
В данной работе мы предлагаем новый метод Trajectory Score Matching (TSM), который направлен на решение проблемы несоответствия псевдоистине, вызванной накопленной ошибкой в методе Interval Score Matching (ISM) при использовании процесса инверсии в моделях неявной диффузии шумоподавления (DDIM). В отличие от ISM, который применяет процесс инверсии DDIM для вычислений по одному пути, наш метод TSM использует процесс инверсии DDIM для создания двух путей из одной и той же начальной точки для вычислений. Поскольку оба пути начинаются с одной и той же начальной точки, TSM способен сократить накопленную ошибку по сравнению с ISM, тем самым уменьшая проблему несоответствия псевдоистине. TSM повышает стабильность и последовательность сгенерированных моделью путей в процессе дистилляции. Мы экспериментально продемонстрировали это и также показали, что ISM является частным случаем TSM. Кроме того, для оптимизации текущего многоэтапного процесса оптимизации от текста высокого разрешения к генерации 3D, мы используем Stable Diffusion XL в качестве руководства. В ответ на проблемы аномального копирования и разделения, вызванные нестабильными градиентами во время процесса гауссовского сплетения 3D при использовании Stable Diffusion XL, мы предлагаем метод обрезки градиента пиксель за пикселем. Обширные эксперименты показывают, что наша модель значительно превосходит существующие модели по качеству изображения и производительности. Код: https://github.com/xingy038/Dreamer-XL.