Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модель согласованности (CM) недавно сделала значительный прогресс в ускорении генерации моделей диффузии. Однако ее применение к генерации изображений, зависящих от текста, высокого разрешения в латентном пространстве (так называемая LCM), остается неудовлетворительным. В данной статье мы выявляем три ключевых недостатка в текущем дизайне LCM. Мы исследуем причины этих ограничений и предлагаем Модель Фазовой Согласованности (PCM), которая обобщает пространство дизайна и устраняет все выявленные недостатки. Наши оценки показывают, что PCM значительно превосходит LCM настройках генерации от 1 до 16 шагов. Хотя PCM специально разработана для многошагового уточнения, она достигает даже более высоких или сравнимых результатов генерации на 1 шаге по сравнению с ранее передовыми методами, специально разработанными для генерации на 1 шаге. Более того, мы показываем, что методология PCM универсальна и применима к генерации видео, что позволяет нам обучить передовой генератор текста в видео на несколько шагов. Более подробная информация доступна на https://g-u-n.github.io/projects/pcm/.
По мере увеличения размера и сложности глубоких нейронных сетей (DNN), они часто превышают объем памяти одного ускорителя, что требует разделения параметров модели между несколькими ускорителями. Параллелизм конвейеров - распространенная стратегия разделения для обучения больших DNN. Однако текущие реализации параллелизма конвейеров неумышленно замедляются инструментами автоматического дифференцирования, предоставляемыми фреймворками машинного обучения. В данной статье представлена 2-х ступенчатая обратная передача (2BP). Разделив шаг обратного распространения на два отдельных этапа, мы можем сократить время простоя вычислений. Мы протестировали 2BP на различных архитектурах моделей и графиках конвейеризации, добившись увеличения пропускной способности во всех случаях. Используя 2BP, мы смогли достичь увеличения пропускной способности в 1,70 раза по сравнению с традиционными методами при обучении трансформера подобного LLaMa с 7 миллиардами параметров на 4 графических процессорах.
Недавние достижения в области редактирования текста в музыку, которые используют текстовые запросы для модификации музыки (например, изменение стиля или коррекцию инструментальных компонентов), представляют уникальные вызовы и возможности для создания музыки с помощью искусственного интеллекта. Предыдущие подходы в этой области ограничивались необходимостью обучения специфических моделей редактирования с нуля, что является затратным и неэффективным; другие исследования используют большие языковые модели для предсказания отредактированной музыки, что приводит к неточной реконструкции аудио. Для объединения преимуществ и преодоления этих ограничений мы представляем Instruct-MusicGen, новый подход, который донастраивает предварительно обученную модель MusicGen для эффективного выполнения инструкций по редактированию, таких как добавление, удаление или разделение компонентов. Наш подход включает модификацию исходной архитектуры MusicGen путем внедрения модуля текстового слияния и модуля аудио слияния, которые позволяют модели обрабатывать текстовые инструкции и аудио входы одновременно и получать желаемую отредактированную музыку. Замечательно, Instruct-MusicGen вносит всего 8% новых параметров в исходную модель MusicGen и обучается всего 5 тыс. шагов, однако достигает превосходных результатов по всем задачам по сравнению с существующими базовыми моделями и демонстрирует производительность, сравнимую с моделями, обученными для конкретных задач. Этот прогресс не только повышает эффективность редактирования текста в музыку, но также расширяет применимость языковых моделей в динамичных средах производства музыки.
Yuan 2.0-M32, имеющий аналогичную базовую архитектуру, как и Yuan-2.0 2B, использует архитектуру смеси экспертов с 32 экспертами, из которых активны 2 эксперта. Предложена и принята новая сеть маршрутизаторов, Attention Router, для более эффективного выбора экспертов, что увеличивает точность на 3.8% по сравнению с моделью с классической сетью маршрутизаторов. Yuan 2.0-M32 обучается с нуля на 2000B токенах, и расход вычислений обучения составляет всего лишь 9.25% от плотной модели с тем же параметрическим масштабом. Yuan 2.0-M32 демонстрирует конкурентоспособные возможности в области кодирования, математики и различных областей экспертизы, имея только 3.7B активных параметров из общего числа 40B и 7.4 GFlops прямого вычисления на токен, оба из которых составляют всего 1/19 от Llama3-70B. Yuan 2.0-M32 превосходит Llama3-70B на бенчмарках MATH и ARC-Challenge с точностью 55.89 и 95.8 соответственно. Модели и исходные коды Yuan 2.0-M32 доступны на Github.
Способности современных крупных языковых моделей (LLM) в решении задач обработки естественного языка, сложного рассуждения, анализа тональности и других задач были выдающимися, что привело к их широкому применению. К сожалению, эти способности сопряжены с очень высокими затратами на память и вычисления, что делает невозможным использование LLM на большинстве аппаратных платформ. Для устранения этого мы предлагаем эффективный метод нахождения сетевых архитектур, оптимальных по Парето, на основе LLaMA2-7B с использованием одношагового NAS. В частности, мы настраиваем LLaMA2-7B всего один раз, а затем применяем поиск на основе генетического алгоритма для нахождения более маленьких, менее вычислительно сложных сетевых архитектур. Мы показываем, что для определенных стандартных бенчмарков LLaMA2-7B, предварительно обученная сеть, является излишне большой и сложной. Более конкретно, мы демонстрируем уменьшение размера модели в 1,5 раза и ускорение пропускной способности в 1,3 раза для определенных задач с незначительным снижением точности. Помимо нахождения более маленьких, более производительных сетевых архитектур, наш метод делает это более эффективно и эффективно, чем некоторые техники обрезки или разреженности. Наконец, мы демонстрируем, как квантование дополняет наш метод и что размер и сложность найденных нами сетей могут быть дополнительно уменьшены с использованием квантования. Мы считаем, что наша работа предоставляет способ автоматического создания LLM, которые могут быть использованы на менее дорогих и более доступных аппаратных платформах.
Восстановление 4D сцен из видео входов является важной, но сложной задачей. Традиционные методы обычно полагаются на предположения о многокамерных видео входах, известных параметрах камеры или статических сценах, которые обычно отсутствуют в условиях "дикой" природы. В данной статье мы снимаем все эти ограничения и решаем высокоамбициозную, но практическую задачу, которую мы назвали AnyV4D: мы предполагаем, что доступно только одно монокулярное видео без каких-либо параметров камеры на входе, и наша цель - восстановить динамический 4D мир наряду с позами камеры. Для этого мы представляем GFlow, новую структуру, которая использует только 2D априорные данные (глубину и оптический поток), чтобы преобразовать видео (3D) в явное представление 4D, включая поток гауссовского сплетения в пространстве и времени. GFlow сначала кластеризует сцену на неподвижные и движущиеся части, затем применяет последовательный процесс оптимизации, который оптимизирует позы камеры и динамику 3D гауссовских точек на основе 2D априорных данных и кластеризации сцены, обеспечивая согласованность соседних точек и плавное движение между кадрами. Поскольку динамические сцены всегда вносят новый контент, мы также предлагаем новую стратегию плотного заполнения пикселей для гауссовских точек для интеграции нового визуального контента. Более того, GFlow преодолевает границы простого восстановления 4D; он также позволяет отслеживать любые точки на протяжении кадров без необходимости предварительного обучения и сегментирует движущиеся объекты из сцены способом без учителя. Кроме того, позы камеры каждого кадра могут быть получены из GFlow, что позволяет создавать новые виды видеосцены путем изменения позы камеры. Используя явное представление, мы можем легко проводить редактирование на уровне сцены или объекта по желанию, подчеркивая его гибкость и мощь. Посетите наш веб-сайт проекта по адресу: https://littlepure2333.github.io/GFlow
Большие языковые модели (LLM) недавно стали мощными инструментами для решения многих задач обработки языка. Несмотря на их успех, обучение и настройка этих моделей по-прежнему требуют слишком много вычислительных ресурсов и памяти. В данной статье мы выявляем и характеризуем важные компоненты, необходимые для эффективной сходимости модели с использованием градиентного спуска. При этом мы обнаружили, что промежуточные активации, используемые для реализации обратного распространения ошибки, могут быть избыточно сжаты без ухудшения производительности. Этот результат приводит нас к дешевому и эффективному с точки зрения памяти алгоритму как для настройки, так и для предварительного обучения LLM. Предложенный алгоритм просто разделяет токены на более мелкие подтокены перед их проецированием на фиксированное одномерное подпространство во время прямого прохода. Затем эти признаки грубо восстанавливаются во время обратного прохода для реализации правил обновления. Мы подтверждаем эффективность нашего алгоритма как дополнительного к многим передовым методам PEFT на тесте настройки VTAB-1k. Более того, мы превосходим QLoRA для настройки LLaMA и демонстрируем конкурентоспособную производительность по сравнению с другими методами память-эффективного предварительного обучения на масштабном наборе данных C4.
Редактирование изображений сцен является важным для развлечений, фотографии и дизайна рекламы. Существующие методы сосредотачиваются либо на 2D отдельных объектах, либо на 3D глобальном редактировании сцен. Это приводит к отсутствию унифицированного подхода к эффективному управлению и манипулированию сценами на 3D уровне с разными уровнями детализации. В данной работе мы предлагаем 3DitScene, новую и унифицированную платформу редактирования сцен, использующую разделенное гауссово сглаживание с управлением на языке, что позволяет бесшовное редактирование от 2D к 3D, обеспечивая точный контроль над композицией сцены и отдельными объектами. Сначала мы внедряем 3D гауссианы, которые уточняются через генеративные априорные знания и оптимизационные методы. Затем языковые особенности из CLIP вводят семантику в 3D геометрию для разделения объектов. С помощью разделенных гауссиан 3DitScene позволяет манипулировать как на глобальном, так и на индивидуальном уровнях, революционизируя творческое выражение и обеспечивая контроль над сценами и объектами. Экспериментальные результаты демонстрируют эффективность и универсальность 3DitScene в редактировании изображений сцен. Код и онлайн-демонстрация доступны на домашней странице нашего проекта: https://zqh0253.github.io/3DitScene/.