Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Модель фазовой согласованности
Phased Consistency Model

May 28

ByFu-Yun Wang, Zhaoyang Huang, Alexander William Bergman, Dazhong Shen, Peng Gao, Michael Lingelbach, Keqiang Sun, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li, Xiaogang Wang

Модель согласованности (CM) недавно сделала значительный прогресс в ускорении генерации моделей диффузии. Однако ее применение к генерации изображений, зависящих от текста, высокого разрешения в латентном пространстве (так называемая LCM), остается неудовлетворительным. В данной статье мы выявляем три ключевых недостатка в текущем дизайне LCM. Мы исследуем причины этих ограничений и предлагаем Модель Фазовой Согласованности (PCM), которая обобщает пространство дизайна и устраняет все выявленные недостатки. Наши оценки показывают, что PCM значительно превосходит LCM настройках генерации от 1 до 16 шагов. Хотя PCM специально разработана для многошагового уточнения, она достигает даже более высоких или сравнимых результатов генерации на 1 шаге по сравнению с ранее передовыми методами, специально разработанными для генерации на 1 шаге. Более того, мы показываем, что методология PCM универсальна и применима к генерации видео, что позволяет нам обучить передовой генератор текста в видео на несколько шагов. Более подробная информация доступна на https://g-u-n.github.io/projects/pcm/.

2BP: Двухэтапное обратное распространение
2BP: 2-Stage Backpropagation

May 28

ByChristopher Rae, Joseph K. L. Lee, James Richings

По мере увеличения размера и сложности глубоких нейронных сетей (DNN), они часто превышают объем памяти одного ускорителя, что требует разделения параметров модели между несколькими ускорителями. Параллелизм конвейеров - распространенная стратегия разделения для обучения больших DNN. Однако текущие реализации параллелизма конвейеров неумышленно замедляются инструментами автоматического дифференцирования, предоставляемыми фреймворками машинного обучения. В данной статье представлена 2-х ступенчатая обратная передача (2BP). Разделив шаг обратного распространения на два отдельных этапа, мы можем сократить время простоя вычислений. Мы протестировали 2BP на различных архитектурах моделей и графиках конвейеризации, добившись увеличения пропускной способности во всех случаях. Используя 2BP, мы смогли достичь увеличения пропускной способности в 1,70 раза по сравнению с традиционными методами при обучении трансформера подобного LLaMa с 7 миллиардами параметров на 4 графических процессорах.

Instruct-MusicGen: Разблокирование редактирования текста в музыку для моделей языка музыки через настройку инструкций
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

May 28

ByYixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon

Недавние достижения в области редактирования текста в музыку, которые используют текстовые запросы для модификации музыки (например, изменение стиля или коррекцию инструментальных компонентов), представляют уникальные вызовы и возможности для создания музыки с помощью искусственного интеллекта. Предыдущие подходы в этой области ограничивались необходимостью обучения специфических моделей редактирования с нуля, что является затратным и неэффективным; другие исследования используют большие языковые модели для предсказания отредактированной музыки, что приводит к неточной реконструкции аудио. Для объединения преимуществ и преодоления этих ограничений мы представляем Instruct-MusicGen, новый подход, который донастраивает предварительно обученную модель MusicGen для эффективного выполнения инструкций по редактированию, таких как добавление, удаление или разделение компонентов. Наш подход включает модификацию исходной архитектуры MusicGen путем внедрения модуля текстового слияния и модуля аудио слияния, которые позволяют модели обрабатывать текстовые инструкции и аудио входы одновременно и получать желаемую отредактированную музыку. Замечательно, Instruct-MusicGen вносит всего 8% новых параметров в исходную модель MusicGen и обучается всего 5 тыс. шагов, однако достигает превосходных результатов по всем задачам по сравнению с существующими базовыми моделями и демонстрирует производительность, сравнимую с моделями, обученными для конкретных задач. Этот прогресс не только повышает эффективность редактирования текста в музыку, но также расширяет применимость языковых моделей в динамичных средах производства музыки.

Yuan 2.0-M32: Смесь экспертов с маршрутизатором внимания
Yuan 2.0-M32: Mixture of Experts with Attention Router

May 28

ByShaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen

Yuan 2.0-M32, имеющий аналогичную базовую архитектуру, как и Yuan-2.0 2B, использует архитектуру смеси экспертов с 32 экспертами, из которых активны 2 эксперта. Предложена и принята новая сеть маршрутизаторов, Attention Router, для более эффективного выбора экспертов, что увеличивает точность на 3.8% по сравнению с моделью с классической сетью маршрутизаторов. Yuan 2.0-M32 обучается с нуля на 2000B токенах, и расход вычислений обучения составляет всего лишь 9.25% от плотной модели с тем же параметрическим масштабом. Yuan 2.0-M32 демонстрирует конкурентоспособные возможности в области кодирования, математики и различных областей экспертизы, имея только 3.7B активных параметров из общего числа 40B и 7.4 GFlops прямого вычисления на токен, оба из которых составляют всего 1/19 от Llama3-70B. Yuan 2.0-M32 превосходит Llama3-70B на бенчмарках MATH и ARC-Challenge с точностью 55.89 и 95.8 соответственно. Модели и исходные коды Yuan 2.0-M32 доступны на Github.

LLaMA-NAS: Эффективный поиск архитектуры нейронных сетей для больших языковых моделей
LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

May 28

ByAnthony Sarah, Sharath Nittur Sridhar, Maciej Szankin, Sairam Sundaresan

Способности современных крупных языковых моделей (LLM) в решении задач обработки естественного языка, сложного рассуждения, анализа тональности и других задач были выдающимися, что привело к их широкому применению. К сожалению, эти способности сопряжены с очень высокими затратами на память и вычисления, что делает невозможным использование LLM на большинстве аппаратных платформ. Для устранения этого мы предлагаем эффективный метод нахождения сетевых архитектур, оптимальных по Парето, на основе LLaMA2-7B с использованием одношагового NAS. В частности, мы настраиваем LLaMA2-7B всего один раз, а затем применяем поиск на основе генетического алгоритма для нахождения более маленьких, менее вычислительно сложных сетевых архитектур. Мы показываем, что для определенных стандартных бенчмарков LLaMA2-7B, предварительно обученная сеть, является излишне большой и сложной. Более конкретно, мы демонстрируем уменьшение размера модели в 1,5 раза и ускорение пропускной способности в 1,3 раза для определенных задач с незначительным снижением точности. Помимо нахождения более маленьких, более производительных сетевых архитектур, наш метод делает это более эффективно и эффективно, чем некоторые техники обрезки или разреженности. Наконец, мы демонстрируем, как квантование дополняет наш метод и что размер и сложность найденных нами сетей могут быть дополнительно уменьшены с использованием квантования. Мы считаем, что наша работа предоставляет способ автоматического создания LLM, которые могут быть использованы на менее дорогих и более доступных аппаратных платформах.

GFlow: Восстановление 4D мира из монокулярного видео
GFlow: Recovering 4D World from Monocular Video

May 28

ByShizun Wang, Xingyi Yang, Qiuhong Shen, Zhenxiang Jiang, Xinchao Wang

Восстановление 4D сцен из видео входов является важной, но сложной задачей. Традиционные методы обычно полагаются на предположения о многокамерных видео входах, известных параметрах камеры или статических сценах, которые обычно отсутствуют в условиях "дикой" природы. В данной статье мы снимаем все эти ограничения и решаем высокоамбициозную, но практическую задачу, которую мы назвали AnyV4D: мы предполагаем, что доступно только одно монокулярное видео без каких-либо параметров камеры на входе, и наша цель - восстановить динамический 4D мир наряду с позами камеры. Для этого мы представляем GFlow, новую структуру, которая использует только 2D априорные данные (глубину и оптический поток), чтобы преобразовать видео (3D) в явное представление 4D, включая поток гауссовского сплетения в пространстве и времени. GFlow сначала кластеризует сцену на неподвижные и движущиеся части, затем применяет последовательный процесс оптимизации, который оптимизирует позы камеры и динамику 3D гауссовских точек на основе 2D априорных данных и кластеризации сцены, обеспечивая согласованность соседних точек и плавное движение между кадрами. Поскольку динамические сцены всегда вносят новый контент, мы также предлагаем новую стратегию плотного заполнения пикселей для гауссовских точек для интеграции нового визуального контента. Более того, GFlow преодолевает границы простого восстановления 4D; он также позволяет отслеживать любые точки на протяжении кадров без необходимости предварительного обучения и сегментирует движущиеся объекты из сцены способом без учителя. Кроме того, позы камеры каждого кадра могут быть получены из GFlow, что позволяет создавать новые виды видеосцены путем изменения позы камеры. Используя явное представление, мы можем легко проводить редактирование на уровне сцены или объекта по желанию, подчеркивая его гибкость и мощь. Посетите наш веб-сайт проекта по адресу: https://littlepure2333.github.io/GFlow

VeLoRA: Обучение с памятью эффективное использование проекций подтокенов ранга 1
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections

May 28

ByRoy Miles, Pradyumna Reddy, Ismail Elezi, Jiankang Deng

Большие языковые модели (LLM) недавно стали мощными инструментами для решения многих задач обработки языка. Несмотря на их успех, обучение и настройка этих моделей по-прежнему требуют слишком много вычислительных ресурсов и памяти. В данной статье мы выявляем и характеризуем важные компоненты, необходимые для эффективной сходимости модели с использованием градиентного спуска. При этом мы обнаружили, что промежуточные активации, используемые для реализации обратного распространения ошибки, могут быть избыточно сжаты без ухудшения производительности. Этот результат приводит нас к дешевому и эффективному с точки зрения памяти алгоритму как для настройки, так и для предварительного обучения LLM. Предложенный алгоритм просто разделяет токены на более мелкие подтокены перед их проецированием на фиксированное одномерное подпространство во время прямого прохода. Затем эти признаки грубо восстанавливаются во время обратного прохода для реализации правил обновления. Мы подтверждаем эффективность нашего алгоритма как дополнительного к многим передовым методам PEFT на тесте настройки VTAB-1k. Более того, мы превосходим QLoRA для настройки LLaMA и демонстрируем конкурентоспособную производительность по сравнению с другими методами память-эффективного предварительного обучения на масштабном наборе данных C4.

3DitScene: Редактирование любой сцены с помощью языком управляемой дезентанглированной гауссовой проекции.
3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting

May 28

ByQihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang

Редактирование изображений сцен является важным для развлечений, фотографии и дизайна рекламы. Существующие методы сосредотачиваются либо на 2D отдельных объектах, либо на 3D глобальном редактировании сцен. Это приводит к отсутствию унифицированного подхода к эффективному управлению и манипулированию сценами на 3D уровне с разными уровнями детализации. В данной работе мы предлагаем 3DitScene, новую и унифицированную платформу редактирования сцен, использующую разделенное гауссово сглаживание с управлением на языке, что позволяет бесшовное редактирование от 2D к 3D, обеспечивая точный контроль над композицией сцены и отдельными объектами. Сначала мы внедряем 3D гауссианы, которые уточняются через генеративные априорные знания и оптимизационные методы. Затем языковые особенности из CLIP вводят семантику в 3D геометрию для разделения объектов. С помощью разделенных гауссиан 3DitScene позволяет манипулировать как на глобальном, так и на индивидуальном уровнях, революционизируя творческое выражение и обеспечивая контроль над сценами и объектами. Экспериментальные результаты демонстрируют эффективность и универсальность 3DitScene в редактировании изображений сцен. Код и онлайн-демонстрация доступны на домашней странице нашего проекта: https://zqh0253.github.io/3DitScene/.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Модель фазовой согласованности
Phased Consistency Model

May 28

ByFu-Yun Wang, Zhaoyang Huang, Alexander William Bergman, Dazhong Shen, Peng Gao, Michael Lingelbach, Keqiang Sun, Weikang Bian, Guanglu Song, Yu Liu, Hongsheng Li, Xiaogang Wang

2BP: Двухэтапное обратное распространение
2BP: 2-Stage Backpropagation

May 28

ByChristopher Rae, Joseph K. L. Lee, James Richings

Instruct-MusicGen: Разблокирование редактирования текста в музыку для моделей языка музыки через настройку инструкций
Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning

May 28

ByYixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco A. Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon

Yuan 2.0-M32: Смесь экспертов с маршрутизатором внимания
Yuan 2.0-M32: Mixture of Experts with Attention Router

May 28

ByShaohua Wu, Jiangang Luo, Xi Chen, Lingjun Li, Xudong Zhao, Tong Yu, Chao Wang, Yue Wang, Fei Wang, Weixu Qiao, Houbo He, Zeru Zhang, Zeyu Sun, Junxiong Mao, Chong Shen

LLaMA-NAS: Эффективный поиск архитектуры нейронных сетей для больших языковых моделей
LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

May 28

ByAnthony Sarah, Sharath Nittur Sridhar, Maciej Szankin, Sairam Sundaresan

GFlow: Восстановление 4D мира из монокулярного видео
GFlow: Recovering 4D World from Monocular Video

May 28

ByShizun Wang, Xingyi Yang, Qiuhong Shen, Zhenxiang Jiang, Xinchao Wang

VeLoRA: Обучение с памятью эффективное использование проекций подтокенов ранга 1
VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections

May 28

ByRoy Miles, Pradyumna Reddy, Ismail Elezi, Jiankang Deng

3DitScene: Редактирование любой сцены с помощью языком управляемой дезентанглированной гауссовой проекции.
3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting

May 28

ByQihang Zhang, Yinghao Xu, Chaoyang Wang, Hsin-Ying Lee, Gordon Wetzstein, Bolei Zhou, Ceyuan Yang