Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

QA-LoRA: Квантование с учетом низкоранговой адаптации крупных языковых моделей
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

Sep 26, 2023

Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian

448

В последние годы наблюдается стремительное развитие крупных языковых моделей (LLM). Несмотря на их высокую эффективность в задачах понимания языка, значительная вычислительная нагрузка существенно ограничивает применение LLM, особенно при необходимости их развертывания на периферийных устройствах. В данной статье мы предлагаем алгоритм квантования с учетом низкоранговой адаптации (QA-LoRA). Основная мотивация заключается в дисбалансе степеней свободы квантования и адаптации, а решение состоит в использовании групповых операторов, которые увеличивают степень свободы квантования, одновременно уменьшая степень свободы адаптации. QA-LoRA легко реализуется с помощью нескольких строк кода и наделяет оригинальный LoRA двумя ключевыми возможностями: (i) во время тонкой настройки веса LLM квантуются (например, в INT4) для сокращения времени и использования памяти; (ii) после тонкой настройки LLM и вспомогательные веса естественным образом интегрируются в квантованную модель без потери точности. Мы применяем QA-LoRA к семействам моделей LLaMA и LLaMA2 и подтверждаем ее эффективность на различных наборах данных для тонкой настройки и в различных сценариях использования. Код будет доступен по адресу https://github.com/yuhuixu1993/qa-lora.

LAVIE: Генерация высококачественного видео с использованием каскадных моделей латентной диффузии
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

Sep 26, 2023

Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu

423

Данная работа направлена на создание высококачественной модели генерации видео из текста (Text-to-Video, T2V), используя предварительно обученную модель генерации изображений из текста (Text-to-Image, T2I) в качестве основы. Это крайне важная, но сложная задача, которая требует одновременного решения двух аспектов: а) синтеза визуально реалистичных и временно согласованных видео, а также б) сохранения мощной креативной генеративной природы предварительно обученной T2I модели. Для достижения этой цели мы предлагаем LaVie — интегрированную структуру генерации видео, основанную на каскадных моделях латентной диффузии для видео, включающую базовую T2V модель, модель временной интерполяции и модель супер-разрешения видео. Наши ключевые идеи заключаются в следующем: 1) Мы показываем, что включение простых временных self-attention механизмов в сочетании с ротационным позиционным кодированием адекватно захватывает временные корреляции, присущие видеоданным. 2) Кроме того, мы подтверждаем, что процесс совместной тонкой настройки изображений и видео играет ключевую роль в создании высококачественных и креативных результатов. Для повышения производительности LaVie мы представляем всеобъемлющий и разнообразный видеодатасет под названием Vimeo25M, состоящий из 25 миллионов текстово-видео пар, которые отличаются высоким качеством, разнообразием и эстетической привлекательностью. Многочисленные эксперименты демонстрируют, что LaVie достигает передовых показателей как количественно, так и качественно. Кроме того, мы демонстрируем универсальность предварительно обученных моделей LaVie в различных приложениях, таких как генерация длинных видео и персонализированный синтез видео.

DeepSpeed Ulysses: Системные оптимизации для обеспечения обучения трансформерных моделей с экстремально длинными последовательностями
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models

Sep 25, 2023

Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Leon Song, Samyam Rajbhandari, Yuxiong He

201

Вычисления в типичной крупной языковой модели (LLM), основанной на архитектуре Transformer, можно охарактеризовать через такие параметры, как размер пакета, размер скрытого слоя, количество слоев и длина последовательности. До настоящего времени работы по ускорению обучения LLM были сосредоточены на первых трех параметрах: параллелизм данных для размера пакета, параллелизм тензоров для размера скрытого слоя и параллелизм конвейеров для глубины модели или количества слоев. Эти широко изученные формы параллелизма не были оптимизированы для моделей Transformer с длинными последовательностями. Учитывая практические потребности в LLM с длинными последовательностями, внимание вновь привлекается к параллелизму последовательностей. Однако существующие работы в этой области ограничены неэффективностью использования памяти и коммуникаций, что ограничивает их масштабируемость для крупных моделей с длинными последовательностями. В данной работе мы представляем DeepSpeed-Ulysses — новую, переносимую и эффективную методологию, обеспечивающую высокоэффективное и масштабируемое обучение LLM с экстремально длинными последовательностями. В основе DeepSpeed-Ulysses лежит разделение входных данных по измерению последовательности и использование эффективной коллективной коммуникации типа "все-ко-всем" для вычисления внимания. Теоретический анализ коммуникаций показывает, что в то время как другие методы увеличивают накладные расходы на коммуникации с ростом длины последовательности, DeepSpeed-Ulysses сохраняет постоянный объем коммуникаций при пропорциональном увеличении длины последовательности и вычислительных устройств. Кроме того, экспериментальные оценки демонстрируют, что DeepSpeed-Ulysses обучается в 2,5 раза быстрее с последовательностями в 4 раза длиннее по сравнению с текущим методом, установленным в качестве SOTA-базиса.

Эффективное посттренировочное квантование с использованием форматов FP8
Efficient Post-training Quantization with FP8 Formats

Sep 26, 2023

Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang

112

Недавние достижения в методах глубокого обучения, таких как крупные языковые модели (LLM) и диффузионные модели, создали потребность в улучшенных методах квантования, которые могут соответствовать вычислительным требованиям этих современных архитектур, сохраняя при этом точность. В рамках этой цели мы исследуем преимущества форматов данных FP8 для посттренировочного квантования на 75 уникальных архитектурах сетей, охватывающих широкий спектр задач, включая машинный перевод, языковое моделирование, генерацию текста, классификацию изображений, генерацию и сегментацию. Мы изучаем три различных представления FP8 (E5M2, E4M3 и E3M4), чтобы исследовать влияние различных степеней компромисса между динамическим диапазоном и точностью на точность модели. На основе нашего обширного исследования мы разработали рабочий процесс квантования, который обобщается для различных архитектур сетей. Наши эмпирические результаты показывают, что форматы FP8 превосходят INT8 по нескольким аспектам, включая охват рабочих нагрузок (92,64% против 65,87%), точность модели и пригодность для более широкого диапазона операций. Кроме того, наши результаты свидетельствуют о том, что E4M3 лучше подходит для моделей NLP, тогда как E3M4 показывает немного лучшие результаты, чем E4M3, в задачах компьютерного зрения. Код доступен публично в Intel Neural Compressor: https://github.com/intel/neural-compressor.

Внимание удовлетворяет: подход к фактическим ошибкам языковых моделей через призму удовлетворения ограничений
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models

Sep 26, 2023

Mert Yuksekgonul, Varun Chandrasekaran, Erik Jones, Suriya Gunasekar, Ranjita Naik, Hamid Palangi, Ece Kamar, Besmira Nushi

Мы исследуем внутреннее поведение трансформерных больших языковых моделей (LLM) при генерации текста, содержащего фактические ошибки. Мы предлагаем моделировать фактологические запросы как задачи удовлетворения ограничений и используем этот подход для изучения того, как модель взаимодействует с фактологическими ограничениями на внутреннем уровне. В частности, мы обнаруживаем сильную положительную связь между вниманием модели к токенам ограничений и фактической точностью её ответов. В нашем тщательно отобранном наборе из 11 датасетов, содержащих более 40 000 запросов, мы изучаем задачу предсказания фактических ошибок для семейства моделей Llama-2 всех масштабов (7B, 13B, 70B). Мы предлагаем метод SAT Probe, который анализирует паттерны самовнимания и позволяет предсказывать выполнение ограничений и фактические ошибки, а также выявлять ошибки на ранних этапах. Наш подход и результаты демонстрируют, как использование механистического понимания фактологии в LLM может повысить их надежность.

DeepSpeed Ulysses: Системные оптимизации для обеспечения обучения трансформерных моделей с экстремально длинными последовательностями
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models

Sep 25, 2023

Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Leon Song, Samyam Rajbhandari, Yuxiong He

201

Ежедневные статьи

QA-LoRA: Квантование с учетом низкоранговой адаптации крупных языковых моделей
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

LAVIE: Генерация высококачественного видео с использованием каскадных моделей латентной диффузии
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

Эффективное посттренировочное квантование с использованием форматов FP8
Efficient Post-training Quantization with FP8 Formats

Внимание удовлетворяет: подход к фактическим ошибкам языковых моделей через призму удовлетворения ограничений
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models

Support

Support

Ежедневные статьи

QA-LoRA: Квантование с учетом низкоранговой адаптации крупных языковых моделей
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

LAVIE: Генерация высококачественного видео с использованием каскадных моделей латентной диффузии
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

Эффективное посттренировочное квантование с использованием форматов FP8
Efficient Post-training Quantization with FP8 Formats

Внимание удовлетворяет: подход к фактическим ошибкам языковых моделей через призму удовлетворения ограничений
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models