Ежедневно отобранные исследовательские статьи по ИИ с переводами
В последние годы наблюдается стремительное развитие крупных языковых моделей (LLM). Несмотря на их высокую эффективность в задачах понимания языка, значительная вычислительная нагрузка существенно ограничивает применение LLM, особенно при необходимости их развертывания на периферийных устройствах. В данной статье мы предлагаем алгоритм квантования с учетом низкоранговой адаптации (QA-LoRA). Основная мотивация заключается в дисбалансе степеней свободы квантования и адаптации, а решение состоит в использовании групповых операторов, которые увеличивают степень свободы квантования, одновременно уменьшая степень свободы адаптации. QA-LoRA легко реализуется с помощью нескольких строк кода и наделяет оригинальный LoRA двумя ключевыми возможностями: (i) во время тонкой настройки веса LLM квантуются (например, в INT4) для сокращения времени и использования памяти; (ii) после тонкой настройки LLM и вспомогательные веса естественным образом интегрируются в квантованную модель без потери точности. Мы применяем QA-LoRA к семействам моделей LLaMA и LLaMA2 и подтверждаем ее эффективность на различных наборах данных для тонкой настройки и в различных сценариях использования. Код будет доступен по адресу https://github.com/yuhuixu1993/qa-lora.
Данная работа направлена на создание высококачественной модели генерации видео из текста (Text-to-Video, T2V), используя предварительно обученную модель генерации изображений из текста (Text-to-Image, T2I) в качестве основы. Это крайне важная, но сложная задача, которая требует одновременного решения двух аспектов: а) синтеза визуально реалистичных и временно согласованных видео, а также б) сохранения мощной креативной генеративной природы предварительно обученной T2I модели. Для достижения этой цели мы предлагаем LaVie — интегрированную структуру генерации видео, основанную на каскадных моделях латентной диффузии для видео, включающую базовую T2V модель, модель временной интерполяции и модель супер-разрешения видео. Наши ключевые идеи заключаются в следующем: 1) Мы показываем, что включение простых временных self-attention механизмов в сочетании с ротационным позиционным кодированием адекватно захватывает временные корреляции, присущие видеоданным. 2) Кроме того, мы подтверждаем, что процесс совместной тонкой настройки изображений и видео играет ключевую роль в создании высококачественных и креативных результатов. Для повышения производительности LaVie мы представляем всеобъемлющий и разнообразный видеодатасет под названием Vimeo25M, состоящий из 25 миллионов текстово-видео пар, которые отличаются высоким качеством, разнообразием и эстетической привлекательностью. Многочисленные эксперименты демонстрируют, что LaVie достигает передовых показателей как количественно, так и качественно. Кроме того, мы демонстрируем универсальность предварительно обученных моделей LaVie в различных приложениях, таких как генерация длинных видео и персонализированный синтез видео.
Вычисления в типичной крупной языковой модели (LLM), основанной на архитектуре Transformer, можно охарактеризовать через такие параметры, как размер пакета, размер скрытого слоя, количество слоев и длина последовательности. До настоящего времени работы по ускорению обучения LLM были сосредоточены на первых трех параметрах: параллелизм данных для размера пакета, параллелизм тензоров для размера скрытого слоя и параллелизм конвейеров для глубины модели или количества слоев. Эти широко изученные формы параллелизма не были оптимизированы для моделей Transformer с длинными последовательностями. Учитывая практические потребности в LLM с длинными последовательностями, внимание вновь привлекается к параллелизму последовательностей. Однако существующие работы в этой области ограничены неэффективностью использования памяти и коммуникаций, что ограничивает их масштабируемость для крупных моделей с длинными последовательностями. В данной работе мы представляем DeepSpeed-Ulysses — новую, переносимую и эффективную методологию, обеспечивающую высокоэффективное и масштабируемое обучение LLM с экстремально длинными последовательностями. В основе DeepSpeed-Ulysses лежит разделение входных данных по измерению последовательности и использование эффективной коллективной коммуникации типа "все-ко-всем" для вычисления внимания. Теоретический анализ коммуникаций показывает, что в то время как другие методы увеличивают накладные расходы на коммуникации с ростом длины последовательности, DeepSpeed-Ulysses сохраняет постоянный объем коммуникаций при пропорциональном увеличении длины последовательности и вычислительных устройств. Кроме того, экспериментальные оценки демонстрируют, что DeepSpeed-Ulysses обучается в 2,5 раза быстрее с последовательностями в 4 раза длиннее по сравнению с текущим методом, установленным в качестве SOTA-базиса.
Недавние достижения в методах глубокого обучения, таких как крупные языковые модели (LLM) и диффузионные модели, создали потребность в улучшенных методах квантования, которые могут соответствовать вычислительным требованиям этих современных архитектур, сохраняя при этом точность. В рамках этой цели мы исследуем преимущества форматов данных FP8 для посттренировочного квантования на 75 уникальных архитектурах сетей, охватывающих широкий спектр задач, включая машинный перевод, языковое моделирование, генерацию текста, классификацию изображений, генерацию и сегментацию. Мы изучаем три различных представления FP8 (E5M2, E4M3 и E3M4), чтобы исследовать влияние различных степеней компромисса между динамическим диапазоном и точностью на точность модели. На основе нашего обширного исследования мы разработали рабочий процесс квантования, который обобщается для различных архитектур сетей. Наши эмпирические результаты показывают, что форматы FP8 превосходят INT8 по нескольким аспектам, включая охват рабочих нагрузок (92,64% против 65,87%), точность модели и пригодность для более широкого диапазона операций. Кроме того, наши результаты свидетельствуют о том, что E4M3 лучше подходит для моделей NLP, тогда как E3M4 показывает немного лучшие результаты, чем E4M3, в задачах компьютерного зрения. Код доступен публично в Intel Neural Compressor: https://github.com/intel/neural-compressor.
Мы исследуем внутреннее поведение трансформерных больших языковых моделей (LLM) при генерации текста, содержащего фактические ошибки. Мы предлагаем моделировать фактологические запросы как задачи удовлетворения ограничений и используем этот подход для изучения того, как модель взаимодействует с фактологическими ограничениями на внутреннем уровне. В частности, мы обнаруживаем сильную положительную связь между вниманием модели к токенам ограничений и фактической точностью её ответов. В нашем тщательно отобранном наборе из 11 датасетов, содержащих более 40 000 запросов, мы изучаем задачу предсказания фактических ошибок для семейства моделей Llama-2 всех масштабов (7B, 13B, 70B). Мы предлагаем метод SAT Probe, который анализирует паттерны самовнимания и позволяет предсказывать выполнение ограничений и фактические ошибки, а также выявлять ошибки на ранних этапах. Наш подход и результаты демонстрируют, как использование механистического понимания фактологии в LLM может повысить их надежность.