Papers Quotidiens

Articles de recherche en IA sélectionnés quotidiennement avec traductions

Sélectionner une date

QA-LoRA : Adaptation Quantification-Aware à Faible Rang des Grands Modèles de Langage
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

Sep 26, 2023

Yuhui Xu, Lingxi Xie, Xiaotao Gu, Xin Chen, Heng Chang, Hengheng Zhang, Zhensu Chen, Xiaopeng Zhang, Qi Tian

448

Ces dernières années ont été marquées par un développement rapide des modèles de langage de grande taille (LLMs). Malgré leurs performances impressionnantes dans de nombreuses tâches de compréhension du langage, leur lourde charge de calcul limite considérablement leur application, en particulier lorsqu'il s'agit de les déployer sur des dispositifs périphériques. Dans cet article, nous proposons un algorithme d'adaptation à faible rang prenant en compte la quantification (QA-LoRA). La motivation repose sur le déséquilibre des degrés de liberté entre la quantification et l'adaptation, et la solution consiste à utiliser des opérateurs par groupes qui augmentent le degré de liberté de la quantification tout en réduisant celui de l'adaptation. QA-LoRA est facilement implémentable avec quelques lignes de code, et il dote l'original LoRA de deux capacités : (i) pendant le réglage fin, les poids du LLM sont quantifiés (par exemple, en INT4) pour réduire l'utilisation du temps et de la mémoire ; (ii) après le réglage fin, le LLM et les poids auxiliaires sont naturellement intégrés dans un modèle quantifié sans perte de précision. Nous appliquons QA-LoRA aux familles de modèles LLaMA et LLaMA2 et validons son efficacité sur différents ensembles de données de réglage fin et scénarios en aval. Le code sera disponible à l'adresse https://github.com/yuhuixu1993/qa-lora.

LAVIE : Génération de vidéos de haute qualité avec des modèles de diffusion latente en cascade
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

Sep 26, 2023

Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, Yuwei Guo, Tianxing Wu, Chenyang Si, Yuming Jiang, Cunjian Chen, Chen Change Loy, Bo Dai, Dahua Lin, Yu Qiao, Ziwei Liu

423

Ce travail vise à apprendre un modèle génératif de texte-à-vidéo (T2V) de haute qualité en s'appuyant sur un modèle pré-entraîné de texte-à-image (T2I) comme base. C'est une tâche très souhaitable mais difficile de parvenir simultanément à a) réaliser la synthèse de vidéos visuellement réalistes et temporellement cohérentes tout en b) préservant la forte nature créative de génération du modèle T2I pré-entraîné. À cette fin, nous proposons LaVie, un cadre intégré de génération vidéo qui opère sur des modèles de diffusion latente vidéo en cascade, comprenant un modèle de base T2V, un modèle d'interpolation temporelle et un modèle de super-résolution vidéo. Nos principales intuitions sont doubles : 1) Nous révélons que l'incorporation d'auto-attentions temporelles simples, couplées à un encodage positionnel rotatif, capture adéquatement les corrélations temporelles inhérentes aux données vidéo. 2) De plus, nous validons que le processus de fine-tuning conjoint image-vidéo joue un rôle essentiel dans la production de résultats de haute qualité et créatifs. Pour améliorer les performances de LaVie, nous contribuons avec un ensemble de données vidéo complet et diversifié nommé Vimeo25M, composé de 25 millions de paires texte-vidéo qui privilégient la qualité, la diversité et l'attrait esthétique. Des expériences approfondies démontrent que LaVie atteint des performances de pointe à la fois quantitativement et qualitativement. Par ailleurs, nous mettons en avant la polyvalence des modèles LaVie pré-entraînés dans diverses applications de génération de vidéos longues et de synthèse vidéo personnalisée.

DeepSpeed Ulysses : Optimisations système pour permettre l'entraînement de modèles Transformer à séquences extrêmement longues
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models

Sep 25, 2023

Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Leon Song, Samyam Rajbhandari, Yuxiong He

201

Le calcul dans un modèle de langage de grande taille (LLM) basé sur Transformer peut être caractérisé par la taille du lot, la dimension cachée, le nombre de couches et la longueur de la séquence. Jusqu'à présent, les travaux sur les systèmes visant à accélérer l'entraînement des LLM se sont concentrés sur les trois premières dimensions : le parallélisme de données pour la taille du lot, le parallélisme tensoriel pour la taille cachée et le parallélisme par pipeline pour la profondeur du modèle ou les couches. Ces formes de parallélisme largement étudiées ne sont pas ciblées ou optimisées pour les modèles Transformer à longues séquences. Compte tenu des besoins pratiques d'application pour les LLM à longues séquences, une attention renouvelée est portée sur le parallélisme de séquence. Cependant, les travaux existants en parallélisme de séquence sont limités par une inefficacité mémoire-communication, ce qui restreint leur évolutivité pour les grands modèles à longues séquences. Dans ce travail, nous présentons DeepSpeed-Ulysses, une méthodologie novatrice, portable et efficace pour permettre un entraînement hautement performant et évolutif des LLM avec des séquences extrêmement longues. DeepSpeed-Ulysses partitionne essentiellement les données d'entrée selon la dimension de la séquence et utilise une communication collective all-to-all efficace pour le calcul de l'attention. L'analyse théorique de la communication montre que, tandis que d'autres méthodes entraînent une surcharge de communication lorsque la longueur de la séquence augmente, DeepSpeed-Ulysses maintient un volume de communication constant lorsque la longueur de la séquence et les dispositifs de calcul sont augmentés proportionnellement. De plus, les évaluations expérimentales montrent que DeepSpeed-Ulysses entraîne 2,5 fois plus vite avec des séquences 4 fois plus longues que la méthode de référence SOTA existante.

Quantification post-entraînement efficace avec les formats FP8
Efficient Post-training Quantization with FP8 Formats

Sep 26, 2023

Haihao Shen, Naveen Mellempudi, Xin He, Qun Gao, Chang Wang, Mengni Wang

112

Les récents progrès des méthodes d'apprentissage profond, telles que les modèles de langage de grande taille (LLMs) et les modèles de diffusion, ont créé un besoin pour des méthodes de quantification améliorées capables de répondre aux exigences computationnelles de ces architectures modernes tout en maintenant la précision. Dans cette optique, nous étudions les avantages des formats de données FP8 pour la quantification post-entraînement à travers 75 architectures de réseaux uniques couvrant un large éventail de tâches, incluant la traduction automatique, la modélisation du langage, la génération de texte, la classification d'images, la génération et la segmentation. Nous examinons trois représentations FP8 différentes (E5M2, E4M3 et E3M4) pour étudier les effets de divers compromis entre la plage dynamique et la précision sur l'exactitude des modèles. Sur la base de notre étude approfondie, nous avons développé un workflow de quantification qui se généralise à différentes architectures de réseaux. Nos résultats empiriques montrent que les formats FP8 surpassent INT8 à plusieurs égards, incluant la couverture des charges de travail (92,64 % contre 65,87 %), la précision des modèles et leur adéquation à une gamme plus large d'opérations. De plus, nos résultats suggèrent que E4M3 est mieux adapté pour les modèles de traitement du langage naturel (NLP), tandis que E3M4 performe légèrement mieux que E4M3 sur les tâches de vision par ordinateur. Le code est disponible publiquement sur Intel Neural Compressor : https://github.com/intel/neural-compressor.

L'attention satisfait : Une perspective de satisfaction de contraintes sur les erreurs factuelles des modèles de langage
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models

Sep 26, 2023

Mert Yuksekgonul, Varun Chandrasekaran, Erik Jones, Suriya Gunasekar, Ranjita Naik, Hamid Palangi, Ece Kamar, Besmira Nushi

Nous étudions le comportement interne des modèles de langage de grande taille (LLMs) basés sur l'architecture Transformer lorsqu'ils génèrent du texte factuellement incorrect. Nous proposons de modéliser les requêtes factuelles comme des problèmes de satisfaction de contraintes et utilisons ce cadre pour examiner comment le modèle interagit en interne avec les contraintes factuelles. Plus précisément, nous découvrons une forte relation positive entre l'attention du modèle portée aux tokens de contrainte et l'exactitude factuelle de ses réponses. Dans notre ensemble de 11 jeux de données soigneusement sélectionnés, comprenant plus de 40 000 prompts, nous étudions la tâche de prédiction des erreurs factuelles avec la famille Llama-2 à toutes les échelles (7B, 13B, 70B). Nous proposons SAT Probe, une méthode sondant les motifs d'auto-attention, capable de prédire la satisfaction des contraintes et les erreurs factuelles, et permettant une identification précoce des erreurs. Cette approche et ces résultats démontrent comment l'utilisation de la compréhension mécaniste de la factualité dans les LLMs peut améliorer la fiabilité.

DeepSpeed Ulysses : Optimisations système pour permettre l'entraînement de modèles Transformer à séquences extrêmement longues
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models

Sep 25, 2023

Sam Ade Jacobs, Masahiro Tanaka, Chengming Zhang, Minjia Zhang, Leon Song, Samyam Rajbhandari, Yuxiong He

201

Papers Quotidiens

QA-LoRA : Adaptation Quantification-Aware à Faible Rang des Grands Modèles de Langage
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

LAVIE : Génération de vidéos de haute qualité avec des modèles de diffusion latente en cascade
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

DeepSpeed Ulysses : Optimisations système pour permettre l'entraînement de modèles Transformer à séquences extrêmement longues
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models

Quantification post-entraînement efficace avec les formats FP8
Efficient Post-training Quantization with FP8 Formats

L'attention satisfait : Une perspective de satisfaction de contraintes sur les erreurs factuelles des modèles de langage
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models

Support

Support

Papers Quotidiens

QA-LoRA : Adaptation Quantification-Aware à Faible Rang des Grands Modèles de Langage
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models

LAVIE : Génération de vidéos de haute qualité avec des modèles de diffusion latente en cascade
LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion Models

DeepSpeed Ulysses : Optimisations système pour permettre l'entraînement de modèles Transformer à séquences extrêmement longues
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models

Quantification post-entraînement efficace avec les formats FP8
Efficient Post-training Quantization with FP8 Formats

L'attention satisfait : Une perspective de satisfaction de contraintes sur les erreurs factuelles des modèles de langage
Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models