Articles de recherche en IA sélectionnés quotidiennement avec traductions
Ces dernières années ont été marquées par un développement rapide des modèles de langage de grande taille (LLMs). Malgré leurs performances impressionnantes dans de nombreuses tâches de compréhension du langage, leur lourde charge de calcul limite considérablement leur application, en particulier lorsqu'il s'agit de les déployer sur des dispositifs périphériques. Dans cet article, nous proposons un algorithme d'adaptation à faible rang prenant en compte la quantification (QA-LoRA). La motivation repose sur le déséquilibre des degrés de liberté entre la quantification et l'adaptation, et la solution consiste à utiliser des opérateurs par groupes qui augmentent le degré de liberté de la quantification tout en réduisant celui de l'adaptation. QA-LoRA est facilement implémentable avec quelques lignes de code, et il dote l'original LoRA de deux capacités : (i) pendant le réglage fin, les poids du LLM sont quantifiés (par exemple, en INT4) pour réduire l'utilisation du temps et de la mémoire ; (ii) après le réglage fin, le LLM et les poids auxiliaires sont naturellement intégrés dans un modèle quantifié sans perte de précision. Nous appliquons QA-LoRA aux familles de modèles LLaMA et LLaMA2 et validons son efficacité sur différents ensembles de données de réglage fin et scénarios en aval. Le code sera disponible à l'adresse https://github.com/yuhuixu1993/qa-lora.
Ce travail vise à apprendre un modèle génératif de texte-à-vidéo (T2V) de haute qualité en s'appuyant sur un modèle pré-entraîné de texte-à-image (T2I) comme base. C'est une tâche très souhaitable mais difficile de parvenir simultanément à a) réaliser la synthèse de vidéos visuellement réalistes et temporellement cohérentes tout en b) préservant la forte nature créative de génération du modèle T2I pré-entraîné. À cette fin, nous proposons LaVie, un cadre intégré de génération vidéo qui opère sur des modèles de diffusion latente vidéo en cascade, comprenant un modèle de base T2V, un modèle d'interpolation temporelle et un modèle de super-résolution vidéo. Nos principales intuitions sont doubles : 1) Nous révélons que l'incorporation d'auto-attentions temporelles simples, couplées à un encodage positionnel rotatif, capture adéquatement les corrélations temporelles inhérentes aux données vidéo. 2) De plus, nous validons que le processus de fine-tuning conjoint image-vidéo joue un rôle essentiel dans la production de résultats de haute qualité et créatifs. Pour améliorer les performances de LaVie, nous contribuons avec un ensemble de données vidéo complet et diversifié nommé Vimeo25M, composé de 25 millions de paires texte-vidéo qui privilégient la qualité, la diversité et l'attrait esthétique. Des expériences approfondies démontrent que LaVie atteint des performances de pointe à la fois quantitativement et qualitativement. Par ailleurs, nous mettons en avant la polyvalence des modèles LaVie pré-entraînés dans diverses applications de génération de vidéos longues et de synthèse vidéo personnalisée.
Le calcul dans un modèle de langage de grande taille (LLM) basé sur Transformer peut être caractérisé par la taille du lot, la dimension cachée, le nombre de couches et la longueur de la séquence. Jusqu'à présent, les travaux sur les systèmes visant à accélérer l'entraînement des LLM se sont concentrés sur les trois premières dimensions : le parallélisme de données pour la taille du lot, le parallélisme tensoriel pour la taille cachée et le parallélisme par pipeline pour la profondeur du modèle ou les couches. Ces formes de parallélisme largement étudiées ne sont pas ciblées ou optimisées pour les modèles Transformer à longues séquences. Compte tenu des besoins pratiques d'application pour les LLM à longues séquences, une attention renouvelée est portée sur le parallélisme de séquence. Cependant, les travaux existants en parallélisme de séquence sont limités par une inefficacité mémoire-communication, ce qui restreint leur évolutivité pour les grands modèles à longues séquences. Dans ce travail, nous présentons DeepSpeed-Ulysses, une méthodologie novatrice, portable et efficace pour permettre un entraînement hautement performant et évolutif des LLM avec des séquences extrêmement longues. DeepSpeed-Ulysses partitionne essentiellement les données d'entrée selon la dimension de la séquence et utilise une communication collective all-to-all efficace pour le calcul de l'attention. L'analyse théorique de la communication montre que, tandis que d'autres méthodes entraînent une surcharge de communication lorsque la longueur de la séquence augmente, DeepSpeed-Ulysses maintient un volume de communication constant lorsque la longueur de la séquence et les dispositifs de calcul sont augmentés proportionnellement. De plus, les évaluations expérimentales montrent que DeepSpeed-Ulysses entraîne 2,5 fois plus vite avec des séquences 4 fois plus longues que la méthode de référence SOTA existante.
Les récents progrès des méthodes d'apprentissage profond, telles que les modèles de langage de grande taille (LLMs) et les modèles de diffusion, ont créé un besoin pour des méthodes de quantification améliorées capables de répondre aux exigences computationnelles de ces architectures modernes tout en maintenant la précision. Dans cette optique, nous étudions les avantages des formats de données FP8 pour la quantification post-entraînement à travers 75 architectures de réseaux uniques couvrant un large éventail de tâches, incluant la traduction automatique, la modélisation du langage, la génération de texte, la classification d'images, la génération et la segmentation. Nous examinons trois représentations FP8 différentes (E5M2, E4M3 et E3M4) pour étudier les effets de divers compromis entre la plage dynamique et la précision sur l'exactitude des modèles. Sur la base de notre étude approfondie, nous avons développé un workflow de quantification qui se généralise à différentes architectures de réseaux. Nos résultats empiriques montrent que les formats FP8 surpassent INT8 à plusieurs égards, incluant la couverture des charges de travail (92,64 % contre 65,87 %), la précision des modèles et leur adéquation à une gamme plus large d'opérations. De plus, nos résultats suggèrent que E4M3 est mieux adapté pour les modèles de traitement du langage naturel (NLP), tandis que E3M4 performe légèrement mieux que E4M3 sur les tâches de vision par ordinateur. Le code est disponible publiquement sur Intel Neural Compressor : https://github.com/intel/neural-compressor.
Nous étudions le comportement interne des modèles de langage de grande taille (LLMs) basés sur l'architecture Transformer lorsqu'ils génèrent du texte factuellement incorrect. Nous proposons de modéliser les requêtes factuelles comme des problèmes de satisfaction de contraintes et utilisons ce cadre pour examiner comment le modèle interagit en interne avec les contraintes factuelles. Plus précisément, nous découvrons une forte relation positive entre l'attention du modèle portée aux tokens de contrainte et l'exactitude factuelle de ses réponses. Dans notre ensemble de 11 jeux de données soigneusement sélectionnés, comprenant plus de 40 000 prompts, nous étudions la tâche de prédiction des erreurs factuelles avec la famille Llama-2 à toutes les échelles (7B, 13B, 70B). Nous proposons SAT Probe, une méthode sondant les motifs d'auto-attention, capable de prédire la satisfaction des contraintes et les erreurs factuelles, et permettant une identification précoce des erreurs. Cette approche et ces résultats démontrent comment l'utilisation de la compréhension mécaniste de la factualité dans les LLMs peut améliorer la fiabilité.