Articles de recherche en IA sélectionnés quotidiennement avec traductions
La récente montée en puissance des modèles de langage de grande taille (LLM) open-source, tels que LLaMA, Falcon et Mistral, offre une diversité d'options pour les praticiens et chercheurs en IA. Cependant, la plupart des LLM n'ont publié que des artefacts partiels, tels que les poids finaux du modèle ou le code d'inférence, et les rapports techniques limitent de plus en plus leur portée aux choix de conception de haut niveau et aux statistiques superficielles. Ces choix entravent les progrès dans le domaine en réduisant la transparence sur l'entraînement des LLM et en forçant les équipes à redécouvrir de nombreux détails du processus d'entraînement. Nous présentons LLM360, une initiative visant à ouvrir entièrement les LLM, qui plaide pour que tout le code et les données d'entraînement, les points de contrôle du modèle et les résultats intermédiaires soient mis à la disposition de la communauté. L'objectif de LLM360 est de soutenir la recherche en IA ouverte et collaborative en rendant le processus d'entraînement des LLM, de bout en bout, transparent et reproductible par tous. Comme première étape de LLM360, nous publions deux LLM de 7 milliards de paramètres pré-entraînés à partir de zéro, Amber et CrystalCoder, incluant leur code d'entraînement, les données, les points de contrôle intermédiaires et les analyses (disponibles sur https://www.llm360.ai). Nous nous engageons à repousser continuellement les limites des LLM grâce à cet effort open-source. D'autres modèles plus larges et plus puissants sont en cours de développement et seront publiés à l'avenir.
L'ajustement fin des modèles de langage (LMs) sur des données générées par des humains reste une pratique courante. Cependant, les performances de ces modèles sont souvent limitées par la quantité et la diversité des données humaines de haute qualité. Dans cet article, nous explorons si nous pouvons aller au-delà des données humaines pour des tâches où nous avons accès à un retour d'information scalaire, par exemple, sur des problèmes de mathématiques où l'on peut vérifier la justesse. Pour ce faire, nous étudions une méthode simple d'auto-apprentissage basée sur l'algorithme d'espérance-maximisation, que nous appelons ReST^{EM}, où nous (1) générons des échantillons à partir du modèle et les filtrons en utilisant un retour d'information binaire, (2) ajustons finement le modèle sur ces échantillons, et (3) répétons ce processus plusieurs fois. En testant sur des benchmarks avancés de raisonnement MATH et de codage APPS en utilisant des modèles PaLM-2, nous constatons que ReST^{EM} évolue favorablement avec la taille du modèle et dépasse significativement l'ajustement fin uniquement sur des données humaines. Globalement, nos résultats suggèrent que l'auto-apprentissage avec retour d'information peut réduire considérablement la dépendance aux données générées par des humains.
Nous présentons W.A.L.T, une approche basée sur les transformers pour la génération de vidéos photoréalistes via la modélisation par diffusion. Notre approche repose sur deux décisions clés de conception. Premièrement, nous utilisons un encodeur causal pour compresser conjointement les images et les vidéos dans un espace latent unifié, permettant ainsi l'entraînement et la génération à travers différentes modalités. Deuxièmement, pour optimiser la mémoire et l'efficacité de l'entraînement, nous employons une architecture d'attention par fenêtre spécialement conçue pour la modélisation générative conjointe dans les domaines spatial et spatio-temporel. Ces choix de conception nous permettent d'atteindre des performances de pointe sur des benchmarks établis pour la génération de vidéos (UCF-101 et Kinetics-600) et d'images (ImageNet) sans recourir à l'orientation sans classifieur. Enfin, nous entraînons également une cascade de trois modèles pour la tâche de génération de texte-à-vidéo, comprenant un modèle de base de diffusion latente pour les vidéos, ainsi que deux modèles de diffusion pour la super-résolution vidéo, permettant de générer des vidéos d'une résolution de 512 fois 896 à 8 images par seconde.
Récemment, la création de contenu 3D à partir de prompts textuels a démontré des progrès remarquables grâce à l'utilisation de modèles de diffusion 2D et 3D. Bien que les modèles de diffusion 3D garantissent une excellente cohérence multi-vues, leur capacité à générer des assets 3D de haute qualité et diversifiés est limitée par la rareté des données 3D. En revanche, les modèles de diffusion 2D adoptent une approche de distillation qui permet une généralisation excellente et des détails riches sans nécessiter de données 3D. Cependant, les méthodes de projection 2D souffrent d'une ambiguïté inhérente indépendante de la vue, conduisant à des problèmes sérieux de multi-faces Janus, où les prompts textuels ne parviennent pas à fournir un guidage suffisant pour obtenir des résultats 3D cohérents. Plutôt que de réentraîner un modèle coûteux sensible à la vue, nous étudions comment exploiter pleinement des connaissances 3D grossières facilement accessibles pour améliorer les prompts et guider l'optimisation de la projection 2D en vue d'un raffinement. Dans cet article, nous proposons Sherpa3D, un nouveau framework texte-à-3D qui atteint simultanément une haute fidélité, une grande généralisabilité et une cohérence géométrique. Plus précisément, nous concevons une paire de stratégies de guidage dérivées de l'a priori 3D grossier généré par le modèle de diffusion 3D : un guidage structurel pour la fidélité géométrique et un guidage sémantique pour la cohérence 3D. En utilisant ces deux types de guidage, le modèle de diffusion 2D enrichit le contenu 3D avec des résultats diversifiés et de haute qualité. Des expériences approfondies montrent la supériorité de notre Sherpa3D par rapport aux méthodes état-de-l'art en texte-à-3D en termes de qualité et de cohérence 3D.
Les modèles modernes de vision et langage à grande échelle (LVLMs) utilisent le même vocabulaire visuel — CLIP, qui peut couvrir la plupart des tâches visuelles courantes. Cependant, pour certaines tâches visuelles spécifiques nécessitant une perception visuelle dense et fine, par exemple, la reconnaissance optique de caractères (OCR) au niveau documentaire ou la compréhension de graphiques, en particulier dans des scénarios non anglophones, le vocabulaire de type CLIP peut rencontrer une faible efficacité dans la tokenisation des connaissances visuelles et même souffrir de problèmes de hors-vocabulaire. En conséquence, nous proposons Vary, une méthode efficace et efficiente pour étendre le vocabulaire visuel des LVLMs. Les procédures de Vary se divisent naturellement en deux étapes : la génération et l'intégration d'un nouveau vocabulaire visuel. Dans la première phase, nous concevons un réseau de vocabulaire accompagné d'un petit transformeur décodeur uniquement pour produire le vocabulaire souhaité via autoregression. Ensuite, nous étendons le vocabulaire visuel de base en fusionnant le nouveau vocabulaire avec l'original (CLIP), permettant aux LVLMs d'acquérir rapidement de nouvelles fonctionnalités. Comparé aux modèles populaires BLIP-2, MiniGPT4 et LLaVA, Vary peut maintenir ses capacités de base tout en bénéficiant d'une meilleure perception fine et d'une capacité de compréhension accrue. Plus précisément, Vary est compétent dans les nouvelles fonctionnalités d'analyse de documents (OCR ou conversion en markdown) tout en atteignant 78,2 % d'ANLS dans DocVQA et 36,2 % dans MMVet. Notre code sera rendu public sur la page d'accueil.
Les grands modèles de langage (LLM) possèdent une capacité remarquable à résoudre de nouvelles tâches avec seulement quelques exemples, mais ils nécessitent un accès aux outils appropriés. La Génération Augmentée par Récupération (RAG) aborde ce problème en récupérant une liste d'outils pertinents pour une tâche donnée. Cependant, l'étape de récupération d'outils de RAG exige que toutes les informations nécessaires soient explicitement présentes dans la requête. Cela constitue une limitation, car la recherche sémantique, la méthode de récupération d'outils largement adoptée, peut échouer lorsque la requête est incomplète ou manque de contexte. Pour pallier cette limitation, nous proposons l'ajustement contextuel pour RAG, qui utilise un système intelligent de récupération de contexte pour extraire des informations pertinentes améliorant à la fois la récupération d'outils et la génération de plans. Notre modèle léger de récupération de contexte utilise des signaux numériques, catégoriels et d'usage habituel pour récupérer et classer les éléments de contexte. Nos résultats empiriques démontrent que l'ajustement contextuel améliore significativement la recherche sémantique, avec une amélioration de 3,5 fois et 1,5 fois du Recall@K pour les tâches de récupération de contexte et de récupération d'outils respectivement, et entraîne une augmentation de 11,6 % de la précision du planificateur basé sur LLM. De plus, nous montrons que notre modèle léger proposé utilisant la Fusion de Rangs Réciproques (RRF) avec LambdaMART surpasse la récupération basée sur GPT-4. Par ailleurs, nous observons que l'augmentation contextuelle lors de la génération de plans, même après la récupération d'outils, réduit les hallucinations.
Nous présentons le développement d'Alter3, un robot humanoïde capable de générer des mouvements spontanés en utilisant un modèle de langage de grande envergure (LLM), spécifiquement GPT-4. Cette réalisation a été accomplie en intégrant GPT-4 dans notre androïde propriétaire, Alter3, permettant ainsi d'ancrer efficacement le LLM avec les mouvements corporels d'Alter. Typiquement, le contrôle de bas niveau des robots dépend du matériel et se situe en dehors du champ des corpus LLM, ce qui pose des défis pour un contrôle direct des robots basé sur les LLM. Cependant, dans le cas des robots humanoïdes comme Alter3, un contrôle direct est réalisable en cartographiant les expressions linguistiques des actions humaines sur le corps du robot via du code de programmation. De manière remarquable, cette approche permet à Alter3 d'adopter diverses poses, comme une posture pour un 'selfie' ou 'faire semblant d'être un fantôme', et de générer des séquences d'actions au fil du temps sans programmation explicite pour chaque partie du corps. Cela démontre les capacités d'apprentissage en zero-shot du robot. De plus, un retour verbal peut ajuster les poses, éliminant ainsi le besoin de réglage fin. Une vidéo des mouvements générés par Alter3 est disponible à l'adresse suivante : https://tnoinkwms.github.io/ALTER-LLM/
Les modèles de diffusion latente (Latent Diffusion Models, LDMs) capturent l'évolution dynamique des variables latentes dans le temps, en intégrant des motifs et une multimodalité dans un système génératif. Malgré la compétence des LDMs dans diverses applications, telles que la génération d'images à partir de texte, facilitée par des encodeurs de texte robustes et un autoencodeur variationnel, la nécessité cruciale de déployer de grands modèles génératifs sur des dispositifs périphériques pousse à rechercher des alternatives plus compactes mais tout aussi efficaces. La quantification post-entraînement (Post Training Quantization, PTQ), une méthode pour compresser la taille opérationnelle des modèles d'apprentissage profond, rencontre des difficultés lorsqu'elle est appliquée aux LDMs en raison de leurs complexités temporelles et structurelles. Cette étude propose une stratégie de quantification qui quantifie efficacement les LDMs, en utilisant le rapport signal-sur-bruit de quantification (Signal-to-Quantization-Noise Ratio, SQNR) comme métrique clé d'évaluation. En traitant l'écart de quantification comme un bruit relatif et en identifiant les parties sensibles du modèle, nous proposons une approche de quantification efficace englobant à la fois des stratégies globales et locales. Le processus de quantification globale atténue le bruit de quantification relatif en initiant une quantification de plus haute précision sur les blocs sensibles, tandis que les traitements locaux s'attaquent aux défis spécifiques des modules sensibles à la quantification et au temps. Les résultats de nos expériences révèlent que la mise en œuvre de traitements à la fois globaux et locaux permet une quantification post-entraînement (PTQ) des LDMs hautement efficace et performante.
Nous présentons Llama Guard, un modèle de protection entrée-sortie basé sur un LLM (modèle de langage) conçu pour les cas d'utilisation de conversations Humain-IA. Notre modèle intègre une taxonomie des risques de sécurité, un outil précieux pour catégoriser un ensemble spécifique de risques de sécurité présents dans les prompts des LLM (c'est-à-dire la classification des prompts). Cette taxonomie est également essentielle pour classer les réponses générées par les LLM à ces prompts, un processus que nous appelons classification des réponses. À des fins de classification des prompts et des réponses, nous avons méticuleusement constitué un ensemble de données de haute qualité. Llama Guard, un modèle Llama2-7b affiné par instruction sur notre ensemble de données collecté, bien que de volume limité, démontre des performances solides sur des benchmarks existants tels que le jeu de données OpenAI Moderation Evaluation et ToxicChat, où ses performances égalent ou surpassent celles des outils de modération de contenu actuellement disponibles. Llama Guard fonctionne comme un modèle de langage, effectuant une classification multi-classes et générant des scores de décision binaires. De plus, l'affinage par instruction de Llama Guard permet la personnalisation des tâches et l'adaptation des formats de sortie. Cette fonctionnalité renforce les capacités du modèle, comme permettre l'ajustement des catégories de taxonomie pour s'aligner sur des cas d'utilisation spécifiques, et faciliter le prompting zero-shot ou few-shot avec des taxonomies variées en entrée. Nous rendons les poids du modèle Llama Guard disponibles et encourageons les chercheurs à les développer et les adapter davantage pour répondre aux besoins évolutifs de la communauté en matière de sécurité de l'IA.
Les grands modèles de langage pré-entraînés (LLMs) nécessitent un ajustement fin pour améliorer leur réactivité aux instructions en langage naturel. L'apprentissage fédéré (FL) offre une manière d'effectuer cet ajustement fin en utilisant les données abondantes disponibles sur les appareils terminaux sans compromettre la confidentialité des données. La plupart des méthodes existantes d'ajustement fédéré pour les LLMs reposent sur des techniques d'ajustement fin paramétriquement efficaces, qui peuvent ne pas atteindre les performances maximales possibles avec un ajustement complet des paramètres. Cependant, la surcharge de communication associée à l'ajustement complet des paramètres est prohibitivement élevée pour les serveurs et les clients. Ce travail présente FedKSeed, une nouvelle approche qui utilise l'optimisation d'ordre zéro (ZOO) avec un ensemble de graines aléatoires. Elle permet l'ajustement fédéré complet des paramètres de LLMs de taille milliard directement sur les appareils. Notre méthode réduit considérablement les besoins de transmission entre le serveur et les clients à quelques gradients scalaires et graines aléatoires, ne représentant que quelques milliers d'octets. Sur cette base, nous développons une stratégie pour évaluer l'importance des perturbations ZOO pour le FL, permettant un échantillonnage de graines différencié par probabilité. Cela priorise les perturbations qui ont un impact plus important sur la précision du modèle. Des expériences menées dans six scénarios avec différents LLMs, ensembles de données et partitions de données démontrent que notre approche surpasse les méthodes existantes d'ajustement fédéré des LLMs en termes d'efficacité de communication et de généralisation à de nouvelles tâches.
Diverses méthodes ont été proposées pour exploiter les modèles de langage de grande taille (LLMs) dans le domaine de la conduite autonome. Une stratégie consiste à utiliser les LLMs en leur fournissant comme entrées des descriptions textuelles des objets environnants, accompagnées de leurs coordonnées et informations de vitesse, afin de prédire les mouvements ultérieurs du véhicule. Pour de telles applications, les LLMs doivent posséder des capacités essentielles telles que la reconnaissance spatiale et la planification. Plus précisément, deux compétences fondamentales sont nécessaires : (1) la prise de décision spatialement consciente, c'est-à-dire la capacité à interpréter les informations de coordonnées pour éviter les collisions, et (2) la capacité à respecter les règles de circulation. Cependant, aucune recherche quantitative n'a été menée pour évaluer avec quelle précision différents types de LLMs peuvent gérer ces problèmes. Dans cette étude, nous avons quantifié ces deux compétences des LLMs dans le contexte de la conduite autonome. Par ailleurs, pour réaliser une preuve de concept (POC) de la faisabilité de l'implémentation de ces capacités dans des véhicules réels, nous avons développé un système utilisant les LLMs pour piloter un véhicule.
Captum est une bibliothèque complète pour l'explicabilité des modèles dans PyTorch, proposant une gamme de méthodes issues de la littérature sur l'interprétabilité pour améliorer la compréhension des utilisateurs concernant les modèles PyTorch. Dans cet article, nous présentons de nouvelles fonctionnalités dans Captum spécialement conçues pour analyser le comportement des modèles de langage génératifs. Nous fournissons un aperçu des fonctionnalités disponibles et des exemples d'applications illustrant leur potentiel pour comprendre les associations apprises au sein des modèles de langage génératifs.
Les grands modèles de langage (LLMs) ont démontré une puissante capacité de génération de texte. Cependant, obtenir des résultats optimaux avec un prompt ou une instruction donnée peut s'avérer difficile, en particulier pour les modèles de taille milliardaire. De plus, des comportements indésirables tels que la toxicité ou les hallucinations peuvent se manifester. Bien que des modèles beaucoup plus grands (par exemple, ChatGPT) puissent montrer une certaine efficacité pour atténuer ces problèmes, il n'existe toujours aucune garantie de prévention complète. Dans ce travail, nous proposons de formaliser la génération de texte comme un problème de génération contrainte par l'avenir, afin de minimiser les comportements indésirables et de garantir la fidélité aux instructions. L'estimation de la satisfaction des contraintes futures, réalisée à l'aide de LLMs, guide le processus de génération de texte. Nos expériences approfondies démontrent l'efficacité de l'approche proposée sur trois tâches distinctes de génération de texte : la génération contrainte par mots-clés (Lin et al., 2020), la réduction de la toxicité (Gehman et al., 2020) et l'exactitude factuelle dans les systèmes de question-réponse (Gao et al., 2023).
Dans cet article, nous étudions empiriquement la dynamique d'optimisation de l'apprentissage multitâche, en nous concentrant particulièrement sur celle qui régit un ensemble de tâches présentant un déséquilibre significatif des données. Nous proposons une méthode simple mais efficace consistant en un pré-entraînement sur des tâches riches en données, suivi d'un affinage sur un mélange de tâches à ressources élevées et faibles. Nous menons une étude empirique approfondie et une analyse des avantages de cette méthode, démontrant qu'elle permet d'obtenir des améliorations constantes par rapport au profil de compromis de performance des pondérations statiques standard. Nous analysons dans quels régimes de données cette méthode est applicable et montrons ses améliorations de manière empirique dans le domaine de la traduction automatique neuronale (NMT) et de la modélisation linguistique multilingue.
MEGA est une architecture récente basée sur des transformateurs, qui utilise un opérateur récurrent linéaire dont le calcul parallèle, basé sur la FFT, s'échelonne en O(LlogL), où L représente la longueur de la séquence. Nous nous appuyons sur leur approche en remplaçant la récurrence linéaire par un réseau convolutif temporel spécial qui permet une taille de champ réceptif plus grande avec des réseaux moins profonds, et réduit la complexité computationnelle à O(L). Le modèle résultant est appelé TCNCA, un Réseau Convolutif Temporel avec Attention Segmentée. Nous évaluons TCNCA sur la modélisation de langage EnWik8, la classification de séquences long-range-arena (LRA), ainsi qu'un benchmark de raisonnement synthétique de rappel associatif. Sur EnWik8, TCNCA surpasse MEGA, atteignant une perte plus faible avec un passage avant/arrière 1,37 fois/1,24 fois plus rapide pendant l'entraînement. Les convolutions dilatées utilisées dans TCNCA sont systématiquement et significativement plus rapides que la récurrence parallélisée basée sur la FFT sur les GPU, en faisant un candidat scalable pour traiter des séquences de très grande longueur : elles sont jusqu'à 7,07 fois/2,86 fois plus rapides dans le passage avant/arrière pour des séquences allant jusqu'à 131k. De plus, sur LRA, TCNCA obtient, en moyenne, une accélération de 1,28 fois pendant l'inférence avec une précision similaire à celle de MEGA. Sur le rappel associatif, nous constatons qu'une version simplifiée de TCNCA, sans interactions multiplicatives et additives excessives, reste supérieure ou compétitive par rapport à MEGA sur une gamme de longueurs de séquences et de tailles de vocabulaire.