Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous poursuivons l'étude sur les capacités des modèles de langage basés sur l'architecture Transformer de petite taille, initiée par TinyStories -- un modèle de 10 millions de paramètres capable de produire un anglais cohérent -- et le travail ultérieur sur phi-1, un modèle de 1,3 milliard de paramètres dont les performances en codage Python se rapprochent de l'état de l'art. Ce dernier travail a proposé d'utiliser les modèles de langage de grande taille (LLMs) existants pour générer des données de « qualité manuel scolaire » afin d'améliorer le processus d'apprentissage par rapport aux données web traditionnelles. Nous suivons l'approche « Les manuels scolaires suffisent », en nous concentrant cette fois sur le raisonnement de bon sens en langage naturel, et créons un nouveau modèle de 1,3 milliard de paramètres nommé phi-1.5, dont les performances sur les tâches de langage naturel sont comparables à des modèles 5 fois plus grands, et qui surpasse la plupart des LLMs non de pointe sur des tâches de raisonnement plus complexes telles que les mathématiques de niveau primaire et le codage de base. Plus généralement, phi-1.5 présente de nombreuses caractéristiques des LLMs beaucoup plus volumineux, à la fois positives -- comme la capacité à « penser étape par étape » ou à effectuer un apprentissage contextuel rudimentaire -- et négatives, y compris les hallucinations et le potentiel de générations toxiques et biaisées -- bien que, de manière encourageante, nous observions des améliorations sur ce front grâce à l'absence de données web. Nous rendons phi-1.5 open-source pour promouvoir des recherches supplémentaires sur ces sujets urgents.
Alors que les modèles de langage multimodaux de grande taille (MM-LLMs) ont récemment réalisé des avancées prometteuses, ils restent majoritairement limités à une compréhension multimodale en entrée, sans capacité à produire du contenu dans plusieurs modalités. Puisque nous, humains, percevons toujours le monde et communiquons avec les autres à travers diverses modalités, le développement de MM-LLMs capables d'accepter et de délivrer du contenu dans n'importe quelle modalité devient essentiel pour atteindre une IA de niveau humain. Pour combler cette lacune, nous présentons NExT-GPT, un système MM-LLM polyvalent et de bout en bout, capable de traiter n'importe quelle modalité. Nous connectons un modèle de langage à des adaptateurs multimodaux et à différents décodeurs de diffusion, permettant à NExT-GPT de percevoir les entrées et de générer des sorties dans des combinaisons arbitraires de texte, d'images, de vidéos et d'audio. En exploitant des encodeurs et décodeurs existants déjà bien entraînés et performants, NExT-GPT est ajusté avec seulement une petite quantité de paramètres (1 %) dans certaines couches de projection, ce qui non seulement favorise un entraînement à faible coût, mais facilite également une expansion pratique vers davantage de modalités potentielles. De plus, nous introduisons un réglage par instruction de commutation de modalité (MosIT) et constituons manuellement un ensemble de données de haute qualité pour MosIT, sur la base duquel NExT-GPT est doté d'une compréhension sémantique intermodale complexe et d'une génération de contenu. Globalement, notre recherche démontre la possibilité prometteuse de construire un agent IA capable de modéliser des modalités universelles, ouvrant la voie à des recherches en IA plus proches de l'humain dans la communauté.
Nous présentons MADLAD-400, un ensemble de données monolingue de 3 000 milliards de tokens dans un domaine général, basé sur CommonCrawl et couvrant 419 langues, ayant fait l'objet d'une vérification manuelle. Nous discutons des limites révélées par l'auto-vérification de MADLAD-400, ainsi que du rôle joué par l'audit des données dans le processus de création de l'ensemble de données. Nous entraînons ensuite et publions un modèle de traduction automatique multilingue de 10,7 milliards de paramètres sur 250 milliards de tokens couvrant plus de 450 langues en utilisant des données publiquement disponibles, et constatons qu'il est compétitif par rapport à des modèles nettement plus volumineux. Nous rapportons également les résultats sur différents domaines. Par ailleurs, nous entraînons un modèle de langage de 8 milliards de paramètres et évaluons les résultats en traduction few-shot. Nous mettons à disposition les modèles de référence pour la communauté de recherche.
Dans ce travail, nous utilisons des modèles de langage de grande taille (LLMs) pour enrichir et accélérer la recherche sur le problème P versus NP, l'un des problèmes ouverts les plus importants en informatique théorique et en mathématiques. Plus précisément, nous proposons le raisonnement socratique, un cadre général qui favorise une réflexion approfondie avec les LLMs pour la résolution de problèmes complexes. Le raisonnement socratique encourage les LLMs à découvrir, résoudre et intégrer des problèmes de manière récursive, tout en facilitant l'auto-évaluation et l'affinement. Notre étude pilote sur le problème P vs. NP montre que GPT-4 produit avec succès un schéma de preuve et s'engage dans un raisonnement rigoureux sur 97 tours de dialogue, concluant que "P ≠ NP", ce qui est en accord avec (Xu et Zhou, 2023). L'investigation révèle de nouvelles perspectives dans l'espace de solution étendu des LLMs, éclairant ainsi le potentiel des LLMs pour la science.
Nous analysons une famille de grands modèles de langage de manière si légère qu'elle peut être réalisée sur un seul GPU. Plus précisément, nous nous concentrons sur la famille de modèles OPT, allant de 125 millions à 66 milliards de paramètres, et nous nous appuyons uniquement sur l'activation ou non d'un neurone de réseau feed-forward (FFN). Tout d'abord, nous constatons que la partie initiale du réseau est sparse et représente de nombreuses caractéristiques discrètes. Ici, de nombreux neurones (plus de 70 % dans certaines couches du modèle de 66 milliards) sont "morts", c'est-à-dire qu'ils ne s'activent jamais sur un large ensemble de données diversifiées. Parallèlement, de nombreux neurones actifs sont réservés à des caractéristiques discrètes et agissent comme des détecteurs de tokens et de n-grammes. Fait intéressant, leurs mises à jour FFN correspondantes ne font pas que promouvoir les candidats pour le token suivant, comme on pourrait s'y attendre, mais se concentrent également explicitement sur la suppression des informations concernant les tokens qui les déclenchent, c'est-à-dire l'entrée actuelle. À notre connaissance, il s'agit du premier exemple de mécanismes spécialisés dans la suppression (plutôt que l'ajout) d'informations du flux résiduel. Avec l'augmentation de l'échelle, les modèles deviennent plus sparses dans le sens où ils possèdent davantage de neurones morts et de détecteurs de tokens. Enfin, certains neurones sont positionnels : leur activation dépend largement (ou uniquement) de la position et moins (ou pas du tout) des données textuelles. Nous constatons que les modèles plus petits possèdent des ensembles de neurones agissant comme des indicateurs de plage de position, tandis que les modèles plus grands opèrent de manière moins explicite.
De grandes quantités de données textuelles ont contribué de manière significative au développement des modèles de langage à grande échelle (LLMs) ces dernières années. Ces données sont généralement acquises par le biais du scraping d'internet, ce qui aboutit à des ensembles de données de pré-entraînement composés de textes web bruyants. Jusqu'à présent, les efforts pour élaguer ces ensembles de données afin d'obtenir un sous-ensemble de meilleure qualité ont reposé sur des heuristiques manuelles encodées sous forme de filtres basés sur des règles. Dans ce travail, nous adoptons une perspective plus large et explorons des estimations scalables de la qualité des données qui peuvent être utilisées pour mesurer systématiquement la qualité des données de pré-entraînement. Nous effectuons une comparaison rigoureuse à grande échelle de l'estimateur simple de qualité des données qu'est la perplexité, ainsi que des estimations plus sophistiquées et intensives en calcul de la norme L2 de l'erreur et de la mémorisation. Ces métriques sont utilisées pour classer et élaguer les corpus de pré-entraînement, et nous comparons ensuite les LLMs entraînés sur ces ensembles de données élagués. Étonnamment, nous constatons que la technique simple de la perplexité surpasse nos méthodes de scoring plus coûteuses en termes de calcul. Nous améliorons notre référence sans élagage tout en nous entraînant sur seulement 30 % de l'ensemble de données d'entraînement original. Notre travail pose les bases de stratégies inexplorées pour la curation automatique de corpus de haute qualité et suggère que la majorité des données de pré-entraînement peut être supprimée tout en conservant les performances.
Les Transformers sont devenus le modèle dominant en apprentissage profond, mais la raison de leur performance supérieure reste mal comprise. Nous émettons ici l'hypothèse que la forte performance des Transformers découle d'un biais architectural en faveur de la méso-optimisation, un processus appris s'exécutant lors de la passe avant d'un modèle et consistant en deux étapes : (i) la construction d'un objectif d'apprentissage interne, et (ii) la recherche de sa solution correspondante via une optimisation. Pour tester cette hypothèse, nous avons rétro-conçu une série de Transformers autorégressifs entraînés sur des tâches simples de modélisation de séquences, révélant des algorithmes de méso-optimisation basés sur le gradient qui pilotent la génération des prédictions. De plus, nous montrons que l'algorithme d'optimisation appris lors de la passe avant peut être immédiatement réutilisé pour résoudre des tâches supervisées en few-shot, suggérant que la méso-optimisation pourrait sous-tendre les capacités d'apprentissage en contexte des grands modèles de langage. Enfin, nous proposons une nouvelle couche d'auto-attention, la méso-couche, qui résout explicitement et efficacement des problèmes d'optimisation spécifiés en contexte. Nous constatons que cette couche peut améliorer les performances dans des expériences synthétiques et préliminaires de modélisation du langage, renforçant notre hypothèse selon laquelle la méso-optimisation est une opération importante cachée dans les poids des Transformers entraînés.
Les grands modèles de langage (LLMs) ont démontré leurs capacités exceptionnelles dans l'exécution de tâches liées au langage. Cependant, leur déploiement pose des défis importants en raison de leurs besoins considérables en mémoire et en stockage. Pour répondre à ce problème, la quantification des poids uniquement, en particulier la quantification des poids en 3 et 4 bits, s'est imposée comme l'une des solutions les plus viables. À mesure que le nombre de bits diminue, la grille de quantification s'élargit, ce qui met en évidence l'importance de l'arrondi vers le haut et vers le bas. Bien que des études antérieures aient montré que l'affinage de l'arrondi vers le haut et vers le bas avec l'ajout de perturbations peut améliorer la précision dans certains scénarios, notre étude est motivée par la limite précise et restreinte de ces perturbations, où seul le seuil pour modifier la valeur d'arrondi est significatif. Par conséquent, nous proposons une approche concise et hautement efficace pour optimiser la tâche d'arrondi des poids. Notre méthode, nommée SignRound, implique un réglage léger par blocs utilisant la descente de gradient signée, nous permettant d'obtenir des résultats exceptionnels en moins de 400 étapes. SignRound surpasse la référence établie de l'arrondi au plus proche (RTN) et rivalise de manière impressionnante avec les méthodes récentes, sans introduire de surcharge supplémentaire lors de l'inférence. Le code source sera bientôt disponible publiquement à l'adresse https://github.com/intel/neural-compressor.
Les modèles audio-langage apprennent conjointement des représentations multimodales de texte et d'audio qui permettent une inférence Zero-Shot. Ces modèles s'appuient sur des encodeurs pour créer des représentations puissantes des entrées et généraliser à de multiples tâches allant des sons, de la musique à la parole. Bien que ces modèles aient atteint des performances remarquables, un écart de performance persiste avec les modèles spécifiques à une tâche. Dans cet article, nous proposons un modèle de pré-entraînement contrastif langage-audio qui est pré-entraîné sur une collection diversifiée de 4,6 millions de paires audio-texte en utilisant deux encodeurs innovants pour l'inférence Zero-Shot. Pour apprendre les représentations audio, nous avons entraîné un encodeur audio sur 22 tâches audio, au lieu de l'entraînement standard de classification d'événements sonores. Pour apprendre les représentations langagières, nous avons entraîné un modèle autoregressif décodeur uniquement, au lieu des modèles encodeur uniquement standards. Ensuite, les représentations audio et langagières sont intégrées dans un espace multimodal commun grâce à l'apprentissage contrastif. Nous avons utilisé nos encodeurs pour améliorer les performances en aval de manière significative. Nous avons évalué de manière approfondie la généralisation de nos représentations sur 26 tâches en aval, la plus grande évaluation dans la littérature. Notre modèle atteint des résultats de pointe dans plusieurs tâches, ouvrant la voie vers des représentations audio à usage général.
L'intégration d'actifs de maillages polygonaux dans des volumes de Neural Radiance Fields (NeRF) photoréalistes, de manière à ce qu'ils puissent être rendus et leurs dynamiques simulées de façon physiquement cohérente avec le NeRF, reste peu explorée du point de vue systémique de l'intégration du NeRF dans le pipeline graphique traditionnel. Cet article conçoit un couplage bidirectionnel entre le maillage et le NeRF lors du rendu et de la simulation. Nous examinons d'abord les équations de transport de la lumière pour le maillage et le NeRF, puis les distillons en un algorithme efficace pour mettre à jour la radiance et le débit le long d'un rayon lancé avec un nombre arbitraire de rebonds. Pour résoudre l'écart entre l'espace colorimétrique linéaire que suppose le tracé de chemin et l'espace colorimétrique sRGB utilisé par le NeRF standard, nous entraînons le NeRF avec des images à plage dynamique étendue (HDR). Nous présentons également une stratégie pour estimer les sources lumineuses et projeter des ombres sur le NeRF. Enfin, nous examinons comment la formulation hybride surface-volumétrique peut être efficacement intégrée avec un simulateur physique haute performance prenant en charge les tissus, les corps rigides et les corps mous. Le système complet de rendu et de simulation peut être exécuté sur un GPU à des taux interactifs. Nous montrons qu'une approche système hybride surpasse les alternatives en termes de réalisme visuel pour l'insertion de maillages, car elle permet un transport réaliste de la lumière depuis les milieux volumétriques du NeRF vers les surfaces, ce qui affecte l'apparence des surfaces réfléchissantes/réfractives et l'éclairage des surfaces diffuses informé par la scène dynamique.
Les paradigmes d'apprentissage pour les grands modèles de langage (LLM) se répartissent actuellement entre l'apprentissage en contexte (ICL) et le réglage fin complet. Chacun de ces approches présente ses propres compromis en termes de données disponibles, taille du modèle, coût de calcul, facilité d'utilisation et qualité finale, sans qu'aucune solution ne se démarque universellement. Dans cet article, nous décrivons d'abord les paradigmes ICL et de réglage fin en mettant en lumière leurs connexions naturelles. Sur la base de ces connexions, nous proposons un nouveau paradigme d'apprentissage appelé FIAT, qui fusionne les meilleurs aspects de ces paradigmes, permettant à la fois des instructions optimisées par ingénierie de prompts et un raisonnement en chaîne de pensée avec les plus grands modèles, tout en utilisant des méthodes similaires pour effectuer des mises à jour de paramètres sur un LLM de taille modeste avec un réglage efficace des paramètres. Nous évaluons l'efficacité de FIAT sur une variété de tâches multilingues et observons que FIAT surpasse à la fois ICL et le réglage fin pour des échelles allant de 100 à 10 000 exemples d'entraînement. Nous espérons que FIAT offre une manière pratique d'exploiter tout le potentiel des LLM sans avoir à faire un choix difficile entre les paradigmes d'apprentissage.