Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le projet BigCode, une collaboration scientifique ouverte axée sur le développement responsable de grands modèles de langage pour le code (Code LLMs), présente StarCoder2. En partenariat avec Software Heritage (SWH), nous construisons The Stack v2 à partir des biens communs numériques de leur archive de code source. En plus des dépôts SWH couvrant 619 langages de programmation, nous sélectionnons soigneusement d'autres sources de données de haute qualité, telles que les pull requests GitHub, les notebooks Kaggle et la documentation de code. Cela aboutit à un ensemble d'entraînement 4 fois plus grand que le premier jeu de données StarCoder. Nous entraînons les modèles StarCoder2 avec 3B, 7B et 15B de paramètres sur 3,3 à 4,3 billions de tokens et les évaluons de manière approfondie sur un ensemble complet de benchmarks pour Code LLM. Nous constatons que notre petit modèle, StarCoder2-3B, surpasse d'autres Code LLM de taille similaire sur la plupart des benchmarks, et dépasse également StarCoderBase-15B. Notre grand modèle, StarCoder2-15B, surpasse significativement d'autres modèles de taille comparable. De plus, il égale ou dépasse CodeLlama-34B, un modèle plus de deux fois plus grand. Bien que DeepSeekCoder-33B soit le modèle le plus performant pour la complétion de code dans les langages à ressources élevées, nous constatons que StarCoder2-15B le surpasse sur les benchmarks de raisonnement mathématique et de code, ainsi que sur plusieurs langages à faibles ressources. Nous rendons les poids du modèle disponibles sous une licence OpenRAIL et assurons une transparence totale concernant les données d'entraînement en publiant les identifiants persistants SoftWare Heritage (SWHIDs) des données de code source.
Les réseaux de neurones récurrents (RNN) offrent une inférence rapide et une mise à l'échelle efficace sur des séquences longues, mais ils sont difficiles à entraîner et à scaler. Nous proposons Hawk, un RNN avec des récurrences linéaires à portes, et Griffin, un modèle hybride qui combine des récurrences linéaires à portes avec une attention locale. Hawk dépasse les performances rapportées de Mamba sur des tâches en aval, tandis que Griffin atteint les performances de Llama-2 malgré un entraînement sur plus de 6 fois moins de tokens. Nous montrons également que Griffin peut extrapoler sur des séquences significativement plus longues que celles vues pendant l'entraînement. Nos modèles égalent l'efficacité matérielle des Transformers pendant l'entraînement, et pendant l'inférence, ils ont une latence plus faible et un débit significativement plus élevé. Nous avons mis à l'échelle Griffin jusqu'à 14 milliards de paramètres, et expliquons comment partitionner nos modèles pour un entraînement distribué efficace.
L'apprentissage profond traditionnel néglige souvent les octets, unités fondamentales du monde numérique, où toutes les formes d'information et d'opérations sont encodées et manipulées en format binaire. Inspirés par le succès de la prédiction du prochain jeton en traitement du langage naturel, nous introduisons bGPT, un modèle basé sur la prédiction du prochain octet pour simuler le monde numérique. bGPT rivalise avec des modèles spécialisés en termes de performance sur diverses modalités, incluant le texte, l'audio et les images, et ouvre de nouvelles perspectives pour prédire, simuler et diagnostiquer le comportement des algorithmes ou du matériel. Il a reproduit presque parfaitement le processus de conversion de données musicales symboliques, atteignant un faible taux d'erreur de 0,0011 bits par octet lors de la conversion de la notation ABC au format MIDI. De plus, bGPT démontre des capacités exceptionnelles dans la simulation du comportement d'un CPU, avec une précision dépassant 99,99 % dans l'exécution de diverses opérations. En exploitant la prédiction du prochain octet, des modèles comme bGPT peuvent apprendre directement à partir de vastes données binaires, simulant efficacement les motifs complexes du monde numérique.
La qualité des données et des annotations détermine la limite supérieure de la qualité d'un modèle en aval. Bien qu'il existe de grands corpus textuels et des paires image-texte, les données vidéo-texte de haute qualité sont beaucoup plus difficiles à collecter. Tout d'abord, l'étiquetage manuel est plus chronophage, car il nécessite qu'un annotateur visionne une vidéo entière. Ensuite, les vidéos possèdent une dimension temporelle, composée de plusieurs scènes empilées les unes sur les autres, et montrant de multiples actions. Par conséquent, pour établir un ensemble de données vidéo avec des légendes de haute qualité, nous proposons une approche automatique exploitant des entrées multimodales, telles que la description textuelle de la vidéo, les sous-titres et les images individuelles de la vidéo. Plus précisément, nous sélectionnons 3,8 millions de vidéos haute résolution provenant du jeu de données HD-VILA-100M, accessible au public. Nous les divisons ensuite en clips vidéo sémantiquement cohérents, et appliquons plusieurs modèles enseignants inter-modaux pour obtenir des légendes pour chaque vidéo. Ensuite, nous affinons un modèle de récupération sur un petit sous-ensemble où la meilleure légende de chaque vidéo est sélectionnée manuellement, puis nous utilisons ce modèle sur l'ensemble du jeu de données pour sélectionner la meilleure légende comme annotation. De cette manière, nous obtenons 70 millions de vidéos associées à des légendes textuelles de haute qualité. Nous baptisons ce jeu de données Panda-70M. Nous démontrons la valeur du jeu de données proposé sur trois tâches en aval : la génération de légendes vidéo, la récupération vidéo et texte, et la génération de vidéos pilotée par texte. Les modèles entraînés sur les données proposées obtiennent des scores nettement supérieurs sur la majorité des métriques pour toutes les tâches.
Nous formulons le contrôle d'un humanoïde dans le monde réel comme un problème de prédiction du prochain jeton, similaire à la prédiction du mot suivant dans le langage. Notre modèle est un transformeur causal entraîné via la prédiction autorégressive de trajectoires sensorimotrices. Pour tenir compte de la nature multimodale des données, nous effectuons la prédiction de manière alignée par modalité, et pour chaque jeton d'entrée, nous prédisons le jeton suivant de la même modalité. Cette formulation générale nous permet d'exploiter des données avec des modalités manquantes, comme des trajectoires vidéo sans actions. Nous entraînons notre modèle sur un ensemble de trajectoires simulées provenant de politiques de réseaux neuronaux antérieures, de contrôleurs basés sur des modèles, de données de capture de mouvement et de vidéos YouTube d'humains. Nous montrons que notre modèle permet à un humanoïde de taille réelle de marcher à San Francisco en zero-shot. Notre modèle peut être transféré au monde réel même lorsqu'il est entraîné sur seulement 27 heures de données de marche, et peut généraliser à des commandes non vues pendant l'entraînement, comme marcher en arrière. Ces résultats suggèrent une voie prometteuse pour l'apprentissage de tâches de contrôle complexes dans le monde réel grâce à la modélisation générative de trajectoires sensorimotrices.
Nous présentons MOSAIC, une architecture modulaire pour les robots domestiques permettant d'exécuter des tâches collaboratives complexes, telles que la cuisine avec des utilisateurs quotidiens. MOSAIC collabore étroitement avec les humains, interagit avec les utilisateurs en langage naturel, coordonne plusieurs robots et gère un vocabulaire ouvert d'objets du quotidien. Au cœur de MOSAIC se trouve la modularité : elle exploite plusieurs modèles pré-entraînés à grande échelle pour des tâches générales comme la reconnaissance du langage et des images, tout en utilisant des modules simplifiés conçus pour le contrôle spécifique à chaque tâche. Nous évaluons de manière approfondie MOSAIC sur 60 essais de bout en bout où deux robots collaborent avec un utilisateur humain pour cuisiner une combinaison de 6 recettes. Nous testons également de manière extensive les modules individuels avec 180 épisodes de préhension visuomotrice, 60 épisodes de prévision des mouvements humains et 46 évaluations en ligne des utilisateurs sur le planificateur de tâches. Nous montrons que MOSAIC est capable de collaborer efficacement avec les humains en exécutant l'ensemble du système de bout en bout avec un utilisateur humain réel, complétant 68,3 % (41/60) des essais de cuisine collaborative pour 6 recettes différentes, avec un taux de réussite des sous-tâches de 91,6 %. Enfin, nous discutons des limites du système actuel et des défis passionnants dans ce domaine. Le site web du projet est accessible à l'adresse suivante : https://portal-cornell.github.io/MOSAIC/
Les modèles de diffusion ont obtenu un grand succès dans la synthèse d'images de haute qualité. Cependant, la génération d'images haute résolution avec ces modèles reste un défi en raison des énormes coûts de calcul, entraînant une latence prohibitive pour les applications interactives. Dans cet article, nous proposons DistriFusion pour résoudre ce problème en exploitant le parallélisme sur plusieurs GPU. Notre méthode divise l'entrée du modèle en plusieurs patches et attribue chaque patch à un GPU. Cependant, une implémentation naïve d'un tel algorithme rompt l'interaction entre les patches et entraîne une perte de fidélité, tandis que l'intégration de cette interaction engendre un surcoût de communication considérable. Pour surmonter ce dilemme, nous observons la forte similarité entre les entrées des étapes de diffusion adjacentes et proposons un parallélisme de patches décalés, qui tire parti de la nature séquentielle du processus de diffusion en réutilisant les cartes de caractéristiques précalculées de l'étape précédente pour fournir un contexte à l'étape actuelle. Ainsi, notre méthode prend en charge une communication asynchrone, qui peut être pipelinée par le calcul. Des expériences approfondies montrent que notre méthode peut être appliquée au récent Stable Diffusion XL sans dégradation de qualité et atteindre jusqu'à une accélération de 6,1 fois sur huit NVIDIA A100 par rapport à un seul. Notre code est disponible publiquement à l'adresse https://github.com/mit-han-lab/distrifuser.
Des travaux récents ont montré que les modèles de langage basés sur l'attention excellent en rappel, c'est-à-dire la capacité à ancrer les générations dans des tokens précédemment vus dans le contexte. Cependant, l'efficacité des modèles basés sur l'attention est limitée lors de l'inférence par la consommation mémoire agressive du cache KV. Dans ce travail, nous explorons si nous pouvons améliorer l'efficacité des modèles de langage (par exemple, en réduisant la consommation mémoire) sans compromettre le rappel. En appliquant des expériences et des théories à un large ensemble d'architectures, nous identifions un compromis clé entre la taille de l'état d'un modèle et sa capacité de rappel. Nous montrons que les alternatives efficaces à l'attention (par exemple, H3, Mamba, RWKV) maintiennent un état récurrent de taille fixe, mais peinent à effectuer un rappel efficace. Nous proposons BASED, une architecture simple combinant une attention linéaire et une attention par fenêtre glissante. En faisant varier la taille de la fenêtre de BASED et la dimension des caractéristiques de l'attention linéaire, nous pouvons ajuster la taille de l'état et parcourir la frontière de Pareto de la courbe de compromis rappel-mémoire, retrouvant la qualité complète de l'attention à une extrémité et la petite taille d'état des alternatives à l'attention à l'autre. Nous entraînons des modèles de langage jusqu'à 1,3 milliard de paramètres et montrons que BASED correspond aux meilleurs modèles sous-quadratiques (par exemple, Mamba) en termes de perplexité et les surpasse sur des tâches intensives en rappel du monde réel avec une précision supérieure de 6,22 points. Les implémentations de l'attention linéaire sont souvent moins efficaces que les implémentations optimisées de l'attention standard. Pour rendre BASED compétitif, nous développons des algorithmes conscients des E/S qui permettent un débit 24 fois supérieur à celui de FlashAttention-2 lors de la génération de 1024 tokens avec des modèles de 1,3 milliard de paramètres. Le code de ce travail est disponible à l'adresse suivante : https://github.com/HazyResearch/based.
Les grands modèles de langage démontrent un potentiel considérable dans la génération et l'optimisation de code. Les méthodes d'échantillonnage couramment utilisées, telles que le Nucleus Sampling, augmentent la diversité de la génération mais produisent souvent des échantillons répétés pour les basses températures et des échantillons incohérents pour les hautes températures. De plus, le coefficient de température doit être ajusté pour chaque tâche, limitant ainsi son utilité. Nous présentons le Priority Sampling, une technique d'échantillonnage simple et déterministe qui produit des échantillons uniques ordonnés par la confiance du modèle. Chaque nouvel échantillon développe le token non développé ayant la probabilité la plus élevée dans l'arbre de recherche augmenté. Par ailleurs, le Priority Sampling prend en charge la génération basée sur des expressions régulières, offrant ainsi un processus d'exploration contrôlé et structuré. Le Priority Sampling surpasse le Nucleus Sampling pour tout nombre d'échantillons, améliorant les performances du modèle original de 2,87 % à 5 % par rapport à -Oz. De plus, il surpasse l'autotuneur utilisé pour la génération des étiquettes pour l'entraînement du modèle original en seulement 30 échantillons.
Le Latent Consistency Model (LCM) étend le Consistency Model à l'espace latent et exploite la technique de distillation guidée de la cohérence pour obtenir des performances impressionnantes dans l'accélération de la synthèse texte-image. Cependant, nous avons observé que le LCM peine à générer des images à la fois claires et riches en détails complexes. Pour remédier à cette limitation, nous avons d'abord exploré et élucidé les causes sous-jacentes. Notre investigation révèle que le problème principal provient d'erreurs dans trois domaines distincts. Par conséquent, nous introduisons la Trajectory Consistency Distillation (TCD), qui intègre une fonction de cohérence de trajectoire et un échantillonnage stochastique stratégique. La fonction de cohérence de trajectoire réduit les erreurs de distillation en élargissant la portée de la condition aux limites d'auto-cohérence et en dotant la TCD de la capacité à suivre avec précision l'ensemble de la trajectoire de l'équation différentielle ordinaire (ODE) de flux de probabilité. De plus, l'échantillonnage stochastique stratégique est spécifiquement conçu pour éviter les erreurs accumulées inhérentes à l'échantillonnage de cohérence multi-étapes, soigneusement adapté pour compléter le modèle TCD. Les expériences démontrent que la TCD améliore non seulement de manière significative la qualité des images à faible nombre d'évaluations de fonction (NFEs), mais produit également des résultats plus détaillés par rapport au modèle enseignant à un nombre élevé de NFEs.
La synthèse de nouvelles vues à travers les modèles de diffusion a démontré un potentiel remarquable pour générer des images diversifiées et de haute qualité. Cependant, le processus indépendant de génération d'images dans ces méthodes prédominantes pose des défis pour maintenir la cohérence entre plusieurs vues. Pour résoudre ce problème, nous introduisons ViewFusion, un nouvel algorithme sans apprentissage qui peut être intégré de manière transparente dans les modèles de diffusion pré-entraînés existants. Notre approche adopte une méthode auto-régressive qui exploite implicitement les vues précédemment générées comme contexte pour la génération de la vue suivante, assurant ainsi une robuste cohérence multi-vues lors du processus de génération de nouvelles vues. Grâce à un processus de diffusion qui fusionne les informations des vues connues via un débruitage interpolé, notre framework étend avec succès les modèles conditionnés par une seule vue pour fonctionner dans des configurations conditionnées par plusieurs vues, sans aucun ajustement supplémentaire. Les résultats expérimentaux approfondis démontrent l'efficacité de ViewFusion dans la génération de nouvelles vues cohérentes et détaillées.