papers.description
Imaginez un développeur qui ne peut modifier que la dernière ligne de son code : combien de fois devrait-il recommencer l'écriture d'une fonction avant qu'elle ne soit correcte ? Les modèles auto-régressifs pour la génération de code à partir de langage naturel présentent une limitation similaire : ils ne permettent pas facilement de reconsidérer les tokens générés précédemment. Nous présentons CodeFusion, un modèle de génération de code par diffusion pré-entraîné qui surmonte cette limitation en débruitant itérativement un programme complet conditionné par le langage naturel encodé. Nous évaluons CodeFusion sur la tâche de génération de code à partir de langage naturel pour Bash, Python et les règles de mise en forme conditionnelle (CF) de Microsoft Excel. Les expériences montrent que CodeFusion (75 millions de paramètres) atteint des performances comparables aux systèmes auto-régressifs de pointe (350 millions à 175 milliards de paramètres) en termes de précision top-1 et les dépasse en précision top-3 et top-5 grâce à un meilleur équilibre entre diversité et qualité.
Dans cet article, nous explorons les formats de données à faible précision FP8 pour l'entraînement efficace des grands modèles de langage (LLM). Notre idée clé est que la plupart des variables, telles que les gradients et les états de l'optimiseur, dans l'entraînement des LLM peuvent utiliser des formats de données à faible précision sans compromettre la précision du modèle et sans nécessiter de modifications des hyperparamètres. Plus précisément, nous proposons un nouveau cadre de précision mixte automatique FP8 pour l'entraînement des LLM. Ce cadre offre trois niveaux d'utilisation du FP8 pour rationaliser l'entraînement en précision mixte et parallèle distribué pour les LLM. Il intègre progressivement les gradients en 8 bits, les états de l'optimiseur et l'apprentissage distribué de manière incrémentale. Les résultats expérimentaux montrent que, lors de l'entraînement du modèle GPT-175B sur la plateforme GPU H100, notre cadre d'entraînement en précision mixte FP8 a non seulement permis une réduction remarquable de 42 % de l'utilisation réelle de la mémoire, mais a également fonctionné 64 % plus vite que le cadre BF16 largement adopté (c'est-à-dire Megatron-LM), dépassant la vitesse du Nvidia Transformer Engine de 17 %. Cela réduit considérablement les coûts d'entraînement des grands modèles de base. De plus, notre méthodologie d'entraînement en précision mixte FP8 est générique. Elle peut être appliquée de manière transparente à d'autres tâches telles que le réglage d'instructions des LLM et l'apprentissage par renforcement avec retour humain, offrant des économies sur les dépenses de réglage fin. Notre cadre d'entraînement à faible précision FP8 est open-source à l'adresse {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
Nous présentons ControlLLM, un nouveau cadre permettant aux grands modèles de langage (LLMs) d'utiliser des outils multi-modaux pour résoudre des tâches complexes du monde réel. Malgré les performances remarquables des LLMs, ceux-ci rencontrent encore des difficultés avec l'invocation d'outils en raison d'invites utilisateur ambiguës, d'une sélection et d'une paramétrisation imprécises des outils, ainsi que d'une planification inefficace des outils. Pour surmonter ces défis, notre cadre comprend trois composants clés : (1) un décomposeur de tâches qui divise une tâche complexe en sous-tâches claires avec des entrées et sorties bien définies ; (2) un paradigme de Pensées-sur-Graphe (Thoughts-on-Graph, ToG) qui recherche le chemin de solution optimal sur un graphe d'outils pré-construit, spécifiant les relations de paramètres et de dépendance entre différents outils ; et (3) un moteur d'exécution doté d'une boîte à outils riche qui interprète le chemin de solution et exécute les outils efficacement sur différents dispositifs de calcul. Nous évaluons notre cadre sur diverses tâches impliquant le traitement d'images, d'audio et de vidéo, démontrant sa précision, son efficacité et sa polyvalence supérieures par rapport aux méthodes existantes.
L'apprentissage sur appareil et le réglage fin efficace permettent une personnalisation continue et respectueuse de la vie privée (par exemple, le réglage local de grands modèles de langage sur des données personnalisées). Cependant, les frameworks d'entraînement existants sont conçus pour des serveurs cloud dotés d'accélérateurs puissants (par exemple, GPU, TPU) et manquent d'optimisations pour l'apprentissage en périphérie, qui fait face à des défis liés aux limitations de ressources et à la diversité du matériel périphérique. Nous présentons PockEngine : un moteur compact, épars et efficace permettant le réglage fin sur divers appareils périphériques. PockEngine prend en charge la rétropropagation éparse : il élagage le graphe de rétropropagation et met à jour le modèle de manière éparse avec des économies de mémoire mesurées et une réduction de la latence, tout en maintenant la qualité du modèle. Deuxièmement, PockEngine est axé sur la compilation : l'intégralité du graphe d'entraînement (y compris les étapes de propagation avant, de rétropropagation et d'optimisation) est dérivée au moment de la compilation, ce qui réduit la surcharge d'exécution et offre des opportunités de transformations de graphes. PockEngine intègre également un ensemble riche d'optimisations de graphes d'entraînement, permettant ainsi d'accélérer davantage le coût de l'entraînement, y compris le réordonnancement des opérateurs et le changement de backend. PockEngine prend en charge diverses applications, interfaces et backends matériels : il compile et ajuste de manière flexible des modèles définis dans PyTorch/TensorFlow/Jax et déploie des binaires sur des CPU/GPU/DSP mobiles. Nous avons évalué PockEngine sur des modèles de vision et des grands modèles de langage. PockEngine atteint jusqu'à 15 fois d'accélération par rapport à TensorFlow standard (Raspberry Pi), et une économie de mémoire de 5,6 fois lors de la rétropropagation (Jetson AGX Orin). Remarquablement, PockEngine permet de régler finement LLaMav2-7B sur NVIDIA Jetson AGX Orin à 550 tokens/s, soit 7,9 fois plus rapide que PyTorch.
Les grands modèles de langage (LLM) montrent des promesses pour les tâches de traitement du langage naturel mais peinent lorsqu'ils sont appliqués directement à des domaines complexes comme la finance. Les LLM ont des difficultés à raisonner et à intégrer toutes les informations pertinentes. Nous proposons une approche centrée sur les données pour permettre aux LLM de mieux gérer les tâches financières. Notre idée clé est qu'au lieu de surcharger le LLM avec tout en une seule fois, il est plus efficace de prétraiter et de précomprendre les données. Nous créons un LLM financier (FLLM) en utilisant un ajustement fin basé sur des invites multitâches pour réaliser le prétraitement et la précompréhension des données. Cependant, les données étiquetées sont rares pour chaque tâche. Pour surmonter les coûts d'annotation manuelle, nous employons un raisonnement d'augmentation abductive (AAR) pour générer automatiquement des données d'entraînement en modifiant les étiquettes pseudo issues des sorties du FLLM lui-même. Les expériences montrent que notre FLLM centré sur les données avec AAR surpasse largement les LLM financiers de base conçus pour le texte brut, atteignant des performances de pointe sur les tâches d'analyse et d'interprétation financières. Nous ouvrons également un nouveau benchmark pour l'analyse et l'interprétation financières. Notre méthodologie offre une voie prometteuse pour débloquer le potentiel des LLM dans des domaines complexes du monde réel.
Nous présentons un cadre pour la mesure automatisée des métriques d'IA responsable (RAI) pour les grands modèles de langage (LLM) ainsi que pour les produits et services associés. Notre cadre pour mesurer automatiquement les préjudices causés par les LLM s'appuie sur l'expertise technique et sociotechnique existante et exploite les capacités des LLM de pointe, tels que GPT-4. Nous utilisons ce cadre pour mener plusieurs études de cas examinant comment différents LLM peuvent enfreindre une série de principes liés à la RAI. Ce cadre peut être employé conjointement avec une expertise sociotechnique spécifique à un domaine pour créer des mesures pour de nouveaux domaines de préjudices à l'avenir. En mettant en œuvre ce cadre, nous visons à permettre des efforts de mesure des préjudices plus avancés et à promouvoir une utilisation responsable des LLM.
Nous présentons ZeroNVS, un modèle de diffusion 3D pour la synthèse de nouvelles vues à partir d'une seule image, adapté aux scènes en conditions réelles. Alors que les méthodes existantes sont conçues pour des objets isolés sur fonds masqués, nous proposons de nouvelles techniques pour relever les défis posés par les scènes complexes en extérieur ou en intérieur comportant plusieurs objets. Plus précisément, nous entraînons un a priori génératif sur un mélange de sources de données capturant des scènes centrées sur des objets, des intérieurs et des extérieurs. Pour résoudre les problèmes liés au mélange de données, tels que l'ambiguïté d'échelle de profondeur, nous proposons une nouvelle paramétrisation et un schéma de normalisation pour le conditionnement de la caméra. De plus, nous observons que l'échantillonnage par distillation de score (SDS) a tendance à tronquer la distribution des arrière-plans complexes lors de la distillation de scènes à 360 degrés, et nous proposons "l'ancrage SDS" pour améliorer la diversité des nouvelles vues synthétisées. Notre modèle établit un nouveau record de pointe en LPIPS sur le jeu de données DTU en configuration zero-shot, surpassant même les méthodes spécifiquement entraînées sur DTU. Nous adaptons également le jeu de données exigeant Mip-NeRF 360 comme nouveau benchmark pour la synthèse de nouvelles vues à partir d'une seule image, et démontrons des performances solides dans ce contexte. Notre code et nos données sont disponibles à l'adresse http://kylesargent.github.io/zeronvs/.
Les champs de radiance neuronaux (NeRFs) se sont avérés être des représentations 3D puissantes, capables de synthétiser des vues nouvelles de haute qualité pour des scènes complexes. Bien que les NeRFs aient été appliqués à l’infographie, la vision et la robotique, les problèmes de lenteur de rendu et d’artefacts visuels caractéristiques limitent leur adoption dans de nombreux cas d’utilisation. Dans ce travail, nous explorons la combinaison d’un autoencodeur (AE) avec un NeRF, où des caractéristiques latentes (au lieu des couleurs) sont rendues puis décodées par convolution. Le NeRF dans l’espace latent qui en résulte peut produire des vues nouvelles de qualité supérieure à celle des NeRFs standards dans l’espace des couleurs, car l’AE peut corriger certains artefacts visuels, tout en rendant plus de trois fois plus rapidement. Notre approche est orthogonale aux autres techniques visant à améliorer l’efficacité des NeRFs. De plus, nous pouvons contrôler le compromis entre efficacité et qualité d’image en réduisant l’architecture de l’AE, obtenant ainsi un rendu plus de 13 fois plus rapide avec seulement une légère baisse de performance. Nous espérons que notre méthode pourra constituer la base d’une représentation 3D efficace et fidèle pour des tâches en aval, en particulier lorsque la conservation de la différentiabilité est utile, comme dans de nombreux scénarios robotiques nécessitant un apprentissage continu.
Nous démontrons que les grands modèles de langage (LLMs) peuvent être adaptés pour devenir des politiques généralisables pour des tâches visuelles incarnées. Notre approche, appelée Large LAnguage model Reinforcement Learning Policy (LLaRP), adapte un LLM pré-entraîné et figé pour prendre en entrée des instructions textuelles et des observations visuelles égocentriques, et produire directement des actions dans l'environnement. En utilisant l'apprentissage par renforcement, nous entraînons LLaRP à voir et agir uniquement à travers des interactions environnementales. Nous montrons que LLaRP est robuste face à des paraphrases complexes des instructions de tâches et peut généraliser à de nouvelles tâches nécessitant un comportement optimal inédit. En particulier, sur 1 000 tâches inédites, il atteint un taux de réussite de 42 %, soit 1,7 fois le taux de réussite d'autres méthodes d'apprentissage courantes ou d'applications zero-shot des LLMs. Enfin, pour aider la communauté à étudier les problèmes d'IA incarnée massivement multi-tâches conditionnés par le langage, nous publions un nouveau benchmark, Language Rearrangement, composé de 150 000 tâches d'entraînement et 1 000 tâches de test pour le réarrangement conditionné par le langage. Des exemples vidéo de LLaRP exécutant des instructions inédites de Language Rearrangement sont disponibles à l'adresse https://llm-rl.github.io.
Les grands modèles de langage sont entraînés sur de vastes quantités de texte provenant d'Internet, qui contiennent à la fois des informations factuelles et trompeuses sur le monde. Les modèles de langage peuvent-ils distinguer la vérité du mensonge dans ces données contradictoires ? En développant l'idée que les LLM peuvent modéliser différents agents produisant les corpus, nous émettons l'hypothèse qu'ils peuvent regrouper les textes véridiques en modélisant une persona véridique : un groupe d'agents susceptibles de produire des textes véridiques et partageant des caractéristiques similaires. Par exemple, des sources fiables comme Wikipédia et Science utilisent généralement des styles d'écriture formels et font des affirmations cohérentes. En modélisant cette persona, les LLM peuvent généraliser la véracité au-delà des contextes spécifiques dans lesquels chaque agent a généré le texte d'entraînement. Par exemple, le modèle peut déduire que l'agent "Wikipédia" se comportera de manière véridique sur des sujets qui n'ont été générés que par "Science", car ils partagent une persona. Nous montrons d'abord des preuves de l'hypothèse de la persona via deux observations : (1) nous pouvons sonder si la réponse d'un modèle sera véridique avant qu'elle ne soit générée ; (2) l'affinage d'un modèle sur un ensemble de faits améliore sa véracité sur des sujets non vus. Ensuite, en utilisant l'arithmétique comme environnement synthétique, nous montrons que les modèles de langage peuvent séparer les affirmations vraies et fausses, et généraliser la véracité entre les agents ; mais seulement si les agents dans les données d'entraînement partagent un processus génératif véridique permettant la création d'une persona véridique. Globalement, nos résultats suggèrent que les modèles peuvent exploiter des structures hiérarchiques dans les données pour apprendre des concepts abstraits comme la véracité.