Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans la quête d'une création automatisée de contenu efficace, la génération procédurale, s'appuyant sur des paramètres modifiables et des systèmes basés sur des règles, apparaît comme une approche prometteuse. Néanmoins, cela peut s'avérer une entreprise exigeante, étant donné sa nature complexe qui nécessite une compréhension approfondie des règles, des algorithmes et des paramètres. Pour réduire la charge de travail, nous introduisons 3D-GPT, un cadre utilisant des modèles de langage de grande taille (LLMs) pour la modélisation 3D pilotée par instructions. 3D-GPT positionne les LLMs comme des résolveurs de problèmes compétents, décomposant les tâches de modélisation 3D procédurale en segments accessibles et désignant l'agent approprié pour chaque tâche. 3D-GPT intègre trois agents principaux : l'agent de répartition des tâches, l'agent de conceptualisation et l'agent de modélisation. Ils collaborent pour atteindre deux objectifs. Premièrement, il améliore les descriptions initiales concises des scènes, les faisant évoluer vers des formes détaillées tout en adaptant dynamiquement le texte en fonction des instructions ultérieures. Deuxièmement, il intègre la génération procédurale, extrayant les valeurs des paramètres du texte enrichi pour interfacer facilement avec les logiciels 3D pour la création d'assets. Nos investigations empiriques confirment que 3D-GPT interprète et exécute non seulement les instructions, fournissant des résultats fiables, mais collabore également efficacement avec les concepteurs humains. De plus, il s'intègre parfaitement à Blender, débloquant des possibilités de manipulation étendues. Notre travail met en lumière le potentiel des LLMs dans la modélisation 3D, offrant un cadre de base pour les avancées futures dans la génération de scènes et l'animation.
Les grands modèles de langage (LLM) ouverts, dotés d'excellentes performances sur diverses tâches, ont considérablement fait progresser le développement des LLM. Cependant, ils restent bien inférieurs aux modèles commerciaux tels que ChatGPT et GPT-4 lorsqu'ils agissent en tant qu'agents pour résoudre des tâches complexes dans le monde réel. Ces tâches d'agent utilisent les LLM comme contrôleur central, responsable de la planification, de la mémorisation et de l'utilisation d'outils, nécessitant à la fois des méthodes d'invocation fine et des LLM robustes pour atteindre des performances satisfaisantes. Bien que de nombreuses méthodes d'invocation aient été proposées pour accomplir des tâches d'agent spécifiques, il manque des recherches visant à améliorer les capacités d'agent des LLM eux-mêmes sans compromettre leurs capacités générales. Dans ce travail, nous présentons AgentTuning, une méthode simple et générale pour améliorer les capacités d'agent des LLM tout en conservant leurs capacités générales de LLM. Nous construisons AgentInstruct, un ensemble de données léger pour l'ajustement par instructions, contenant des trajectoires d'interaction de haute qualité. Nous employons une stratégie hybride d'ajustement par instructions en combinant AgentInstruct avec des instructions open source provenant de domaines généraux. AgentTuning est utilisé pour ajuster par instructions la série Llama 2, aboutissant à AgentLM. Nos évaluations montrent qu'AgentTuning permet d'améliorer les capacités d'agent des LLM sans compromettre leurs capacités générales. L'AgentLM-70B est comparable à GPT-3.5-turbo sur des tâches d'agent non vues, démontrant des capacités d'agent généralisées. Nous rendons publics AgentInstruct ainsi que les modèles AgentLM-7B, 13B et 70B sur https://github.com/THUDM/AgentTuning, offrant ainsi des alternatives ouvertes et puissantes aux LLM commerciaux pour les tâches d'agent.
Avec le développement des grands modèles de langage (LLM), trouver un équilibre entre les performances et la sécurité des systèmes d'IA n'a jamais été aussi crucial. Cependant, la tension inhérente entre les objectifs d'utilité et d'innocuité représente un défi majeur lors de l'entraînement des LLM. Pour résoudre ce problème, nous proposons l'apprentissage par renforcement sûr à partir de retours humains (Safe RLHF), un nouvel algorithme pour l'alignement des valeurs humaines. Safe RLHF découple explicitement les préférences humaines concernant l'utilité et l'innocuité, évitant ainsi la confusion des annotateurs face à cette tension et permettant d'entraîner des modèles de récompense et de coût distincts. Nous formalisons la préoccupation de sécurité des LLM comme une tâche d'optimisation visant à maximiser la fonction de récompense tout en respectant des contraintes de coût spécifiées. En exploitant la méthode de Lagrange pour résoudre ce problème contraint, Safe RLHF ajuste dynamiquement l'équilibre entre ces deux objectifs lors du fine-tuning. À travers trois cycles de fine-tuning utilisant Safe RLHF, nous démontrons une capacité supérieure à atténuer les réponses nuisibles tout en améliorant les performances du modèle par rapport aux algorithmes existants alignés sur les valeurs. Expérimentalement, nous avons fine-tuné Alpaca-7B avec Safe RLHF et l'avons aligné sur les préférences humaines collectées, améliorant significativement son utilité et son innocuité selon les évaluations humaines.
Les modèles de langage de grande taille (LLMs) ont excellé en tant que planificateurs sémantiques de haut niveau pour les tâches de prise de décision séquentielle. Cependant, les exploiter pour apprendre des tâches de manipulation complexes de bas niveau, comme le fait de faire tourner un stylo avec dextérité, reste un problème ouvert. Nous comblons cette lacune fondamentale et présentons Eureka, un algorithme de conception de récompense de niveau humain alimenté par les LLMs. Eureka exploite les capacités remarquables de génération en zero-shot, d'écriture de code et d'amélioration en contexte des LLMs de pointe, tels que GPT-4, pour effectuer une optimisation évolutive sur le code de récompense. Les récompenses résultantes peuvent ensuite être utilisées pour acquérir des compétences complexes via l'apprentissage par renforcement. Sans aucun incitatif spécifique à la tâche ou modèle de récompense prédéfini, Eureka génère des fonctions de récompense qui surpassent celles conçues par des experts humains. Dans un ensemble diversifié de 29 environnements d'apprentissage par renforcement open-source incluant 10 morphologies robotiques distinctes, Eureka surpasse les experts humains dans 83% des tâches, conduisant à une amélioration normalisée moyenne de 52%. La généralité d'Eureka permet également une nouvelle approche d'apprentissage en contexte sans gradient pour l'apprentissage par renforcement à partir de retours humains (RLHF), incorporant facilement les entrées humaines pour améliorer la qualité et la sécurité des récompenses générées sans mise à jour du modèle. Enfin, en utilisant les récompenses d'Eureka dans un cadre d'apprentissage curriculaire, nous démontrons pour la première fois une main Shadow simulée capable d'exécuter des tours de stylo, manipulant habilement un stylo en cercles à grande vitesse.
L'apprentissage par renforcement (RL) nécessite soit de spécifier manuellement une fonction de récompense, ce qui est souvent irréalisable, soit d'apprendre un modèle de récompense à partir d'une grande quantité de retours humains, ce qui est souvent très coûteux. Nous étudions une alternative plus efficace en termes d'échantillons : l'utilisation de modèles vision-langage (VLMs) pré-entraînés comme modèles de récompense (RMs) en mode zéro-shot pour spécifier des tâches via le langage naturel. Nous proposons une approche naturelle et générale pour utiliser les VLMs comme modèles de récompense, que nous appelons VLM-RMs. Nous utilisons des VLM-RMs basés sur CLIP pour entraîner un humanoïde MuJoCo à apprendre des tâches complexes sans fonction de récompense spécifiée manuellement, comme s'agenouiller, faire le grand écart ou s'asseoir en position du lotus. Pour chacune de ces tâches, nous fournissons uniquement une phrase décrivant la tâche souhaitée avec un minimum d'ingénierie de prompt. Nous fournissons des vidéos des agents entraînés à l'adresse suivante : https://sites.google.com/view/vlm-rm. Nous pouvons améliorer les performances en fournissant un deuxième prompt de « référence » et en projetant les parties de l'espace d'embedding CLIP non pertinentes pour distinguer l'objectif de la référence. De plus, nous observons un fort effet d'échelle pour les VLM-RMs : les VLMs plus grands, entraînés avec plus de calcul et de données, sont de meilleurs modèles de récompense. Les modes d'échec des VLM-RMs que nous avons rencontrés sont tous liés aux limitations connues des VLMs actuels, comme une capacité de raisonnement spatial limitée ou des environnements visuellement irréalistes qui sont loin de la distribution du VLM. Nous constatons que les VLM-RMs sont remarquablement robustes tant que le VLM est suffisamment grand. Cela suggère que les futurs VLMs deviendront de plus en plus utiles comme modèles de récompense pour une large gamme d'applications RL.
La création musicale est un processus itératif, nécessitant des méthodes variées à chaque étape. Cependant, les systèmes actuels de musique IA ne parviennent pas à orchestrer plusieurs sous-systèmes pour répondre à des besoins divers. Pour combler cette lacune, nous présentons Loop Copilot, un système novateur qui permet aux utilisateurs de générer et d'affiner itérativement de la musique via une interface de dialogue interactive et multi-tours. Le système utilise un modèle de langage de grande envergure pour interpréter les intentions des utilisateurs et sélectionner les modèles IA appropriés pour l'exécution des tâches. Chaque modèle en arrière-plan est spécialisé pour une tâche spécifique, et leurs sorties sont agrégées pour répondre aux exigences de l'utilisateur. Pour assurer la cohérence musicale, des attributs essentiels sont maintenus dans une table centralisée. Nous évaluons l'efficacité du système proposé à travers des entretiens semi-structurés et des questionnaires, mettant en lumière son utilité non seulement pour faciliter la création musicale, mais aussi son potentiel pour des applications plus larges.
Les grands modèles de langage (LLMs) sont désormais disponibles en différentes tailles et configurations auprès des fournisseurs d'API cloud. Bien que cette diversité offre un large éventail de choix, exploiter efficacement ces options pour optimiser les coûts de calcul et les performances reste un défi. Dans ce travail, nous présentons AutoMix, une approche qui achemine stratégiquement les requêtes vers des LLMs plus volumineux, en se basant sur la justesse approximative des sorties d'un LLM plus petit. Au cœur d'AutoMix se trouve un mécanisme d'auto-vérification en few-shot, qui estime la fiabilité de ses propres sorties sans nécessiter d'entraînement. Étant donné que les vérifications peuvent être bruitées, nous utilisons un méta-vérificateur dans AutoMix pour affiner la précision de ces évaluations. Nos expériences utilisant LLAMA2-13/70B, sur cinq ensembles de données de raisonnement contextuel, démontrent qu'AutoMix surpasse les bases de référence établies, améliorant l'avantage incrémental par coût jusqu'à 89 %. Notre code et nos données sont disponibles à l'adresse https://github.com/automix-llm/automix.
Les modèles de langage (LMs) largement utilisés sont généralement construits en augmentant l'échelle d'un pipeline d'entraînement en deux étapes : une étape de pré-entraînement qui utilise un très grand ensemble de données textuelles diversifiées, et une étape de fine-tuning (parfois appelée 'alignement') qui utilise des exemples ciblés ou d'autres spécifications des comportements souhaités. Bien qu'il ait été supposé que les connaissances et les compétences proviennent du pré-entraînement, et que le fine-tuning filtre principalement ces connaissances et compétences, cette intuition n'a pas été largement testée. Pour contribuer à cette exploration, nous introduisons une technique novatrice permettant de découpler les connaissances et les compétences acquises lors de ces deux étapes, offrant ainsi une réponse directe à la question : "Que se passerait-il si nous combinions les connaissances apprises par un grand modèle lors du pré-entraînement avec celles apprises par un petit modèle lors du fine-tuning (ou vice versa) ?" En utilisant un cadre basé sur l'apprentissage par renforcement (RL) dérivé des récents développements dans l'apprentissage à partir des préférences humaines, nous introduisons le fine-tuning émulé (EFT), une méthode rigoureuse et pratique pour échantillonner à partir d'une distribution qui approxime (ou 'émule') le résultat du pré-entraînement et du fine-tuning à différentes échelles. Nos expériences avec EFT montrent que l'augmentation de l'échelle du fine-tuning tend à améliorer l'utilité, tandis que l'augmentation de l'échelle du pré-entraînement tend à améliorer la factualité. Au-delà du découplage des échelles, nous montrons que EFT permet l'ajustement en temps réel de traits comportementaux concurrents comme l'utilité et l'innocuité sans entraînement supplémentaire. Enfin, un cas particulier de fine-tuning émulé, que nous appelons up-scaling de LM, évite le fine-tuning coûteux en ressources des grands modèles pré-entraînés en les combinant avec de petits modèles fine-tunés, émulant ainsi essentiellement le résultat du fine-tuning du grand modèle pré-entraîné. L'up-scaling améliore systématiquement l'utilité et la factualité des modèles suivant des instructions dans les familles Llama, Llama-2 et Falcon, sans hyperparamètres ou entraînement supplémentaires.
L'Inversion Texturale, une méthode d'apprentissage par prompts, apprend un embedding unique pour un nouveau "mot" afin de représenter le style et l'apparence d'une image, permettant ainsi son intégration dans des phrases en langage naturel pour générer de nouvelles images synthétisées. Cependant, l'identification et l'intégration de multiples concepts au niveau des objets dans une seule scène posent des défis importants, même lorsque les embeddings pour des concepts individuels sont accessibles. Ceci est en outre confirmé par nos tests empiriques. Pour relever ce défi, nous introduisons un cadre pour l'Apprentissage par Prompts Multi-Concepts (MCPL), où plusieurs nouveaux "mots" sont appris simultanément à partir d'une seule paire phrase-image. Pour améliorer la précision de la corrélation mot-concept, nous proposons trois techniques de régularisation : le Masquage de l'Attention (AttnMask) pour concentrer l'apprentissage sur les zones pertinentes ; la Perte Contrastive des Prompts (PromptCL) pour séparer les embeddings de différents concepts ; et l'Association d'Adjectifs (Bind adj.) pour lier les nouveaux "mots" à des mots connus. Nous évaluons notre méthode via la génération d'images, l'édition et la visualisation de l'attention avec des images variées. Des comparaisons quantitatives approfondies démontrent que notre méthode peut apprendre des concepts plus sémantiquement dissociés avec une meilleure corrélation mot-concept. De plus, nous introduisons un nouveau jeu de données et un protocole d'évaluation spécialement conçus pour cette nouvelle tâche d'apprentissage de concepts au niveau des objets.
La génération d'objets 3D haute résolution reste une tâche complexe, principalement en raison de la disponibilité limitée de données d'entraînement annotées et exhaustives. Les avancées récentes visent à surmonter cette contrainte en exploitant des modèles génératifs d'images, pré-entraînés sur de vastes ensembles de données web soigneusement sélectionnés, en utilisant des techniques de transfert de connaissances comme le Score Distillation Sampling (SDS). Pour répondre efficacement aux exigences de rendu haute résolution, il est souvent nécessaire d'adopter des modèles basés sur des représentations latentes, tels que le Latent Diffusion Model (LDM). Dans ce cadre, un défi majeur se pose : pour calculer les gradients des pixels individuels, il est nécessaire de rétropropager les gradients depuis l'espace latent désigné à travers les composants figés du modèle d'image, comme l'encodeur VAE utilisé dans le LDM. Cependant, cette voie de propagation des gradients n'a jamais été optimisée, restant non contrôlée pendant l'entraînement. Nous constatons que les gradients non régulés affectent négativement la capacité du modèle 3D à acquérir des informations liées à la texture à partir du modèle génératif d'image, entraînant une synthèse d'apparence de mauvaise qualité. Pour relever ce défi global, nous proposons une opération innovante appelée Pixel-wise Gradient Clipping (PGC), conçue pour s'intégrer de manière transparente dans les modèles génératifs 3D existants, améliorant ainsi leur qualité de synthèse. Plus précisément, nous contrôlons l'amplitude des gradients stochastiques en limitant efficacement les gradients par pixel, tout en préservant les directions de gradients cruciales liées à la texture. Malgré sa simplicité et son coût supplémentaire minimal, des expériences approfondies démontrent l'efficacité de notre PGC pour améliorer les performances des modèles génératifs 3D existants dans le rendu d'objets haute résolution.