Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'apprentissage par renforcement à partir de retours humains (RLHF) est devenu un paradigme populaire pour aligner les modèles sur les intentions humaines. Typiquement, les algorithmes RLHF fonctionnent en deux phases : d'abord, ils utilisent les préférences humaines pour apprendre une fonction de récompense, puis alignent le modèle en optimisant la récompense apprise via l'apprentissage par renforcement (RL). Ce paradigme suppose que les préférences humaines sont distribuées selon la récompense, mais des travaux récents suggèrent qu'elles suivent plutôt le regret sous la politique optimale de l'utilisateur. Ainsi, apprendre une fonction de récompense à partir de retours repose non seulement sur une hypothèse erronée des préférences humaines, mais entraîne également des défis d'optimisation complexes liés aux gradients de politique ou au bootstrap dans la phase RL. En raison de ces défis, les méthodes RLHF contemporaines se limitent à des contextes de bandits contextuels (par exemple, dans les grands modèles de langage) ou réduisent la dimensionnalité des observations (par exemple, en robotique basée sur l'état). Nous surmontons ces limitations en introduisant une nouvelle famille d'algorithmes pour optimiser le comportement à partir de retours humains en utilisant le modèle de préférences humaines basé sur le regret. En appliquant le principe d'entropie maximale, nous dérivons l'apprentissage contrastif des préférences (CPL), un algorithme pour apprendre des politiques optimales à partir de préférences sans apprendre de fonctions de récompense, évitant ainsi le besoin de RL. CPL est entièrement hors-politique, utilise uniquement un objectif contrastif simple, et peut être appliqué à des MDP arbitraires. Cela permet à CPL de s'adapter élégamment aux problèmes RLHF séquentiels et de haute dimension tout en étant plus simple que les méthodes précédentes.
La *synthèse de données* est une approche prometteuse pour entraîner un petit modèle avec très peu de données annotées. Une méthode pour la synthèse de données consiste à exploiter les connaissances riches des grands modèles de langage pour générer des exemples d'entraînement pseudo-étiquetés pour les petits modèles, permettant ainsi d'atteindre à la fois une efficacité en termes de données et de calcul. Cependant, un défi majeur dans la synthèse de données est que l'ensemble de données synthétisé souffre souvent d'un écart distributionnel important par rapport à la distribution des données de la *tâche réelle*. Ainsi, dans cet article, nous proposons *Synthesis Step by Step* (**S3**), un cadre de synthèse de données qui réduit cet écart distributionnel en extrapolant itérativement les erreurs commises par un petit modèle entraîné sur l'ensemble de données synthétisé, en utilisant un petit ensemble de validation réel et un grand modèle de langage. Des expériences approfondies sur plusieurs tâches de traitement du langage naturel montrent que notre approche améliore les performances d'un petit modèle en réduisant l'écart entre l'ensemble de données synthétique et les données réelles, ce qui se traduit par une amélioration significative par rapport à plusieurs méthodes de référence : une amélioration de 9,48 % par rapport à ZeroGen et de 2,73 % par rapport à GoldGen, et jusqu'à 15,17 % par rapport au petit modèle entraîné sur des données annotées par des humains.
Les modèles probabilistes de diffusion (DPMs) ont démontré d'excellentes performances pour la génération d'images haute fidélité, tout en souffrant d'un échantillonnage inefficace. Des travaux récents accélèrent la procédure d'échantillonnage en proposant des solveurs d'équations différentielles ordinaires (EDO) rapides qui exploitent la forme spécifique des EDO des DPMs. Cependant, ils reposent fortement sur une paramétrisation spécifique lors de l'inférence (telle que la prédiction de bruit ou de données), qui pourrait ne pas être le choix optimal. Dans ce travail, nous proposons une nouvelle formulation visant à optimiser la paramétrisation pendant l'échantillonnage, minimisant ainsi l'erreur de discrétisation du premier ordre de la solution de l'EDO. Sur la base de cette formulation, nous proposons DPM-Solver-v3, un nouveau solveur d'EDO rapide pour les DPMs, en introduisant plusieurs coefficients calculés efficacement sur le modèle pré-entraîné, que nous appelons statistiques empiriques du modèle. Nous intégrons en outre des méthodes à pas multiples et un cadre prédicteur-correcteur, et proposons des techniques pour améliorer la qualité des échantillons avec un faible nombre d'évaluations de fonctions (NFE) ou des échelles de guidage élevées. Les expériences montrent que DPM-Solver-v3 obtient systématiquement des performances meilleures ou comparables dans l'échantillonnage conditionnel et non conditionnel, avec des DPMs dans l'espace des pixels et dans l'espace latent, en particulier pour 5 à 10 NFE. Nous obtenons des FID de 12,21 (5 NFE) et 2,51 (10 NFE) sur CIFAR10 non conditionnel, et une MSE de 0,55 (5 NFE, échelle de guidage de 7,5) sur Stable Diffusion, ce qui représente une accélération de 15 % à 30 % par rapport aux méthodes sans apprentissage précédentes de pointe. Le code est disponible à l'adresse https://github.com/thu-ml/DPM-Solver-v3.
L'audition est sans doute une capacité essentielle pour les agents d'intelligence artificielle (IA) dans le monde physique, se référant à la perception et à la compréhension d'informations auditives générales comprenant au moins trois types de sons : la parole, les événements audio et la musique. Dans cet article, nous proposons SALMONN, un réseau neuronal ouvert pour la parole, l'audio, le langage et la musique, construit en intégrant un grand modèle de langage (LLM) pré-entraîné basé sur le texte avec des encodeurs de parole et d'audio en un seul modèle multimodal. SALMONN permet au LLM de traiter et de comprendre directement les entrées audio générales et d'obtenir des performances compétitives sur un certain nombre de tâches de parole et d'audio utilisées lors de l'entraînement, telles que la reconnaissance automatique de la parole et la traduction, la réponse à des questions basées sur des informations auditives, la reconnaissance des émotions, la vérification du locuteur, ainsi que la description de musique et d'audio, etc. SALMONN possède également un ensemble varié de capacités émergentes non observées lors de l'entraînement, incluant mais ne se limitant pas à la traduction de la parole vers des langues non entraînées, le remplissage de slots basé sur la parole, la réponse à des questions basées sur des requêtes parlées, la narration basée sur l'audio, et le raisonnement conjoint parole-audio, etc. La présence de ces capacités émergentes intermodales est étudiée, et une nouvelle approche de réglage d'activation en few-shot est proposée pour activer ces capacités de SALMONN. À notre connaissance, SALMONN est le premier modèle de ce type et peut être considéré comme une étape vers une IA dotée de capacités auditives génériques. Une démonstration interactive de SALMONN est disponible à l'adresse \url{https://github.com/bytedance/SALMONN}, et le code d'entraînement ainsi que les points de contrôle du modèle seront publiés après acceptation.
Les grands modèles de langage (LLMs) démontrent des capacités émergentes impressionnantes en traitement du langage naturel, mais leur démocratisation est entravée par d'énormes besoins en calcul et leur nature propriétaire. Des recherches récentes visant à faire progresser des modèles de langage plus petits et open-source en distillant des connaissances à partir de LLMs boîte noire ont obtenu des résultats prometteurs en matière de capacité à suivre des instructions. Cependant, la capacité de raisonnement, plus difficile à développer, est relativement peu explorée. Dans cet article, nous proposons une approche d'apprentissage sur mesure pour distiller cette capacité de raisonnement vers des modèles de langage plus petits, afin de faciliter la démocratisation de cette capacité exclusive. Contrairement à l'utilisation du LLM uniquement comme annotateur de données, nous exploitons son potentiel en tant qu'enseignant de raisonnement en construisant un paradigme d'apprentissage interactif multi-tours. Ce paradigme permet à l'étudiant d'exposer ses lacunes à l'enseignant boîte noire, qui peut ensuite fournir des données d'entraînement personnalisées en retour. De plus, pour exploiter le potentiel de raisonnement du modèle de langage plus petit, nous proposons un apprentissage par auto-réflexion pour motiver l'étudiant à apprendre de ses propres erreurs. L'apprentissage par auto-réflexion et via le LLM sont tous deux adaptés à l'état d'apprentissage de l'étudiant, grâce à l'intégration fluide avec le paradigme d'apprentissage multi-tours. Des expériences et analyses approfondies sur des tâches de raisonnement mathématique et de bon sens démontrent l'efficacité de notre méthode. Le code sera disponible à l'adresse https://github.com/Raibows/Learn-to-Reason.
Les grands modèles de langage (LLMs) ont démontré des capacités puissantes en matière de prise de décision et de planification pour résoudre des problèmes complexes du monde réel. Les agents autonomes basés sur des LLMs peuvent interagir avec divers outils (par exemple, des API fonctionnelles) et générer des plans de solution qui exécutent une série d'appels de fonctions API de manière séquentielle. La multitude d'appels de fonctions API candidats élargit considérablement l'espace d'action, accentuant le besoin crucial d'une navigation efficace dans cet espace. Cependant, les méthodes existantes peinent soit à explorer de manière unidirectionnelle dans des espaces d'action vastes, se retrouvant piégées dans une solution localement optimale, soit à parcourir exhaustivement toutes les actions potentielles, entraînant une navigation inefficace. Pour résoudre ces problèmes, nous proposons ToolChain*, un algorithme de planification basé sur la recherche arborescente pour les agents basés sur des LLMs. Il formule l'ensemble de l'espace d'action sous forme d'un arbre de décision, où chaque nœud représente un appel de fonction API possible impliqué dans un plan de solution. En intégrant l'algorithme de recherche A* avec une conception de fonction de coût spécifique à la tâche, il élimine efficacement les branches à coût élevé pouvant inclure des actions incorrectes, identifiant ainsi le chemin valide le plus économique comme solution. Des expériences approfondies sur plusieurs tâches d'utilisation d'outils et de raisonnement démontrent que ToolChain* équilibre efficacement exploration et exploitation dans un espace d'action étendu. Il surpasse les meilleures méthodes de référence en matière de planification et de raisonnement de 3,1 % et 3,5 % en moyenne, tout en nécessitant respectivement 7,35 fois et 2,31 fois moins de temps.
Les méthodes basées sur la diffusion ont obtenu un succès remarquable dans la génération de médias 2D. Cependant, atteindre des performances similaires pour la texturation de maillages au niveau de la scène dans des applications spatiales 3D, comme la réalité étendue (XR) ou la réalité virtuelle (VR), reste limité, principalement en raison de la complexité de la géométrie 3D et de la nécessité d'un rendu immersif en vue libre. Dans cet article, nous proposons un nouveau cadre de texturation pour les scènes intérieures, qui permet une génération de textures pilotée par le texte avec des détails enchanteurs et une cohérence spatiale authentique. L'idée clé est d'abord d'imaginer une texture panoramique stylisée à 360{\deg} depuis le point de vue central de la scène, puis de la propager aux autres zones à l'aide de techniques d'inpainting et d'imitation. Pour garantir des textures significatives et alignées avec la scène, nous développons une nouvelle approche de génération de textures panoramiques en deux étapes, allant du grossier au fin, avec un double alignement de textures, qui prend en compte à la fois la géométrie et les indices de texture des scènes capturées. Pour surmonter les géométries encombrées lors de la propagation des textures, nous concevons une stratégie séparée, qui effectue l'inpainting de textures dans les régions confiantes, puis apprend un réseau d'imitation implicite pour synthétiser les textures dans les zones occluses et les structures minuscules. Des expériences approfondies et l'application immersive en VR sur des scènes intérieures réelles démontrent la haute qualité des textures générées et l'expérience engageante sur les casques VR. Page du projet : https://ybbbbt.com/publication/dreamspace
La capacité d'auto-amélioration des grands modèles de langage (LLMs), rendue possible en les incitant à analyser et réviser leurs propres sorties, a suscité un intérêt considérable dans les recherches récentes. Cependant, il a été démontré que cette capacité est absente et difficile à acquérir pour les modèles plus petits, ce qui accentue l'écart de performance entre les LLMs de pointe et les modèles plus économiques et rapides. Pour réduire cet écart, nous introduisons TriPosT, un algorithme d'entraînement qui confère aux modèles plus petits cette capacité d'auto-amélioration, et nous montrons que notre approche peut améliorer les performances d'un modèle LLaMA-7b sur des tâches de mathématiques et de raisonnement jusqu'à 7,13 %. Contrairement aux travaux antérieurs, nous y parvenons en faisant interagir le modèle plus petit avec des LLMs pour collecter des retours et des améliorations sur ses propres générations. Nous rejouons ensuite cette expérience pour entraîner le petit modèle. Nos expériences sur quatre ensembles de données de mathématiques et de raisonnement montrent que l'expérience interactive d'apprentissage et de correction de ses propres erreurs est cruciale pour que les petits modèles améliorent leurs performances.
Les grands modèles de langage (LLMs) peuvent accomplir une large gamme de tâches en suivant des instructions en langage naturel, sans nécessiter de réglage spécifique à chaque tâche. Malheureusement, la performance des LLMs est fortement influencée par la qualité de ces instructions, et la rédaction manuelle d'instructions efficaces pour chaque tâche s'avère un processus laborieux et subjectif. Dans cet article, nous présentons Auto-Instruct, une méthode novatrice visant à améliorer automatiquement la qualité des instructions fournies aux LLMs. Notre méthode exploite la capacité générative intrinsèque des LLMs pour produire des instructions candidates diversifiées pour une tâche donnée, puis les classe à l'aide d'un modèle de scoring entraîné sur un ensemble varié de 575 tâches de traitement du langage naturel (NLP). Lors d'expériences sur 118 tâches hors domaine, Auto-Instruct surpasse à la fois les instructions rédigées par des humains et les bases de référence existantes d'instructions générées par des LLMs. De plus, notre méthode démontre une généralisation notable, même avec d'autres LLMs qui n'ont pas été intégrés dans son processus d'entraînement.
L'ajustement par instruction des grands modèles de langage (LLM) open-source comme LLaMA, en utilisant les sorties directes de LLM plus puissants tels qu'Instruct-GPT et GPT-4, s'est avéré être une méthode rentable pour aligner les comportements des modèles avec les préférences humaines. Cependant, le modèle ajusté par instruction n'a vu qu'une seule réponse par instruction, manquant ainsi la connaissance de réponses potentiellement meilleures. Dans cet article, nous proposons de fine-tuner un LLM ajusté par instruction en utilisant nos nouvelles approches de classement probabiliste et de classement contextuel pour augmenter la probabilité de générer de meilleures réponses. Le classement probabiliste permet au modèle ajusté par instruction d'hériter des classements relatifs des réponses de haute et de basse qualité du LLM enseignant. D'autre part, l'apprentissage avec classement contextuel permet au modèle d'affiner sa propre distribution de réponses en utilisant la capacité de compréhension contextuelle des LLM plus puissants. De plus, nous appliquons séquentiellement le classement probabiliste et le classement contextuel au LLM ajusté par instruction. Le modèle résultant, que nous appelons Tuna, améliore constamment les performances sur Super Natural Instructions (119 tâches de test), LMentry (25 tâches de test), Vicuna QA, et peut même obtenir de meilleurs résultats que plusieurs bases de référence fortes en apprentissage par renforcement. Notre code et nos données sont disponibles à l'adresse https://github.com/microsoft/LMOps.
Le pré-entraînement image-texte sur des ensembles de données à grande échelle de légendes d'images est devenu la méthode standard pour les modèles de classification et de recherche à vocabulaire ouvert, grâce au succès de CLIP et de ses variantes. Plusieurs travaux ont également utilisé les caractéristiques de CLIP pour des tâches de prédiction dense et ont montré l'émergence de capacités en ensemble ouvert. Cependant, l'objectif contrastif se concentre uniquement sur l'alignement image-texte et n'encourage pas l'apprentissage de caractéristiques d'images pour les tâches de prédiction dense. Dans ce travail, nous proposons l'ajout simple de l'apprentissage de correspondances locales à globales par auto-distillation comme objectif supplémentaire pour le pré-entraînement contrastif, introduisant ainsi SILC. Nous montrons que la distillation de caractéristiques locales d'images à partir d'un modèle enseignant à moyenne mobile exponentielle (EMA) améliore significativement les performances du modèle sur plusieurs tâches de vision par ordinateur, notamment la classification, la recherche, et surtout la segmentation. Nous montrons en outre que SILC s'adapte mieux à la même durée d'entraînement par rapport aux modèles de référence. Notre modèle SILC établit un nouvel état de l'art pour la classification zero-shot, la classification few-shot, la recherche d'images et de texte, la segmentation zero-shot, et la segmentation à vocabulaire ouvert.
L'utilisation d'outils est un marqueur d'intelligence avancée, illustré à la fois dans le comportement animal et les capacités robotiques. Cet article explore la faisabilité de doter les robots de la capacité à utiliser de manière créative des outils dans des tâches impliquant des contraintes physiques implicites et une planification à long terme. En exploitant les modèles de langage de grande taille (LLMs), nous développons RoboTool, un système qui accepte des instructions en langage naturel et génère du code exécutable pour contrôler des robots dans des environnements simulés et réels. RoboTool intègre quatre composants clés : (i) un "Analyseur" qui interprète le langage naturel pour identifier les concepts clés liés à la tâche, (ii) un "Planificateur" qui génère des stratégies complètes basées sur l'entrée linguistique et les concepts clés, (iii) un "Calculateur" qui détermine les paramètres pour chaque compétence, et (iv) un "Codeur" qui traduit ces plans en code Python exécutable. Nos résultats montrent que RoboTool peut non seulement comprendre les contraintes physiques explicites ou implicites et les facteurs environnementaux, mais aussi démontrer une utilisation créative des outils. Contrairement aux méthodes traditionnelles de planification de tâches et de mouvements (TAMP) qui reposent sur une optimisation explicite, notre système basé sur les LLMs offre une solution plus flexible, efficace et conviviale pour les tâches robotiques complexes. À travers des expériences approfondies, nous validons que RoboTool est compétent pour gérer des tâches qui seraient autrement impossibles sans l'utilisation créative d'outils, élargissant ainsi les capacités des systèmes robotiques. Des démonstrations sont disponibles sur notre page de projet : https://creative-robotool.github.io/.
Les modèles de langage de grande taille (LLMs) représentent une révolution dans l'IA. Cependant, ils posent également de nombreux risques significatifs, tels que la présence de textes biaisés, privés, protégés par des droits d'auteur ou nuisibles. Pour cette raison, nous avons besoin de solutions ouvertes, transparentes et sûres. Nous présentons un écosystème open-source complet pour le développement et le test des LLMs. L'objectif de ce projet est de promouvoir des alternatives ouvertes aux approches propriétaires. Nous publions h2oGPT, une famille de LLMs affinés allant de 7 à 70 milliards de paramètres. Nous introduisons également H2O LLM Studio, un framework et une interface graphique sans code conçus pour l'affinage, l'évaluation et le déploiement efficaces des LLMs en utilisant les techniques les plus récentes et avancées. Notre code et nos modèles sont sous licence Apache 2.0 entièrement permissive. Nous croyons que les modèles de langage open-source contribuent à accélérer le développement de l'IA et la rendent plus accessible et digne de confiance. La démo est disponible à l'adresse : https://gpt.h2o.ai/
L'apprentissage par renforcement à partir de retours humains (RLHF) est une technique populaire pour entraîner des assistants IA de haute qualité. Cependant, le RLHF peut également encourager des réponses du modèle qui correspondent aux croyances de l'utilisateur plutôt qu'à des réponses véridiques, un comportement connu sous le nom de sycophantie. Nous étudions la prévalence de la sycophantie dans les modèles entraînés par RLHF et si les jugements de préférence humaine en sont responsables. Nous démontrons d'abord que cinq assistants IA de pointe présentent systématiquement un comportement sycophantique dans quatre tâches variées de génération de texte libre. Pour comprendre si les préférences humaines sont à l'origine de ce comportement largement observé dans les modèles RLHF, nous analysons des données existantes de préférences humaines. Nous constatons que lorsqu'une réponse correspond aux opinions d'un utilisateur, elle est plus susceptible d'être préférée. De plus, tant les humains que les modèles de préférence (PM) préfèrent des réponses sycophantiques convaincantes plutôt que des réponses correctes dans une fraction négligeable des cas. L'optimisation des sorties des modèles par rapport aux PM sacrifie parfois la véracité au profit de la sycophantie. Globalement, nos résultats indiquent que la sycophantie est un comportement général des modèles RLHF, probablement en partie motivé par les jugements de préférence humaine favorisant les réponses sycophantiques.
Dans les modèles de diffusion, l'UNet est l'architecture de réseau la plus couramment utilisée, car ses connexions longues (LSCs) reliant des blocs distants du réseau permettent d'agréger des informations à longue distance et d'atténuer le problème du gradient qui disparaît. Malheureusement, l'UNet souffre souvent d'une instabilité lors de l'entraînement dans les modèles de diffusion, ce qui peut être atténué en réduisant les coefficients de ses LSCs. Cependant, une compréhension théorique de l'instabilité de l'UNet dans les modèles de diffusion, ainsi que de l'amélioration des performances apportée par la mise à l'échelle des LSCs, fait encore défaut. Pour résoudre ce problème, nous démontrons théoriquement que les coefficients des LSCs dans l'UNet ont un impact significatif sur la stabilité de la propagation avant et arrière, ainsi que sur la robustesse de l'UNet. Plus précisément, les caractéristiques cachées et le gradient de l'UNet à n'importe quelle couche peuvent osciller, et leurs amplitudes d'oscillation sont en réalité importantes, ce qui explique l'instabilité de l'entraînement de l'UNet. De plus, l'UNet est également théoriquement sensible aux entrées perturbées et prédit une sortie éloignée de la sortie souhaitée, entraînant une perte oscillatoire et donc un gradient oscillatoire. Par ailleurs, nous observons également les avantages théoriques de la mise à l'échelle des coefficients des LSCs de l'UNet en termes de stabilité des caractéristiques cachées et du gradient, ainsi que de robustesse. Enfin, inspirés par notre théorie, nous proposons un cadre efficace de mise à l'échelle des coefficients, appelé ScaleLong, qui ajuste les coefficients des LSCs dans l'UNet et améliore la stabilité de l'entraînement de l'UNet. Les résultats expérimentaux sur quatre ensembles de données célèbres montrent que nos méthodes sont supérieures pour stabiliser l'entraînement et permettent une accélération de l'entraînement d'environ 1,5 fois sur différents modèles de diffusion utilisant des architectures UNet ou UViT. Code : https://github.com/sail-sg/ScaleLong