Articles de recherche en IA sélectionnés quotidiennement avec traductions
Malgré les avancées des grands modèles de langage (LLM) open-source et de leurs variantes, comme LLaMA et Vicuna, ceux-ci restent significativement limités dans l'exécution de tâches de haut niveau, telles que suivre des instructions humaines pour utiliser des outils externes (APIs). Cela s'explique par le fait que l'ajustement par instruction actuel se concentre principalement sur des tâches linguistiques de base plutôt que sur le domaine de l'utilisation d'outils. Cela contraste avec les LLM de pointe (SOTA), comme ChatGPT, qui ont démontré d'excellentes capacités d'utilisation d'outils mais qui, malheureusement, sont fermés. Pour faciliter les capacités d'utilisation d'outils dans les LLM open-source, nous introduisons ToolLLM, un cadre général pour la construction de données, l'entraînement de modèles et l'évaluation dans le domaine de l'utilisation d'outils. Nous présentons d'abord ToolBench, un ensemble de données d'ajustement par instruction pour l'utilisation d'outils, créé automatiquement à l'aide de ChatGPT. Plus précisément, nous collectons 16 464 APIs RESTful réelles couvrant 49 catégories sur RapidAPI Hub, puis incitons ChatGPT à générer des instructions humaines variées impliquant ces APIs, couvrant à la fois des scénarios à un seul outil et à plusieurs outils. Enfin, nous utilisons ChatGPT pour rechercher un chemin de solution valide (chaîne d'appels d'API) pour chaque instruction. Pour rendre le processus de recherche plus efficace, nous développons un arbre de décision basé sur une recherche en profondeur (DFSDT), permettant aux LLM d'évaluer plusieurs traces de raisonnement et d'élargir l'espace de recherche. Nous montrons que DFSDT améliore significativement les capacités de planification et de raisonnement des LLM. Pour une évaluation efficace de l'utilisation d'outils, nous développons un évaluateur automatique : ToolEval. Nous affinons LLaMA sur ToolBench et obtenons ToolLLaMA. Notre ToolEval révèle que ToolLLaMA démontre une capacité remarquable à exécuter des instructions complexes et à généraliser à des APIs non vues, et présente des performances comparables à ChatGPT. Pour rendre le pipeline plus pratique, nous concevons un récupérateur d'API neuronal pour recommander les APIs appropriées pour chaque instruction, éliminant ainsi le besoin d'une sélection manuelle d'API.
Ce travail vise à réduire la latence de génération de bout en bout des grands modèles de langage (LLM). L'une des principales causes de cette latence élevée est l'approche de décodage séquentiel adoptée par presque tous les LLM de pointe. Dans cette étude, inspirés par le processus de réflexion et d'écriture humain, nous proposons le "Skeleton-of-Thought" (SoT), qui guide les LLM à générer d'abord le squelette de la réponse, puis à effectuer des appels d'API parallèles ou un décodage par lots pour compléter le contenu de chaque point du squelette en parallèle. Non seulement le SoT offre une accélération considérable (jusqu'à 2,39x sur 11 LLM différents), mais il peut également potentiellement améliorer la qualité des réponses sur plusieurs catégories de questions en termes de diversité et de pertinence. Le SoT constitue une première tentative d'optimisation centrée sur les données pour l'efficacité, et révèle le potentiel d'amener les LLM à penser davantage comme un humain pour la qualité des réponses.
L'apprentissage par renforcement à partir de retours humains (RLHF) est une technique permettant d'entraîner des systèmes d'IA à s'aligner sur les objectifs humains. Le RLHF est devenu la méthode centrale utilisée pour affiner les modèles de langage de pointe (LLMs). Malgré cette popularité, peu de travaux publics ont systématisé ses défauts. Dans cet article, nous (1) examinons les problèmes ouverts et les limitations fondamentales du RLHF et des méthodes associées ; (2) passons en revue les techniques pour comprendre, améliorer et compléter le RLHF en pratique ; et (3) proposons des normes d'audit et de divulgation pour renforcer la supervision sociétale des systèmes RLHF. Notre travail met en lumière les limites du RLHF et souligne l'importance d'une approche multifacette pour le développement de systèmes d'IA plus sûrs.
La médecine, par sa nature, est un domaine multifacette qui nécessite la synthèse d'informations provenant de diverses modalités. Les modèles génératifs vision-langage (VLMs) médicaux constituent une première étape dans cette direction et promettent de nombreuses applications cliniques passionnantes. Cependant, les modèles existants doivent généralement être affinés sur des ensembles de données conséquents, ce qui représente une limitation significative car, dans de nombreuses applications médicales, les données sont rares, nécessitant des modèles capables d'apprendre à partir de peu d'exemples en temps réel. Nous proposons ici Med-Flamingo, un apprenant multimodal adapté au domaine médical et capable de fonctionner avec peu d'exemples. Basé sur OpenFlamingo-9B, nous poursuivons le pré-entraînement sur des données médicales associant images et textes, issues de publications et de manuels. Med-Flamingo débloque des capacités génératives de réponse à des questions visuelles médicales (VQA) avec peu d'exemples, que nous évaluons sur plusieurs ensembles de données, y compris un nouveau jeu de données VQA ouvert et exigeant de problèmes visuels de style USMLE. De plus, nous menons la première évaluation humaine pour la VQA générative médicale, où des médecins examinent les problèmes et les générations anonymisées dans une application interactive. Med-Flamingo améliore les performances en VQA générative médicale jusqu'à 20 % selon l'évaluation des cliniciens et permet pour la première fois des adaptations multimodales médicales avec peu d'exemples, telles que la génération de justifications. Nous publions notre modèle, notre code et notre application d'évaluation sous https://github.com/snap-stanford/med-flamingo.
Dans un espace conjoint vision-langage, une caractéristique textuelle (par exemple, provenant de "une photo d'un chien") pourrait représenter efficacement ses caractéristiques visuelles pertinentes (par exemple, provenant de photos de chiens). Inspirés par cela, nous proposons PromptStyler, qui simule divers décalages de distribution dans l'espace conjoint en synthétisant des styles variés via des prompts, sans utiliser aucune image, pour traiter la généralisation de domaine sans source. Notre méthode apprend à générer une variété de caractéristiques de style (provenant de "un style S* de") via des vecteurs de mots de style apprenables pour des pseudo-mots S*. Pour s'assurer que les styles appris ne déforment pas l'information de contenu, nous forçons les caractéristiques style-contenu (provenant de "un style S* de [classe]") à se situer à proximité de leurs caractéristiques de contenu correspondantes (provenant de "[classe]") dans l'espace conjoint vision-langage. Après l'apprentissage des vecteurs de mots de style, nous entraînons un classifieur linéaire en utilisant les caractéristiques style-contenu synthétisées. PromptStyler atteint l'état de l'art sur PACS, VLCS, OfficeHome et DomainNet, bien qu'il ne nécessite aucune image et ne prenne qu'environ 30 minutes pour l'entraînement en utilisant un seul GPU.
Nous proposons une méthodologie pour insérer des filigranes dans le texte généré par un modèle de langage autorégressif, qui sont robustes aux perturbations sans altérer la distribution du texte jusqu'à un budget de génération maximal donné. Nous générons du texte filigrané en associant une séquence de nombres aléatoires -- calculée à l'aide d'une clé de filigrane randomisée -- à un échantillon issu du modèle de langage. Pour détecter le texte filigrané, toute partie connaissant la clé peut aligner le texte avec la séquence de nombres aléatoires. Nous concrétisons notre méthodologie de filigrane avec deux schémas d'échantillonnage : l'échantillonnage par transformation inverse et l'échantillonnage exponentiel minimum. Nous appliquons ces filigranes à trois modèles de langage -- OPT-1.3B, LLaMA-7B et Alpaca-7B -- pour valider expérimentalement leur puissance statistique et leur robustesse face à diverses attaques de paraphrase. Notamment, pour les modèles OPT-1.3B et LLaMA-7B, nous constatons que nous pouvons détecter de manière fiable le texte filigrané (p ≤ 0,01) à partir de 35 tokens, même après avoir corrompu entre 40 et 50 % des tokens par des modifications aléatoires (c'est-à-dire des substitutions, insertions ou suppressions). Pour le modèle Alpaca-7B, nous menons une étude de cas sur la faisabilité du filigranage des réponses à des instructions utilisateur typiques. En raison de l'entropie plus faible des réponses, la détection est plus difficile : environ 25 % des réponses -- dont la longueur médiane est d'environ 100 tokens -- sont détectables avec p ≤ 0,01, et le filigrane est également moins robuste à certaines attaques de paraphrase automatisées que nous avons implémentées.
Le réglage par instructions (instruction tuning) s'est imposé comme une approche prometteuse pour améliorer la capacité des grands modèles de langage à suivre les instructions humaines. Il a été démontré qu'augmenter la diversité et le nombre d'instructions dans les données d'entraînement améliore de manière constante les performances de généralisation, ce qui a motivé des efforts récents pour collecter diverses instructions et intégrer des ensembles de données existants de réglage par instructions dans des collections plus vastes. Cependant, différents utilisateurs ont leurs propres manières d'exprimer des instructions, et il existe souvent des variations entre les ensembles de données en termes de styles et de formats d'instructions, c'est-à-dire une incohérence de format. Dans ce travail, nous étudions comment l'incohérence de format peut influencer les performances du réglage par instructions. Nous proposons un cadre appelé "Unified Instruction Tuning" (UIT), qui utilise les API d'OpenAI pour effectuer un transfert automatique de format entre différents ensembles de données de réglage par instructions. Nous montrons que l'UIT améliore avec succès les performances de généralisation sur des instructions non vues, ce qui souligne l'importance de la cohérence de format pour le réglage par instructions. Pour rendre le cadre UIT plus pratique, nous proposons également une nouvelle méthode de réduction du bruit basée sur la perplexité pour diminuer le bruit du transfert automatique de format. Nous entraînons également un modèle plus petit et hors ligne qui atteint une capacité de transfert de format comparable à celle des API d'OpenAI, afin de réduire les coûts en pratique.
Avec la popularité croissante des représentations neuronales implicites, ou champs de radiance neuronaux (NeRF), il existe un besoin pressant de méthodes d'édition pour interagir avec les modèles 3D implicites, que ce soit pour le post-traitement de scènes reconstruites ou la création de contenu 3D. Bien que des travaux antérieurs aient exploré l'édition de NeRF sous divers angles, ils restent limités en termes de flexibilité, de qualité et de rapidité d'édition, ne permettant pas de réponse directe aux modifications ni de prévisualisation instantanée. Le défi principal consiste à concevoir une représentation neuronale localement modifiable capable de refléter directement les instructions d'édition et de se mettre à jour instantanément. Pour combler cette lacune, nous proposons une nouvelle méthode et un système interactif d'édition pour les représentations implicites, appelé Seal-3D, qui permet aux utilisateurs de modifier les modèles NeRF de manière libre et au niveau des pixels, avec une large gamme d'architectures de type NeRF, tout en prévisualisant instantanément les effets des modifications. Pour atteindre ces résultats, les défis sont relevés grâce à notre fonction proxy qui mappe les instructions d'édition dans l'espace original des modèles NeRF, ainsi qu'à une stratégie d'apprentissage enseignant-élève combinant un pré-entraînement local et un affinage global. Un système d'édition NeRF est développé pour démontrer divers types de modifications. Notre système permet d'obtenir des effets d'édition convaincants avec une vitesse interactive d'environ 1 seconde.