Articles de recherche en IA sélectionnés quotidiennement avec traductions
Dans cet article, nous introduisons le Score de Suivi d'Instructions (Instruction Following Score, IFS), une métrique qui évalue la capacité des modèles de langage à suivre des instructions. Cette métrique a un double objectif. Premièrement, l'IFS peut être utilisé pour distinguer les modèles de base des modèles d'instruction. Nous évaluons des modèles de base et d'instruction disponibles publiquement, et montrons que le ratio de réponses bien formatées par rapport aux phrases partielles et complètes peut être une mesure efficace pour différencier ces deux classes de modèles. Deuxièmement, la métrique peut servir de critère d'arrêt précoce pour le réglage des modèles d'instruction. Nous calculons l'IFS pour le réglage supervisé (Supervised Fine-Tuning, SFT) des modèles LLaMA de 7B et 13B, montrant que les modèles apprennent à suivre les instructions relativement tôt dans le processus d'entraînement, et qu'un réglage supplémentaire peut entraîner des changements dans la sémantique du modèle de base sous-jacent. Comme exemple de changement sémantique, nous montrons l'objectivité des prédictions du modèle, telle que définie par une métrique auxiliaire, ObjecQA. Nous montrons que dans ce cas particulier, les changements sémantiques sont les plus marqués lorsque l'IFS tend à se stabiliser. Nous espérons que la décomposition du réglage d'instruction en facteurs IFS et sémantiques initie une nouvelle tendance vers un réglage d'instruction mieux contrôlable et ouvre des possibilités pour concevoir des interfaces d'instruction minimales interrogeant des modèles de fondation.
Les opérations de la chaîne d'approvisionnement impliquent traditionnellement une variété de problèmes de décision complexes. Au cours des dernières décennies, les chaînes d'approvisionnement ont grandement bénéficié des avancées en matière de calcul, permettant la transition du traitement manuel vers l'automatisation et l'optimisation rentable. Néanmoins, les opérateurs commerciaux doivent encore consacrer des efforts considérables à expliquer et interpréter les résultats de l'optimisation aux parties prenantes. Motivés par les récentes avancées des modèles de langage de grande taille (LLMs), nous étudions comment cette technologie disruptive peut aider à combler le fossé entre l'automatisation de la chaîne d'approvisionnement et la compréhension humaine ainsi que la confiance qui en découle. Nous concevons un cadre qui accepte comme entrée des requêtes en texte clair et produit des insights sur les résultats sous-jacents de l'optimisation. Notre cadre ne renonce pas à la technologie d'optimisation combinatoire de pointe, mais l'exploite plutôt pour répondre quantitativement à des scénarios de type "et si" (par exemple, comment le coût changerait-il si nous utilisions le fournisseur B au lieu du fournisseur A pour une demande donnée ?). Il est important de noter que notre conception ne nécessite pas l'envoi de données propriétaires aux LLMs, ce qui peut poser des problèmes de confidentialité dans certaines circonstances. Nous démontrons l'efficacité de notre cadre sur un scénario réel de placement de serveurs au sein de la chaîne d'approvisionnement cloud de Microsoft. En chemin, nous développons un benchmark d'évaluation général, qui peut être utilisé pour évaluer la précision de la sortie du LLM dans d'autres scénarios.
Les grands modèles de langage comme GPT-4 manifestent des capacités émergentes dans des tâches généralistes, telles que l'arithmétique de base, lorsqu'ils sont entraînés sur de vastes ensembles de données textuelles, même si ces tâches ne sont pas explicitement encodées par l'objectif non supervisé de prédiction du token suivant. Cette étude explore comment de petits transformeurs, entraînés à partir d'une initialisation aléatoire, peuvent apprendre efficacement des opérations arithmétiques comme l'addition, la multiplication et des fonctions élémentaires telles que la racine carrée, en utilisant l'objectif de prédiction du token suivant. Nous montrons d'abord que les données d'entraînement conventionnelles ne sont pas les plus efficaces pour l'apprentissage de l'arithmétique, et que de simples modifications de formatage peuvent considérablement améliorer la précision. Cela conduit à des transitions de phase marquées en fonction de l'échelle des données d'entraînement, qui, dans certains cas, peuvent être expliquées par des liens avec la complétion de matrices de faible rang. En nous appuyant sur des travaux antérieurs, nous entraînons ensuite sur des données de type "chaîne de pensée" incluant les résultats des étapes intermédiaires. Même en l'absence totale de pré-entraînement, cette approche améliore significativement et simultanément la précision, la complexité en échantillons et la vitesse de convergence. Nous étudions également l'interaction entre les données arithmétiques et textuelles pendant l'entraînement, et examinons les effets du prompting en few-shot, du pré-entraînement et de l'échelle du modèle. De plus, nous discutons des défis liés à la généralisation en longueur. Notre travail souligne l'importance de données de haute qualité et instructives, qui prennent en compte les caractéristiques particulières de l'objectif de prédiction du mot suivant, pour susciter rapidement des capacités arithmétiques.
L'ajustement par instruction des grands modèles de langage (LLM) sur des paires image-texte a permis d'atteindre des capacités multimodales vision-langage sans précédent. Cependant, leurs alignements vision-langage sont uniquement établis au niveau de l'image, et l'absence d'alignement au niveau des régions limite leurs progrès dans la compréhension multimodale fine. Dans cet article, nous proposons un ajustement par instruction sur des régions d'intérêt. L'idée clé est de reformuler la boîte englobante sous la forme d'une instruction spatiale. Les séquences entrelacées de caractéristiques visuelles extraites par l'instruction spatiale et l'encodage linguistique sont introduites dans le LLM, puis entraînées sur des données région-texte transformées au format d'ajustement par instruction. Notre modèle vision-langage au niveau des régions, appelé GPT4RoI, offre une expérience conversationnelle et interactive entièrement nouvelle, dépassant la compréhension au niveau de l'image. (1) Contrôlabilité : Les utilisateurs peuvent interagir avec notre modèle à la fois par le langage et les instructions spatiales pour ajuster de manière flexible le niveau de détail de la question. (2) Capacités : Notre modèle prend en charge non seulement les instructions spatiales à région unique, mais aussi les instructions multi-régions. Cela débloque davantage de capacités multimodales au niveau des régions, telles que la description détaillée de régions et le raisonnement complexe sur les régions. (3) Composition : Tout détecteur d'objets prêt à l'emploi peut servir de fournisseur d'instructions spatiales afin d'extraire des attributs informatifs des objets de notre modèle, comme la couleur, la forme, le matériau, l'action, la relation avec d'autres objets, etc. Le code, les données et la démonstration sont disponibles à l'adresse https://github.com/jshilong/GPT4RoI.
Un grand nombre de personnes sont contraintes d'utiliser le Web dans une langue pour laquelle elles ont une faible maîtrise en raison d'asymétries technologiques. Les textes écrits dans la deuxième langue (L2) par ces utilisateurs contiennent souvent un grand nombre d'erreurs influencées par leur langue maternelle (L1). Nous proposons une méthode pour identifier les confusions phonémiques (sons en L2 qu'un locuteur de L1 est susceptible de confondre) pour des paires de L1 et L2. Ces confusions sont ensuite intégrées dans un modèle génératif (Bi-Phone) afin de produire synthétiquement du texte corrompu en L2. Grâce à des évaluations humaines, nous montrons que Bi-Phone génère des corruptions plausibles qui varient selon les L1 et qui couvrent également une large partie du Web. Nous avons également corrompu le benchmark populaire de compréhension du langage SuperGLUE avec notre technique (FunGLUE pour GLUE bruité phonétiquement) et montrons que les modèles de compréhension du langage à l'état de l'art (SoTA) obtiennent de mauvaises performances. Nous introduisons également une nouvelle tâche de pré-entraînement de prédiction phonémique qui aide les modèles basés sur les octets à retrouver des performances proches de celles de SuperGLUE. Enfin, nous publions également le benchmark FunGLUE pour promouvoir des recherches supplémentaires sur des modèles de langage robustes phonétiquement. À notre connaissance, FunGLUE est le premier benchmark à introduire des interactions L1-L2 dans le texte.
Grâce à l'émergence des modèles de base, les grands modèles de langage et de vision sont intégrés pour acquérir des capacités multimodales telles que la génération de légendes visuelles, le dialogue, les réponses aux questions, etc. Bien que les modèles multimodaux existants présentent des performances impressionnantes en matière de compréhension et de raisonnement visuels, leurs limites restent largement inexplorées en raison de la rareté des données de réglage d'instructions de haute qualité. Pour repousser les limites des capacités multimodales, nous développons le réglage d'instructions visuelles à grande échelle (SVIT) en construisant un ensemble de données de 3,2 millions de points de réglage d'instructions visuelles, comprenant 1,6 million de paires question-réponse (QA) conversationnelles, 1,6 million de paires QA de raisonnement complexe et 106 000 descriptions détaillées d'images. Outre son volume, l'ensemble de données proposé se distingue également par sa haute qualité et sa grande diversité, générées en sollicitant GPT-4 avec des annotations manuelles abondantes d'images. Nous vérifions empiriquement que l'entraînement de modèles multimodaux sur SVIT peut considérablement améliorer les performances multimodales en termes de perception visuelle, de raisonnement et de planification.
Des travaux récents ont analysé empiriquement l'apprentissage en contexte et ont montré que les transformeurs entraînés sur des tâches synthétiques de régression linéaire peuvent apprendre à implémenter la régression ridge, qui est le prédicteur optimal au sens de Bayes, à condition d'avoir une capacité suffisante [Akyürek et al., 2023], tandis que les transformeurs à une seule couche avec une auto-attention linéaire et sans couche MLP apprendront à implémenter une étape de descente de gradient (GD) sur un objectif de régression linéaire des moindres carrés [von Oswald et al., 2022]. Cependant, la théorie derrière ces observations reste mal comprise. Nous étudions théoriquement les transformeurs avec une seule couche d'auto-attention linéaire, entraînés sur des données synthétiques de régression linéaire bruitées. Tout d'abord, nous montrons mathématiquement que lorsque les covariables sont tirées d'une distribution gaussienne standard, le transformeur à une couche qui minimise la perte de pré-entraînement implémentera une étape de GD sur l'objectif de régression linéaire des moindres carrés. Ensuite, nous constatons que modifier la distribution des covariables et du vecteur de poids vers une distribution gaussienne non isotrope a un impact significatif sur l'algorithme appris : le minimiseur global de la perte de pré-entraînement implémente désormais une étape de GD pré-conditionnée. Cependant, si seule la distribution des réponses est modifiée, cela n'a pas un grand effet sur l'algorithme appris : même lorsque la réponse provient d'une famille plus générale de fonctions non linéaires, le minimiseur global de la perte de pré-entraînement implémente toujours une étape de GD sur un objectif de régression linéaire des moindres carrés.
Qu'est-ce qui rend la généralisation difficile pour l'apprentissage par imitation dans la manipulation robotique visuelle ? Cette question est difficile à aborder de prime abord, mais l'environnement du point de vue d'un robot peut souvent être décomposé en facteurs de variation énumérables, tels que les conditions d'éclairage ou le positionnement de la caméra. Empiriquement, la généralisation à certains de ces facteurs s'est avérée plus problématique qu'à d'autres, mais les travaux existants éclairent peu sur la contribution précise de chaque facteur à l'écart de généralisation. Pour répondre à cette question, nous étudions les politiques d'apprentissage par imitation en simulation et sur une tâche réelle de manipulation robotique conditionnée par le langage, afin de quantifier la difficulté de généralisation à différents (ensembles de) facteurs. Nous concevons également un nouveau benchmark simulé de 19 tâches avec 11 facteurs de variation pour faciliter des évaluations plus contrôlées de la généralisation. À partir de notre étude, nous établissons un classement des facteurs basé sur la difficulté de généralisation, qui est cohérent entre la simulation et notre configuration robotique réelle.
Les modèles d'IA avancés promettent des avantages considérables pour l'humanité, mais la société doit gérer de manière proactive les risques qui les accompagnent. Dans cet article, nous nous concentrons sur ce que nous appelons les modèles d'IA "frontière" : des modèles de base hautement performants qui pourraient posséder des capacités dangereuses suffisantes pour représenter des risques graves pour la sécurité publique. Les modèles d'IA frontière posent un défi réglementaire distinct : les capacités dangereuses peuvent émerger de manière inattendue ; il est difficile d'empêcher de manière robuste qu'un modèle déployé soit détourné ; et il est difficile d'empêcher la prolifération des capacités d'un modèle. Pour relever ces défis, au moins trois éléments de base sont nécessaires pour la régulation des modèles frontière : (1) des processus d'établissement de normes pour identifier les exigences appropriées pour les développeurs d'IA frontière, (2) des exigences d'enregistrement et de reporting pour fournir aux régulateurs une visibilité sur les processus de développement de l'IA frontière, et (3) des mécanismes pour assurer le respect des normes de sécurité pour le développement et le déploiement des modèles d'IA frontière. L'autorégulation de l'industrie est une première étape importante. Cependant, des discussions sociétales plus larges et une intervention gouvernementale seront nécessaires pour établir des normes et en assurer le respect. Nous examinons plusieurs options à cette fin, notamment l'octroi de pouvoirs d'exécution aux autorités de surveillance et des régimes de licence pour les modèles d'IA frontière. Enfin, nous proposons un ensemble initial de normes de sécurité. Celles-ci incluent la réalisation d'évaluations des risques avant le déploiement ; un examen externe du comportement du modèle ; l'utilisation des évaluations des risques pour éclairer les décisions de déploiement ; et la surveillance et la réponse aux nouvelles informations sur les capacités et les utilisations du modèle après le déploiement. Nous espérons que cette discussion contribue au débat plus large sur la manière d'équilibrer les risques pour la sécurité publique et les avantages de l'innovation issus des avancées à la frontière du développement de l'IA.