Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons PaLM 2, un nouveau modèle de langage de pointe qui offre de meilleures capacités multilingues et de raisonnement, tout en étant plus efficace en termes de calcul que son prédécesseur, PaLM. PaLM 2 est un modèle basé sur l'architecture Transformer, entraîné à l'aide d'un mélange d'objectifs. Grâce à des évaluations approfondies sur des tâches linguistiques en anglais et multilingues, ainsi que sur des tâches de raisonnement, nous démontrons que PaLM 2 présente une qualité significativement améliorée sur les tâches en aval, quelle que soit la taille du modèle, tout en offrant une inférence plus rapide et plus efficace par rapport à PaLM. Cette efficacité accrue permet un déploiement plus large et une interaction plus naturelle grâce à des réponses plus rapides. PaLM 2 montre des capacités de raisonnement robustes, illustrées par des améliorations majeures par rapport à PaLM sur BIG-Bench et d'autres tâches de raisonnement. PaLM 2 affiche une performance stable sur une série d'évaluations d'IA responsable et permet un contrôle en temps réel de la toxicité sans surcharge supplémentaire ni impact sur les autres capacités. Globalement, PaLM 2 atteint des performances de pointe sur un ensemble diversifié de tâches et de capacités. Lorsqu'on discute de la famille PaLM 2, il est important de distinguer entre les modèles pré-entraînés (de différentes tailles), les variantes affinées de ces modèles, et les produits destinés aux utilisateurs qui exploitent ces modèles. En particulier, les produits destinés aux utilisateurs incluent généralement des étapes de prétraitement et de post-traitement supplémentaires. De plus, les modèles sous-jacents peuvent évoluer au fil du temps. Par conséquent, il ne faut pas s'attendre à ce que la performance des produits destinés aux utilisateurs corresponde exactement aux résultats rapportés dans ce document.
La révision ou l'édition de texte est une fonction essentielle du processus d'écriture humaine. Comprendre les capacités des LLM (modèles de langage de grande taille) pour effectuer des révisions de haute qualité et collaborer avec des rédacteurs humains constitue une étape cruciale vers la création d'assistants d'écriture efficaces. Forts des succès précédents des LLM et de l'ajustement par instruction, nous exploitons des LLM ajustés par instruction pour la révision de texte afin d'améliorer la qualité des textes générés par les utilisateurs et d'accroître l'efficacité du processus. Nous présentons CoEdIT, un modèle d'édition de texte de pointe pour l'assistance à la rédaction. CoEdIT prend en compte les instructions de l'utilisateur spécifiant les attributs du texte souhaité, tels que "Simplifiez la phrase" ou "Rédigez-le dans un style plus neutre", et produit le texte édité. Nous proposons un modèle de langage de grande taille affiné sur une collection diversifiée d'instructions spécifiques à des tâches d'édition de texte (un total de 82K instructions). Notre modèle (1) atteint des performances de pointe sur divers benchmarks d'édition de texte, (2) est compétitif avec les LLM de plus grande taille disponibles publiquement et entraînés sur des instructions, tout en étant 60 fois plus petit, (3) est capable de généraliser à des instructions d'édition inédites, et (4) démontre des capacités de compréhension compositionnelle pour généraliser à des instructions contenant différentes combinaisons d'actions d'édition. À travers une analyse qualitative et quantitative approfondie, nous montrons que les rédacteurs préfèrent les modifications suggérées par CoEdIT par rapport à d'autres modèles d'édition de texte de pointe. Notre code et notre ensemble de données sont disponibles publiquement.
L'apprentissage à partir de retours humains s'est avéré efficace pour aligner les modèles de langage avec les préférences humaines. Les travaux précédents ont souvent reposé sur l'Apprentissage par Renforcement à partir de Retours Humains (RLHF), qui optimise le modèle de langage en utilisant des scores de récompense attribués par un modèle de récompense entraîné sur des données de préférences humaines. Dans ce travail, nous montrons comment la Calibration de la Vraisemblance de Séquence (SLiC), récemment introduite, peut également être utilisée pour apprendre efficacement à partir des préférences humaines (SLiC-HF). De plus, nous démontrons que cela peut être réalisé avec des données de retours humains collectées pour un modèle différent, de manière similaire aux données d'apprentissage par renforcement hors politique et hors ligne. Les expériences d'évaluation automatique et humaine sur la tâche de résumé TL;DR montrent que SLiC-HF améliore significativement les bases de réglage fin supervisé. Par ailleurs, SLiC-HF présente une alternative compétitive à l'implémentation PPO RLHF utilisée dans les travaux précédents, tout en étant beaucoup plus simple à mettre en œuvre, plus facile à régler et plus efficace sur le plan computationnel en pratique.
Les proportions de mélange des domaines de données de pré-entraînement (par exemple, Wikipédia, livres, texte web) influencent grandement les performances des modèles de langage (LM). Dans cet article, nous proposons Domain Reweighting with Minimax Optimization (DoReMi), qui commence par entraîner un petit modèle proxy en utilisant l'optimisation robuste de distribution par groupe (Group DRO) sur les domaines pour produire des poids de domaine (proportions de mélange) sans connaissance des tâches en aval. Nous rééchantillonnons ensuite un ensemble de données avec ces poids de domaine et entraînons un modèle plus grand et complet. Dans nos expériences, nous utilisons DoReMi sur un modèle proxy de 280 millions de paramètres pour trouver des poids de domaine afin d'entraîner un modèle de 8 milliards de paramètres (30 fois plus grand) de manière plus efficace. Sur The Pile, DoReMi améliore la perplexité dans tous les domaines, même lorsqu'il réduit le poids d'un domaine. DoReMi améliore la précision moyenne en few-shot en aval de 6,5 % par rapport à un modèle de référence entraîné avec les poids de domaine par défaut de The Pile et atteint la précision de référence avec 2,6 fois moins d'étapes d'entraînement. Sur le jeu de données GLaM, DoReMi, qui n'a aucune connaissance des tâches en aval, parvient même à égaler les performances obtenues avec des poids de domaine ajustés sur les tâches en aval.
Dans cet article, nous présentons l'auto-distillation et le clustering en ligne pour l'apprentissage auto-supervisé de représentations de la parole (DinoSR), qui combine la modélisation de langage masqué, l'auto-distillation et le clustering en ligne. Nous montrons que ces concepts se complètent mutuellement et aboutissent à un modèle puissant d'apprentissage de représentations pour la parole. DinoSR extrait d'abord des embeddings contextuels à partir de l'audio d'entrée à l'aide d'un réseau enseignant, puis applique un système de clustering en ligne sur ces embeddings pour produire un inventaire de phones découvert automatiquement, et enfin utilise les tokens discrétisés pour guider un réseau étudiant. Nous démontrons que DinoSR surpasse les performances précédentes de l'état de l'art dans plusieurs tâches en aval, et fournissons une analyse détaillée du modèle ainsi que des unités discrètes apprises. Le code source sera rendu disponible après la période d'anonymat.
L'amélioration de l'utilisation des mots est une fonctionnalité souhaitable pour l'assistance à la rédaction. Pour faire progresser la recherche dans ce domaine, cet article introduit la tâche et le benchmark "Smart Word Suggestions" (SWS). Contrairement à d'autres travaux, SWS met l'accent sur une évaluation de bout en bout et présente un scénario d'assistance à la rédaction plus réaliste. Cette tâche consiste à identifier les mots ou expressions nécessitant une amélioration et à proposer des suggestions de substitution. Le benchmark inclut des données annotées manuellement pour les tests, un vaste ensemble de données supervisées à distance pour l'entraînement, ainsi que le cadre d'évaluation. Les données de test comprennent 1 000 phrases rédigées par des apprenants d'anglais, accompagnées de plus de 16 000 suggestions de substitution annotées par 10 locuteurs natifs. L'ensemble de données d'entraînement comprend plus de 3,7 millions de phrases et 12,7 millions de suggestions générées par des règles. Nos expériences avec sept modèles de référence démontrent que SWS est une tâche complexe. Sur la base de l'analyse expérimentale, nous suggérons des pistes potentielles pour les recherches futures sur SWS. Le jeu de données et les codes associés sont disponibles à l'adresse suivante : https://github.com/microsoft/SmartWordSuggestions.
Les grands modèles de langage (LLMs) ont démontré des performances prédictives remarquables pour un nombre croissant de tâches. Cependant, leur prolifération rapide et leur opacité croissante ont créé un besoin grandissant d'interprétabilité. Nous nous demandons ici si nous pouvons obtenir automatiquement des explications en langage naturel pour des modules de texte en boîte noire. Un "module de texte" est toute fonction qui associe un texte à une valeur scalaire continue, comme un sous-module au sein d'un LLM ou un modèle ajusté d'une région cérébrale. "Boîte noire" indique que nous n'avons accès qu'aux entrées/sorties du module. Nous présentons Summarize and Score (SASC), une méthode qui prend en entrée un module de texte et retourne une explication en langage naturel de la sélectivité du module ainsi qu'un score indiquant la fiabilité de l'explication. Nous étudions SASC dans trois contextes. Premièrement, nous évaluons SASC sur des modules synthétiques et constatons qu'il retrouve souvent les explications de référence. Deuxièmement, nous utilisons SASC pour expliquer des modules présents dans un modèle BERT pré-entraîné, permettant ainsi l'inspection des internes du modèle. Enfin, nous montrons que SASC peut générer des explications pour la réponse de voxels individuels en IRMf à des stimuli linguistiques, avec des applications potentielles pour la cartographie cérébrale à haute résolution. Tout le code pour utiliser SASC et reproduire les résultats est disponible sur Github.
Les systèmes de reconnaissance vocale automatique embarqués doivent relever plusieurs défis par rapport aux systèmes basés sur des serveurs. Ils doivent respecter des contraintes plus strictes en termes de vitesse, d'espace disque et de mémoire tout en maintenant la même précision. Souvent, ils doivent servir simultanément plusieurs applications avec des distributions différentes, comme interagir avec un assistant virtuel et effectuer de la transcription vocale. La solution la plus simple pour servir plusieurs applications consiste à construire des modèles spécifiques à chaque application (modèles de langage), mais cela entraîne une augmentation de la mémoire utilisée. Par conséquent, nous explorons différentes approches de modélisation du langage basées sur les données et l'architecture pour construire un modèle unique indépendant de l'application. Nous proposons deux nouvelles architectures feed-forward qui trouvent un compromis optimal entre les différentes contraintes embarquées. Par rapport à la solution spécifique à l'application, l'une de nos nouvelles approches réduit de moitié la taille du disque, tout en conservant la vitesse et la précision du modèle original.
Le cœur de la stéréo multi-vues (Multi-view Stereo, MVS) repose sur le processus d'appariement entre les pixels de référence et les pixels sources. L'agrégation des coûts joue un rôle crucial dans ce processus, tandis que les méthodes précédentes se concentrent sur sa gestion via des réseaux de neurones convolutifs (CNNs). Cela peut hériter de la limitation naturelle des CNNs, qui échouent à discriminer les correspondances répétitives ou incorrectes en raison de leurs champs récepteurs locaux limités. Pour résoudre ce problème, nous visons à intégrer le Transformer dans l'agrégation des coûts. Cependant, un autre problème peut survenir en raison de la complexité computationnelle qui croît de manière quadratique avec le Transformer, entraînant un débordement de mémoire et une latence d'inférence. Dans cet article, nous surmontons ces limites avec un réseau d'agrégation des coûts basé sur le Transformer, nommé CostFormer. Le Transformer de Coût Résiduel Sensible à la Profondeur (Residual Depth-Aware Cost Transformer, RDACT) est proposé pour agréger des caractéristiques à longue portée sur le volume de coût via des mécanismes d'auto-attention le long des dimensions de profondeur et spatiales. De plus, le Transformer de Régression Résiduelle (Residual Regression Transformer, RRT) est proposé pour renforcer l'attention spatiale. La méthode proposée est un module universel qui peut être intégré pour améliorer les méthodes MVS basées sur l'apprentissage.
Les grands modèles de langage multilingues démontrent des capacités de traduction automatique en zero-shot ou few-shot étonnamment bonnes, bien qu'ils n'aient jamais été exposés aux exemples de traduction intentionnellement inclus dans les systèmes de traduction neuronaux classiques. Nous étudions le rôle du bilinguisme incidentel -- l'exposition involontaire à des signaux bilingues, y compris des exemples de traduction -- dans l'explication des capacités de traduction des grands modèles de langage, en prenant le modèle de langage Pathways (PaLM) comme étude de cas. Nous introduisons une approche mixte pour mesurer et comprendre le bilinguisme incidentel à grande échelle. Nous montrons que PaLM est exposé à plus de 30 millions de paires de traduction couvrant au moins 44 langues. De plus, la quantité de contenu bilingue incidentel est fortement corrélée à la quantité de contenu monolingue dans la langue concernée pour les langues non anglophones. Nous établissons un lien entre le contenu bilingue incidentel et les prompts zero-shot, et montrons qu'il peut être utilisé pour extraire de nouveaux prompts afin d'améliorer la qualité de la traduction zero-shot hors de l'anglais de PaLM. Enfin, dans une série d'ablation à petite échelle, nous montrons que sa présence a un impact substantiel sur les capacités de traduction, bien que cet impact diminue avec l'échelle du modèle.
Nous étudions si plusieurs grands modèles de langage (LLMs) peuvent s'améliorer mutuellement de manière autonome dans un jeu de négociation en jouant, réfléchissant et critiquant. Cette question nous intéresse car si les LLMs étaient capables de s'améliorer mutuellement, cela impliquerait la possibilité de créer des agents d'IA puissants avec une intervention humaine minimale. Nous demandons à deux LLMs de négocier entre eux, jouant respectivement les rôles d'un acheteur et d'un vendeur. Leur objectif est de parvenir à un accord, l'acheteur visant un prix plus bas et le vendeur un prix plus élevé. Un troisième modèle de langage, jouant le rôle de critique, fournit des retours à un joueur pour améliorer ses stratégies de négociation. Nous laissons les deux agents jouer plusieurs tours, utilisant l'historique des négociations précédentes et les retours de l'IA comme démonstrations en contexte pour améliorer itérativement la stratégie de négociation du modèle. Nous utilisons différents LLMs (GPT et Claude) pour différents rôles et utilisons le prix de l'accord comme métrique d'évaluation. Nos expériences révèlent plusieurs découvertes intrigantes : (1) Seule une partie des modèles de langage que nous considérons peuvent s'auto-jouer et améliorer le prix de l'accord grâce aux retours de l'IA, les modèles plus faibles ne comprennent pas les règles du jeu ou ne peuvent pas intégrer les retours de l'IA pour une amélioration ultérieure. (2) Les capacités des modèles à apprendre des retours diffèrent selon les rôles joués. Par exemple, il est plus difficile pour Claude-instant de s'améliorer en tant qu'acheteur qu'en tant que vendeur. (3) Lorsque le jeu est déroulé sur plusieurs tours, les agents plus forts peuvent améliorer constamment leurs performances en utilisant de manière significative les expériences précédentes et les retours itératifs de l'IA, mais ont un risque plus élevé de rompre l'accord. Nous espérons que notre travail fournit des explorations initiales perspicaces sur l'amélioration autonome des modèles grâce au jeu et aux retours de l'IA.
La classification fine est une tâche complexe qui consiste à identifier des différences subtiles entre des objets appartenant à la même catégorie. Cette tâche est particulièrement difficile dans des scénarios où les données sont rares. Les transformeurs visuels (ViT) ont récemment émergé comme un outil puissant pour la classification d'images, grâce à leur capacité à apprendre des représentations hautement expressives des données visuelles en utilisant des mécanismes d'auto-attention. Dans ce travail, nous explorons Semi-ViT, un modèle ViT affiné à l'aide de techniques d'apprentissage semi-supervisé, adapté aux situations où les données annotées sont insuffisantes. Ce cas est particulièrement courant dans le commerce électronique, où les images sont facilement disponibles, mais les étiquettes sont bruyantes, inexistantes ou coûteuses à obtenir. Nos résultats démontrent que Semi-ViT surpasse les réseaux de neurones convolutifs (CNN) traditionnels et les ViT, même lorsqu'il est affiné avec un nombre limité de données annotées. Ces résultats indiquent que les Semi-ViT offrent un potentiel significatif pour les applications nécessitant une classification précise et fine des données visuelles.
Ce travail a été présenté lors de l'atelier sur les représentations spatiales non conventionnelles de la Conférence internationale IEEE sur la robotique et l'automatisation (ICRA) 2023. Les champs de radiance neuronaux (NeRFs) sont une classe de représentations implicites de scènes qui modélisent des environnements 3D à partir d'images couleur. Les NeRFs sont expressifs et peuvent modéliser la géométrie complexe et multi-échelle des environnements réels, ce qui en fait potentiellement un outil puissant pour les applications robotiques. Les bibliothèques modernes d'entraînement de NeRFs peuvent générer un NeRF photo-réaliste à partir d'un ensemble de données statiques en quelques secondes, mais elles sont conçues pour une utilisation hors ligne et nécessitent une étape de pré-calcul d'optimisation de pose lente. Dans ce travail, nous proposons NerfBridge, une passerelle open-source entre le système d'exploitation robotique (ROS) et la bibliothèque populaire Nerfstudio pour l'entraînement en temps réel et en ligne de NeRFs à partir d'un flux d'images. NerfBridge permet un développement rapide de la recherche sur les applications des NeRFs en robotique en fournissant une interface extensible aux pipelines d'entraînement efficaces et aux bibliothèques de modèles proposés par Nerfstudio. À titre d'exemple d'utilisation, nous décrivons une configuration matérielle qui peut exploiter NerfBridge pour entraîner un NeRF à partir d'images capturées par une caméra montée sur un quadrirotor, aussi bien en intérieur qu'en extérieur. Pour la vidéo d'accompagnement : https://youtu.be/EH0SLn-RcDg et le code : https://github.com/javieryu/nerf_bridge.
Le contenu multimédia, tel que les publicités et les vidéos narratives, présente une riche combinaison de créativité et de multiples modalités. Il intègre des éléments comme le texte, les visuels, l'audio et les techniques de narration, en utilisant des dispositifs tels que les émotions, le symbolisme et les slogans pour transmettre du sens. Alors que les recherches précédentes sur la compréhension multimédia se sont principalement concentrées sur des vidéos présentant des actions spécifiques comme la cuisine, il existe un manque de grands ensembles de données d'entraînement annotés, ce qui entrave le développement de modèles d'apprentissage supervisé offrant des performances satisfaisantes pour des applications réelles. Cependant, l'émergence des grands modèles de langage (LLMs) a montré des performances remarquables en zero-shot dans diverses tâches de traitement du langage naturel (NLP), telles que la classification des émotions, la réponse à des questions et la classification thématique. Pour combler cet écart de performance dans la compréhension multimédia, nous proposons de verbaliser les vidéos narratives pour générer leurs descriptions en langage naturel, puis d'effectuer des tâches de compréhension vidéo sur l'histoire générée plutôt que sur la vidéo originale. À travers des expériences approfondies sur cinq tâches de compréhension vidéo, nous démontrons que notre méthode, bien qu'en zero-shot, obtient des résultats significativement meilleurs que les bases de référence supervisées pour la compréhension vidéo. De plus, pour pallier le manque de benchmarks en compréhension narrative, nous rendons public le premier ensemble de données sur une tâche cruciale en sciences sociales computationnelles : l'identification des stratégies de persuasion.