Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les recherches récentes se sont concentrées sur l'amélioration des capacités des modèles de plus petite taille grâce à l'apprentissage par imitation, en s'appuyant sur les sorties générées par les grands modèles de fondation (LFMs). Plusieurs problèmes affectent la qualité de ces modèles, allant des signaux d'imitation limités provenant des sorties superficielles des LFMs ; des données d'entraînement homogènes et à petite échelle ; et surtout un manque d'évaluation rigoureuse conduisant à surestimer les capacités des petits modèles, car ils ont tendance à imiter le style plutôt que le processus de raisonnement des LFMs. Pour relever ces défis, nous avons développé Orca (nous travaillons avec notre équipe juridique pour publier une diff des poids du modèle conformément à la politique de publication de LLaMA, à paraître sur https://aka.ms/orca-lm), un modèle de 13 milliards de paramètres qui apprend à imiter le processus de raisonnement des LFMs. Orca apprend à partir de signaux riches provenant de GPT-4, incluant des traces d'explication ; des processus de pensée étape par étape ; et d'autres instructions complexes, guidé par l'assistance pédagogique de ChatGPT. Pour favoriser cet apprentissage progressif, nous exploitons des données d'imitation à grande échelle et diversifiées avec un échantillonnage et une sélection judicieux. Orca surpasse les modèles conventionnels de pointe ajustés par instruction, tels que Vicuna-13B, de plus de 100 % dans des benchmarks de raisonnement zero-shot complexes comme Big-Bench Hard (BBH) et de 42 % sur AGIEval. De plus, Orca atteint la parité avec ChatGPT sur le benchmark BBH et montre des performances compétitives (un écart de 4 points avec un message système optimisé) dans des examens professionnels et académiques comme le SAT, le LSAT, le GRE et le GMAT, à la fois dans des configurations zero-shot sans CoT ; tout en restant derrière GPT-4. Nos recherches indiquent que l'apprentissage à partir d'explications étape par étape, qu'elles soient générées par des humains ou par des modèles d'IA plus avancés, est une direction prometteuse pour améliorer les capacités et les compétences des modèles.
Les grands modèles de langage sont généralement entraînés sur un mélange de données web filtrées et de corpus de haute qualité soigneusement sélectionnés, tels que des conversations sur les réseaux sociaux, des livres ou des articles techniques. Ce processus de curation est considéré comme nécessaire pour produire des modèles performants dotés de larges capacités de généralisation en zero-shot. Cependant, à mesure que des modèles plus volumineux nécessitant un pré-entraînement sur des milliers de milliards de tokens sont envisagés, il est incertain dans quelle mesure la curation est scalable et si nous allons bientôt manquer de données uniques de haute qualité. Contrairement aux croyances précédentes, nous montrons que des données web correctement filtrées et dédupliquées peuvent à elles seules conduire à des modèles puissants, surpassant même de manière significative les modèles de pointe entraînés sur The Pile. Malgré un filtrage extensif, les données de haute qualité que nous extrayons du web restent abondantes, et nous sommes en mesure d'obtenir cinq mille milliards de tokens à partir de CommonCrawl. Nous rendons publiquement accessible un extrait de 600 milliards de tokens de notre jeu de données RefinedWeb, ainsi que des modèles de langage de 1,3/7,5 milliards de paramètres entraînés sur celui-ci.
Le récent modèle Segment Anything (SAM) représente un bond en avant significatif dans la mise à l'échelle des modèles de segmentation, offrant des capacités zero-shot puissantes et un système de prompts flexible. Bien qu'il ait été entraîné avec 1,1 milliard de masques, la qualité de prédiction des masques de SAM reste insuffisante dans de nombreux cas, en particulier pour les objets présentant des structures complexes. Nous proposons HQ-SAM, dotant SAM de la capacité à segmenter avec précision n'importe quel objet, tout en conservant la conception promptable, l'efficacité et la généralisabilité zero-shot d'origine de SAM. Notre conception minutieuse réutilise et préserve les poids du modèle pré-entraîné de SAM, tout en introduisant un nombre minimal de paramètres et de calculs supplémentaires. Nous concevons un jeton de sortie haute qualité apprenable, qui est injecté dans le décodeur de masques de SAM et est responsable de la prédiction du masque haute qualité. Au lieu de l'appliquer uniquement sur les caractéristiques du décodeur de masques, nous les fusionnons d'abord avec les caractéristiques précoces et finales du ViT pour améliorer les détails du masque. Pour entraîner les paramètres apprenables introduits, nous constituons un ensemble de données de 44 000 masques granulaires provenant de plusieurs sources. HQ-SAM est uniquement entraîné sur cet ensemble de données de 44 000 masques, ce qui ne prend que 4 heures sur 8 GPU. Nous démontrons l'efficacité de HQ-SAM sur une série de 9 ensembles de données de segmentation variés couvrant différentes tâches en aval, dont 7 sont évalués selon un protocole de transfert zero-shot. Notre code et nos modèles seront disponibles à l'adresse https://github.com/SysCV/SAM-HQ.
Nous présentons LLM-Blender, un cadre d'assemblage conçu pour atteindre des performances constamment supérieures en exploitant les forces diversifiées de plusieurs modèles de langage de grande taille (LLMs) open-source. Notre cadre se compose de deux modules : PairRanker et GenFuser, répondant à l'observation que les LLMs optimaux pour différents exemples peuvent varier considérablement. PairRanker utilise une méthode de comparaison par paires spécialisée pour distinguer les différences subtiles entre les sorties candidates. Il encode conjointement le texte d'entrée et une paire de candidats, utilisant des encodeurs à attention croisée pour déterminer le meilleur. Nos résultats démontrent que PairRanker présente la plus forte corrélation avec le classement basé sur ChatGPT. Ensuite, GenFuser vise à fusionner les candidats les mieux classés, générant une sortie améliorée en capitalisant sur leurs forces et en atténuant leurs faiblesses. Pour faciliter l'évaluation à grande échelle, nous introduisons un ensemble de données de référence, MixInstruct, qui est un mélange de plusieurs ensembles de données d'instructions comportant des comparaisons par paires oracles. Notre LLM-Blender surpasse significativement les LLMs individuels et les méthodes de base sur diverses métriques, établissant un écart de performance substantiel.
Les grands modèles de langage (LLMs) sont des suiveurs d'instructions, mais il peut être difficile de trouver la meilleure instruction pour différentes situations, en particulier pour les LLMs en boîte noire sur lesquels la rétropropagation est interdite. Au lieu d'optimiser directement l'instruction discrète, nous optimisons un prompt souple de faible dimension appliqué à un LLM open-source pour générer l'instruction pour le LLM en boîte noire. À chaque itération de la méthode proposée, que nous appelons InstructZero, un prompt souple est converti en instruction à l'aide du LLM open-source, qui est ensuite soumis au LLM en boîte noire pour une évaluation en zero-shot, et la performance est envoyée à l'optimisation bayésienne pour produire de nouveaux prompts souples améliorant la performance en zero-shot. Nous évaluons InstructZero sur différentes combinaisons de LLMs open-source et d'APIs, y compris Vicuna et ChatGPT. Nos résultats montrent qu'InstructZero surpasse les méthodes SOTA d'auto-instruction sur une variété de tâches en aval. Notre code et nos données sont disponibles publiquement à l'adresse https://github.com/Lichang-Chen/InstructZero.
Les modèles de langage (LMs) présentent souvent des comportements indésirables dans la génération de texte, incluant la production de sorties fausses, toxiques ou non pertinentes. L'apprentissage par renforcement à partir de retours humains (RLHF) - où les jugements de préférence humaine sur les sorties des LMs sont transformés en signal d'apprentissage - a récemment montré des résultats prometteurs pour résoudre ces problèmes. Cependant, ces retours globaux transmettent des informations limitées sur les sorties de texte long ; ils n'indiquent pas quels aspects des sorties ont influencé la préférence de l'utilisateur ; par exemple, quelles parties contiennent quel(s) type(s) d'erreurs. Dans cet article, nous utilisons des retours humains granulaires (par exemple, quelle phrase est fausse, quelle sous-phrase est non pertinente) comme signal d'entraînement explicite. Nous introduisons Fine-Grained RLHF, un cadre qui permet l'entraînement et l'apprentissage à partir de fonctions de récompense granulaires à deux égards : (1) la densité, fournissant une récompense après chaque segment (par exemple, une phrase) généré ; et (2) l'intégration de multiples modèles de récompense associés à différents types de retours (par exemple, l'inexactitude factuelle, la non-pertinence, et l'incomplétude de l'information). Nous menons des expériences sur la détoxification et la réponse à des questions longues pour illustrer comment l'apprentissage avec de telles fonctions de récompense conduit à une amélioration des performances, soutenue par des évaluations automatiques et humaines. De plus, nous montrons que les comportements des LMs peuvent être personnalisés en utilisant différentes combinaisons de modèles de récompense granulaires. Nous publions toutes les données, les retours humains collectés, et les codes sur https://FineGrainedRLHF.github.io.
Les méthodes d'entraînement à confidentialité différentielle (DP) comme DP-SGD peuvent protéger les données d'entraînement sensibles en garantissant que les modèles de ML ne révéleront pas d'informations privées. Une approche alternative, que cet article étudie, consiste à utiliser un ensemble de données sensibles pour générer un nouvel ensemble de données synthétiques qui est à confidentialité différentielle par rapport aux données originales. Cela présente plusieurs avantages : les données synthétiques peuvent être réutilisées pour d'autres tâches (y compris pour le réglage des hyperparamètres), conservées indéfiniment ou partagées avec des tiers sans compromettre la confidentialité. Cependant, obtenir des données DP est beaucoup plus difficile que d'introduire la DP pendant l'entraînement. Pour le rendre réalisable pour le texte, des travaux récents ont utilisé des données publiques en commençant avec un modèle de langage génératif pré-entraîné et en l'affinant de manière privée sur des données sensibles. Ce modèle peut être utilisé pour échantillonner un ensemble de données synthétiques DP. Bien que cette stratégie semble simple, sa mise en œuvre s'est avérée problématique. Les approches précédentes montrent soit une perte de performance significative, soit, comme nous le montrons, des défauts de conception critiques. Dans cet article, nous démontrons qu'un objectif d'entraînement approprié ainsi que le réglage d'un nombre réduit de paramètres permettent d'obtenir une excellente qualité de données synthétiques DP. Notre approche est compétitive avec l'entraînement direct DP des classificateurs en aval en termes de performance sur les tâches en aval. Nous démontrons également que nos données synthétiques DP ne sont pas seulement utiles pour l'entraînement des classificateurs en aval, mais aussi pour le réglage de ces mêmes modèles.
Le modèle ChatGPT récemment publié démontre des capacités sans précédent dans le domaine des réponses à des questions en mode zero-shot. Dans ce travail, nous explorons la compréhension conversationnelle de ChatGPT et introduisons un cadre (protocole) conversationnel qui pourra être adopté dans de futures études. L'univers Pokémon sert de terrain d'essai idéal pour auditer les capacités de raisonnement de ChatGPT en raison de son hypothèse de monde clos. Après avoir mis en lumière les connaissances de base de ChatGPT (sur l'univers Pokémon), nous testons son processus de raisonnement lorsqu'il utilise ces concepts dans des scénarios de combat. Nous évaluons ensuite sa capacité à acquérir de nouvelles connaissances et à les intégrer dans son processus de raisonnement. Notre objectif ultime est d'évaluer la capacité de ChatGPT à généraliser, à combiner des caractéristiques, et à acquérir et raisonner sur des connaissances nouvellement introduites à partir de retours humains. Nous constatons que ChatGPT possède des connaissances préalables sur l'univers Pokémon, sur lesquelles il peut raisonner dans des scénarios de combat dans une large mesure, même lorsque de nouvelles informations sont introduites. Le modèle performe mieux avec des retours collaboratifs et s'il y a une phase initiale de récupération d'informations, mais il hallucine également occasionnellement et est sensible aux attaques adverses.
La méthodologie standard d'évaluation des grands modèles de langage (LLM) basée sur des paires statiques d'entrées et de sorties est insuffisante pour développer des assistants : ce type d'évaluation ne prend pas en compte l'élément interactif essentiel dans leur déploiement, limitant ainsi notre compréhension des capacités des modèles de langage. Nous présentons CheckMate, une plateforme prototype adaptable permettant aux humains d'interagir avec et d'évaluer les LLM. Nous menons une étude avec CheckMate pour évaluer trois modèles de langage (InstructGPT, ChatGPT et GPT-4) en tant qu'assistants dans la démonstration de mathématiques de niveau universitaire, avec un groupe mixte de participants allant des étudiants de premier cycle aux professeurs de mathématiques. Nous publions le jeu de données d'interactions et d'évaluations résultant, MathConverse. En analysant MathConverse, nous établissons une taxonomie préliminaire des comportements humains et découvrons que, malgré une corrélation généralement positive, il existe des cas notables de divergence entre la justesse et l'utilité perçue des générations des LLM, parmi d'autres résultats. De plus, nous identifions des scénarios utiles et les problèmes existants de GPT-4 dans le raisonnement mathématique à travers une série d'études de cas contribuées par des mathématiciens experts. Nous concluons avec des recommandations pratiques pour les praticiens du machine learning et les mathématiciens : les modèles qui communiquent l'incertitude, répondent bien aux corrections des utilisateurs, sont plus interprétables et concis peuvent constituer de meilleurs assistants ; l'évaluation interactive est une voie prometteuse pour naviguer continuellement dans les capacités de ces modèles ; les humains devraient être conscients de la faillibilité algébrique des modèles de langage et, pour cette raison, discerner où ils devraient être utilisés.
Le récent succès des modèles de langage de grande taille (LLMs) marque une avancée impressionnante vers l'intelligence artificielle générale. Ils ont démontré un potentiel prometteur dans l'exécution automatique de tâches sur instruction des utilisateurs, fonctionnant comme des coordinateurs semblables à des cerveaux. Les risques associés se révéleront à mesure que nous déléguerons un nombre croissant de tâches aux machines pour une exécution automatisée. Une question cruciale émerge : comment pouvons-nous faire en sorte que les machines se comportent de manière responsable lorsqu'elles aident les humains à automatiser des tâches en tant que copilots personnels ? Dans cet article, nous explorons cette question en profondeur sous les angles de la faisabilité, de l'exhaustivité et de la sécurité. Plus précisément, nous présentons l'Automatisation Responsable des Tâches (ResponsibleTA) comme un cadre fondamental pour faciliter une collaboration responsable entre les coordinateurs et les exécuteurs basés sur des LLMs pour l'automatisation des tâches, avec trois capacités renforcées : 1) prédire la faisabilité des commandes pour les exécuteurs ; 2) vérifier l'exhaustivité des exécuteurs ; 3) renforcer la sécurité (par exemple, la protection de la vie privée des utilisateurs). Nous proposons et comparons en outre deux paradigmes pour mettre en œuvre les deux premières capacités. L'un consiste à exploiter les connaissances génériques des LLMs eux-mêmes via l'ingénierie des prompts, tandis que l'autre consiste à adopter des modèles apprenables spécifiques à un domaine. De plus, nous introduisons un mécanisme de mémoire locale pour atteindre la troisième capacité. Nous évaluons notre proposition de ResponsibleTA sur l'automatisation des tâches d'interface utilisateur et espérons qu'elle pourra attirer davantage d'attention sur la nécessité de rendre les LLMs plus responsables dans divers scénarios. La page d'accueil du projet de recherche est disponible à l'adresse suivante : https://task-automation-research.github.io/responsible_task_automation.
Observant la relation étroite entre les tâches de segmentation panoptique, sémantique et par instance, nous proposons d'entraîner un modèle universel de segmentation multi-tâches et multi-datasets : DaTaSeg. Nous utilisons une représentation partagée (propositions de masques avec prédictions de classes) pour toutes les tâches. Pour résoudre les divergences entre tâches, nous adoptons différentes opérations de fusion et post-traitements spécifiques à chaque tâche. Nous exploitons également la supervision faible, permettant à notre modèle de segmentation de bénéficier d'annotations de boîtes englobantes moins coûteuses. Pour partager les connaissances entre datasets, nous utilisons des embeddings textuels issus du même espace sémantique comme classifieurs et partageons tous les paramètres du réseau entre les datasets. Nous entraînons DaTaSeg sur les datasets ADE sémantique, COCO panoptique et Objects365 de détection. DaTaSeg améliore les performances sur tous les datasets, en particulier les datasets de petite échelle, atteignant 54.0 mIoU sur ADE sémantique et 53.5 PQ sur COCO panoptique. DaTaSeg permet également un transfert de connaissances faiblement supervisé sur les segmentations panoptique d'ADE et par instance d'Objects365. Les expériences montrent que DaTaSeg s'adapte au nombre de datasets d'entraînement et permet une segmentation à vocabulaire ouvert par transfert direct. De plus, nous annotons un ensemble de segmentation par instance d'Objects365 composé de 1 000 images et le publierons comme benchmark public.
L'utilisation de grands modèles de langage (LLM) pour résoudre des problèmes mathématiques constitue une piste de recherche fascinante, compte tenu de la multitude de problèmes mathématiques exprimés en langage naturel dans divers domaines scientifiques et techniques. Bien que plusieurs travaux antérieurs aient exploré la résolution de mathématiques élémentaires à l'aide de LLM, cette étude se penche sur l'utilisation de GPT-4 pour aborder des problèmes mathématiques plus complexes et exigeants. Nous évaluons différentes méthodes d'utilisation de GPT-4. Certaines sont adaptées de travaux existants, et l'une d'elles est \MathChat, un cadre de résolution de problèmes conversationnel nouvellement proposé dans cette étude. L'évaluation est réalisée sur des problèmes difficiles issus de compétitions de niveau lycée provenant du jeu de données MATH, démontrant l'avantage de l'approche conversationnelle proposée.
Les modèles de langage basés sur Transformer ont trouvé de nombreuses applications variées nécessitant de traiter des séquences de longueur croissante. Pour ces applications, l'auto-attention causale -- qui est le seul composant dont la complexité évolue de manière quadratique par rapport à la longueur de la séquence -- devient une préoccupation centrale. Bien que de nombreux travaux aient proposé des schémas pour sparsifier les motifs d'attention et réduire la surcharge computationnelle de l'auto-attention, ceux-ci sont souvent limités par des contraintes d'implémentation et finissent par imposer une structure simple et statique sur la matrice d'attention. À l'inverse, l'implémentation d'auto-attentions éparses plus dynamiques entraîne souvent des temps d'exécution significativement plus lents que le calcul de l'attention complète en utilisant l'implémentation Flash de Dao et al. (2022). Nous étendons FlashAttention pour accommoder une large classe de motifs de sparsité d'attention qui, en particulier, englobent l'abandon de clés/requêtes et l'attention basée sur le hachage. Cela conduit à des implémentations sans surcharge de complexité computationnelle et à une accélération du temps d'exécution par un facteur multiple par rapport à FlashAttention. Même avec des degrés de sparsité relativement faibles, notre méthode améliore visiblement FlashAttention à mesure que la longueur de la séquence augmente. Sans sacrifier la perplexité, nous augmentons la vitesse d'entraînement d'un modèle de langage Transformer par un facteur de 2,0 et 3,3 pour des séquences de respectivement 8k et 16k tokens.
Nous proposons un état des lieux des grands modèles de langage et examinons, en comparaison, le potentiel des modèles de langage augmentés par recherche. Ces modèles de langage sont semi-paramétriques, intégrant à la fois des paramètres de modèle et des connaissances provenant de sources de données externes pour effectuer leurs prédictions, contrairement à la nature paramétrique des grands modèles de langage classiques. Nous présentons des résultats expérimentaux préliminaires montrant que les architectures semi-paramétriques peuvent être améliorées grâce à des vues, un analyseur/planificateur de requêtes et des informations de provenance, permettant de créer un système bien plus performant pour les tâches de question-réponse en termes de précision et d'efficacité, et potentiellement pour d'autres tâches de traitement du langage naturel.