Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous proposons une nouvelle méthodologie de synthèse de données pilotée par des personas, qui exploite diverses perspectives au sein d'un modèle de langage à grande échelle (LLM) pour créer des données synthétiques variées. Pour exploiter pleinement cette méthodologie à grande échelle, nous introduisons Persona Hub -- une collection d'un milliard de personas diversifiées, automatiquement extraites de données web. Ces un milliard de personas (~13% de la population mondiale), agissant comme des vecteurs distribués de connaissances mondiales, peuvent accéder à presque toutes les perspectives encapsulées dans le LLM, facilitant ainsi la création de données synthétiques diversifiées à grande échelle pour divers scénarios. En illustrant les cas d'utilisation de Persona Hub dans la synthèse de problèmes de raisonnement mathématique et logique de haute qualité, d'instructions (c'est-à-dire des invites utilisateur), de textes riches en connaissances, de PNJ de jeux et d'outils (fonctions) à grande échelle, nous démontrons que la synthèse de données pilotée par des personas est polyvalente, évolutive, flexible et facile à utiliser, ce qui pourrait entraîner un changement de paradigme dans la création et les applications de données synthétiques en pratique, ayant ainsi un impact profond sur la recherche et le développement des LLM.
Le développement rapide des modèles de langage multimodaux de grande envergure (MLLMs), tels que GPT-4V, a conduit à des avancées significatives. Cependant, ces modèles rencontrent encore des défis dans leurs capacités multimodales médicales en raison des limitations quantitatives et qualitatives des données vision-texte médicales, issues de préoccupations liées à la confidentialité des données et aux coûts élevés d'annotation. Bien que des approches pionnières exploitent les paires image-texte médicales à grande échelle et dé-identifiées de PubMed pour pallier ces limitations, elles restent insuffisantes en raison du bruit inhérent aux données. Pour résoudre ce problème, nous avons affiné les paires image-texte médicales de PubMed et utilisé les MLLMs (GPT-4V) en mode « non aveugle » pour débruiter et reformater les données, aboutissant à la création du jeu de données PubMedVision contenant 1,3 million d'échantillons de questions-réponses visuelles médicales (VQA). Notre validation démontre que : (1) PubMedVision peut considérablement améliorer les capacités multimodales médicales des MLLMs actuels, montrant une amélioration significative dans les benchmarks, y compris la piste Santé & Médecine de MMMU ; (2) les vérifications manuelles par des experts médicaux et les résultats empiriques confirment la qualité supérieure de notre jeu de données par rapport à d'autres méthodes de construction de données. En utilisant PubMedVision, nous avons entraîné un MLLM médical de 34B, HuatuoGPT-Vision, qui montre des performances supérieures dans les scénarios multimodaux médicaux parmi les MLLMs open-source.
Dans le domaine des grands modèles de langage (LLMs), la distillation de connaissances (Knowledge Distillation, KD) est une technique essentielle pour transférer les capacités des modèles enseignants vers les modèles étudiants. Cependant, les méthodes de KD existantes rencontrent des limitations et des défis dans la distillation des LLMs, notamment en termes d'efficacité et de capacités de mesure insuffisantes de la divergence KL traditionnelle. Il est démontré que les LLMs peuvent servir de fonction de récompense implicite, que nous définissons comme un complément à la divergence KL. Dans ce travail, nous proposons la Distillation de Connaissances par Préférence Directe (Direct Preference Knowledge Distillation, DPKD) pour les LLMs. La DPKD utilise la divergence de distribution pour représenter la perte de préférence et la fonction de récompense implicite. Nous reformulons la KD des LLMs en deux étapes : d'abord en optimisant un objectif composé de la récompense implicite et de la divergence KL inverse, puis en améliorant la probabilité de préférence des sorties du modèle enseignant par rapport à celles du modèle étudiant. Nous avons mené des expériences et des analyses sur divers ensembles de données avec des LLMs dont les paramètres varient de 120M à 13B, et nous démontrons la large applicabilité et l'efficacité de notre approche DPKD. Par ailleurs, nous prouvons la valeur et l'efficacité de la récompense implicite et de la préférence de sortie introduites dans la KD à travers des expériences et une analyse théorique. La méthode DPKD surpasse la méthode de référence à la fois en précision des réponses et en pourcentage de correspondance exacte. Le code et les données sont disponibles à l'adresse https://aka.ms/dpkd.
Les modèles de langage de grande taille (LLMs), dotés d'une vaste connaissance du monde et de solides compétences en raisonnement, peuvent aborder des tâches variées dans différents domaines, souvent en les formulant sous forme de paires instruction-réponse de type conversationnel. Dans cet article, nous proposons LLaRA : Large Language and Robotics Assistant, un cadre qui formule la politique d'action des robots sous forme de conversations et fournit des réponses améliorées lorsqu'il est entraîné avec des données auxiliaires qui complètent l'apprentissage des politiques. Les LLMs avec entrées visuelles, c'est-à-dire les modèles de langage visuel (VLMs), ont la capacité de traiter les informations d'état sous forme d'invites visuelles-textuelles et de générer des décisions de politique optimales en texte. Pour entraîner de tels VLMs de politique d'action, nous introduisons d'abord un pipeline automatisé pour générer des données d'instruction robotique diversifiées et de haute qualité à partir de données existantes de clonage comportemental. Un VLM affiné avec la collection résultante de jeux de données, basée sur une formulation de type conversationnel adaptée aux tâches robotiques, peut générer des décisions de politique d'action robotique significatives. Nos expériences dans plusieurs environnements simulés et réels démontrent les performances de pointe du cadre LLaRA proposé. Le code, les jeux de données et les modèles pré-entraînés sont disponibles à l'adresse https://github.com/LostXine/LLaRA.
Récemment, le splatting de Gaussiennes 3D (3D-GS) a connu un grand succès dans la reconstruction et le rendu de scènes du monde réel. Pour transférer cette haute qualité de rendu aux tâches de génération, une série de travaux de recherche tentent de générer des assets en Gaussiennes 3D à partir de texte. Cependant, les assets générés n'ont pas atteint la même qualité que ceux des tâches de reconstruction. Nous observons que les Gaussiennes ont tendance à croître de manière incontrôlée, car le processus de génération peut introduire de l'indétermination. Dans le but d'améliorer considérablement la qualité de génération, nous proposons un nouveau cadre nommé GaussianDreamerPro. L'idée principale est de lier les Gaussiennes à une géométrie raisonnable, qui évolue tout au long du processus de génération. À différentes étapes de notre cadre, la géométrie et l'apparence peuvent être enrichies progressivement. L'asset final est construit avec des Gaussiennes 3D liées à un maillage, montrant des détails et une qualité significativement améliorés par rapport aux méthodes précédentes. Notamment, l'asset généré peut également être intégré de manière transparente dans des pipelines de manipulation en aval, tels que l'animation, la composition et la simulation, etc., ce qui accroît grandement son potentiel dans de nombreuses applications. Des démonstrations sont disponibles à l'adresse https://taoranyi.com/gaussiandreamerpro/.
Le Segment Anything Model (SAM) a suscité une attention considérable pour ses capacités supérieures de segmentation interactive avec des prompts visuels, tout en manquant d'exploration approfondie concernant les prompts textuels. Dans cet article, nous étudions empiriquement quels encodeurs de prompts textuels (par exemple, CLIP ou LLM) sont adaptés pour adapter SAM à la segmentation d'expressions référentielles et introduisons l'EVF-SAM (Early Vision-language Fusion-based SAM). EVF-SAM est une méthode de segmentation référentielle simple mais efficace qui exploite des prompts multimodaux (c'est-à-dire image et texte) et comprend un modèle vision-langage pré-entraîné pour générer des prompts référentiels ainsi qu'un modèle SAM pour la segmentation. Étonnamment, nous observons que : (1) les prompts multimodaux et (2) les modèles vision-langage avec fusion précoce (par exemple, BEIT-3) sont bénéfiques pour inciter SAM à réaliser une segmentation référentielle précise. Nos expériences montrent que l'EVF-SAM proposé, basé sur BEIT-3, peut atteindre des performances de pointe sur RefCOCO/+/g pour la segmentation d'expressions référentielles et démontre la supériorité de l'incitation de SAM avec une fusion précoce vision-langage. De plus, l'EVF-SAM proposé, avec 1,32 milliard de paramètres, obtient des performances remarquablement supérieures tout en réduisant près de 82 % des paramètres par rapport aux méthodes SAM précédentes basées sur de grands modèles multimodaux.
Les récentes avancées dans les modèles de langage de grande taille (LLM) ont transformé le développement du ML/AI, nécessitant une réévaluation des principes de l'AutoML pour les systèmes de génération augmentée par récupération (RAG). Pour relever les défis de l'optimisation des hyperparamètres et de l'adaptation en ligne dans les systèmes RAG, nous proposons le framework AutoRAG-HP, qui formule le réglage des hyperparamètres comme un problème de bandit multi-bras (MAB) en ligne et introduit une nouvelle méthode hiérarchique à deux niveaux (Hier-MAB) pour une exploration efficace des grands espaces de recherche. Nous menons des expériences approfondies sur le réglage des hyperparamètres, tels que le nombre de documents récupérés (top-k), le taux de compression des prompts et les méthodes d'embedding, en utilisant les jeux de données ALCE-ASQA et Natural Questions. Notre évaluation basée sur l'optimisation conjointe de ces trois hyperparamètres démontre que les méthodes d'apprentissage en ligne basées sur MAB peuvent atteindre un Recall@5 d'environ 0,8 pour les scénarios présentant des gradients marqués dans l'espace de recherche, en utilisant seulement environ 20 % des appels d'API LLM requis par l'approche de recherche par grille. De plus, la méthode Hier-MAB proposée surpasse les autres approches de référence dans des scénarios d'optimisation plus complexes. Le code sera disponible à l'adresse https://aka.ms/autorag.
La mise à l'échelle des méthodes d'apprentissage par renforcement profond (RL) représente un défi majeur. À la suite des avancées dans le domaine de la modélisation générative, l'approche basée sur des modèles (model-based RL) s'impose comme un candidat sérieux. Les récents progrès en modélisation séquentielle ont conduit à des modèles du monde efficaces basés sur des transformateurs, bien qu'au prix de calculs intensifs en raison des longues séquences de tokens nécessaires pour simuler précisément les environnements. Dans ce travail, nous proposons Delta-IRIS, un nouvel agent doté d'une architecture de modèle du monde composée d'un autoencodeur discret qui encode des deltas stochastiques entre les pas de temps et d'un transformateur autorégressif qui prédit les deltas futurs en résumant l'état actuel du monde avec des tokens continus. Sur le benchmark Crafter, Delta-IRIS établit un nouvel état de l'art pour plusieurs budgets d'images, tout en étant un ordre de grandeur plus rapide à entraîner que les approches précédentes basées sur l'attention. Nous mettons à disposition notre code et nos modèles à l'adresse https://github.com/vmicheli/delta-iris.
Nous présentons Arboretum, le plus grand ensemble de données accessible au public conçu pour faire progresser l'IA dans les applications liées à la biodiversité. Ce jeu de données, issu de la plateforme de science citoyenne iNaturalist et validé par des experts du domaine pour garantir son exactitude, comprend 134,6 millions d'images, surpassant les ensembles de données existants par un ordre de grandeur. Il inclut des données associant images et texte pour une diversité d'espèces telles que les oiseaux (Aves), les araignées/tiques/acariens (Arachnida), les insectes (Insecta), les plantes (Plantae), les champignons (Fungi), les escargots (Mollusca) et les serpents/lézards (Reptilia), en faisant une ressource précieuse pour les modèles d'IA multimodaux vision-langue dédiés à l'évaluation de la biodiversité et à la recherche agricole. Chaque image est annotée avec des noms scientifiques, des détails taxonomiques et des noms communs, renforçant ainsi la robustesse de l'entraînement des modèles d'IA. Nous démontrons la valeur d'Arboretum en publiant une série de modèles CLIP entraînés sur un sous-ensemble de 40 millions d'images légendées. Nous introduisons plusieurs nouveaux benchmarks pour une évaluation rigoureuse, rapportons la précision en apprentissage zero-shot, et effectuons des évaluations à travers les stades de vie, les espèces rares, les espèces confondantes et différents niveaux de la hiérarchie taxonomique. Nous anticipons qu'Arboretum stimulera le développement de modèles d'IA capables de soutenir une variété d'outils numériques, allant des stratégies de lutte contre les ravageurs, au suivi des cultures, en passant par l'évaluation mondiale de la biodiversité et la conservation de l'environnement. Ces avancées sont essentielles pour assurer la sécurité alimentaire, préserver les écosystèmes et atténuer les impacts du changement climatique. Arboretum est accessible au public, facilement utilisable et prêt à être exploité immédiatement. Veuillez consulter le {site web du projet} https://baskargroup.github.io/Arboretum/ pour accéder à nos données, modèles et codes.
L'apprentissage par renforcement avec feedback humain (RLHF) a connu un grand succès dans l'alignement des grands modèles de langage (LLMs) avec les préférences humaines. Les approches RLHF prédominantes sont basées sur des récompenses, suivant l'hypothèse du modèle Bradley-Terry (BT), qui pourrait ne pas capturer entièrement la complexité des préférences humaines. Dans cet article, nous explorons le RLHF dans un cadre de préférences général et l'abordons sous un angle de théorie des jeux. Plus précisément, nous formulons le problème comme un jeu à deux joueurs et proposons un nouvel algorithme, l'optimisation itérative de politique de Nash (INPO). L'idée clé est de faire jouer la politique contre elle-même via un apprentissage sans regret, permettant ainsi d'approximer la politique de Nash. Contrairement aux méthodes précédentes, INPO contourne la nécessité d'estimer le taux de victoire attendu pour des réponses individuelles, ce qui entraîne généralement des coûts de calcul ou d'annotation élevés. Au lieu de cela, nous introduisons un nouvel objectif de perte qui est directement minimisé sur un ensemble de données de préférences. Nous fournissons une analyse théorique de notre approche et démontrons son efficacité à travers des expériences sur divers benchmarks représentatifs. Avec un modèle SFT basé sur LLaMA-3-8B, INPO atteint un taux de victoire contrôlé par la longueur de 41,5 % sur AlpacaEval 2.0 et un taux de victoire de 38,3 % sur Arena-Hard, montrant une amélioration substantielle par rapport à l'algorithme itératif de pointe [Dong et al., 2024] sous l'hypothèse du modèle BT. De plus, notre étude d'ablation met en évidence les avantages de l'intégration de la régularisation KL pour le contrôle de la longueur des réponses.
Cet article présente une nouvelle métrique prenant en compte les entités, appelée Radiological Report (Text) Evaluation (RaTEScore), pour évaluer la qualité des rapports médicaux générés par des modèles d'IA. RaTEScore met l'accent sur des entités médicales cruciales telles que les résultats diagnostiques et les détails anatomiques, tout en étant robuste face aux synonymes médicaux complexes et sensible aux expressions de négation. Sur le plan technique, nous avons développé un ensemble de données complet pour la reconnaissance d'entités nommées (NER) médicales, RaTE-NER, et entraîné un modèle NER spécifiquement à cette fin. Ce modèle permet de décomposer les rapports radiologiques complexes en leurs entités médicales constitutives. La métrique elle-même est dérivée en comparant la similarité des embeddings d'entités, obtenus à partir d'un modèle de langage, en fonction de leurs types et de leur pertinence clinique. Nos évaluations démontrent que RaTEScore s'aligne plus étroitement avec les préférences humaines que les métriques existantes, validées à la fois sur des benchmarks publics établis et sur notre nouveau benchmark proposé, RaTE-Eval.