Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le choix omniprésent et manifestement sous-optimal de redimensionner les images à une résolution fixe avant de les traiter avec des modèles de vision par ordinateur n'a pas encore été remis en cause avec succès. Cependant, des modèles tels que le Vision Transformer (ViT) offrent une modélisation séquentielle flexible, permettant ainsi des longueurs de séquence d'entrée variables. Nous tirons parti de cette caractéristique avec NaViT (Native Resolution ViT), qui utilise le regroupement de séquences pendant l'entraînement pour traiter des entrées de résolutions et de rapports d'aspect arbitraires. Outre une utilisation flexible du modèle, nous démontrons une amélioration de l'efficacité de l'entraînement pour le pré-entraînement supervisé à grande échelle et le pré-entraînement contrastif image-texte. NaViT peut être transféré efficacement à des tâches standard telles que la classification d'images et de vidéos, la détection d'objets et la segmentation sémantique, et conduit à des résultats améliorés sur les benchmarks de robustesse et d'équité. Au moment de l'inférence, la flexibilité de la résolution d'entrée peut être utilisée pour naviguer en douceur dans le compromis coût-performance au moment du test. Nous pensons que NaViT marque un écart par rapport au pipeline d'entrée et de modélisation standard, conçu pour les CNN, utilisé par la plupart des modèles de vision par ordinateur, et représente une direction prometteuse pour les ViTs.
Nous proposons l'Autoencodeur en Contexte (In-context Autoencoder, ICAE) pour la compression de contexte dans un modèle de langage de grande taille (Large Language Model, LLM). L'ICAE est composé de deux modules : un encodeur apprenable adapté avec LoRA à partir d'un LLM pour compresser un contexte long en un nombre limité d'emplacements mémoire, et un décodeur fixe qui est le LLM cible pouvant se conditionner sur ces emplacements mémoire pour diverses finalités. Nous pré-entraînons d'abord l'ICAE en utilisant à la fois des objectifs d'autoencodage et de modélisation du langage sur des données textuelles massives, lui permettant de générer des emplacements mémoire qui représentent de manière précise et exhaustive le contexte original. Ensuite, nous affinons l'ICAE pré-entraîné sur une petite quantité de données d'instruction pour améliorer son interaction avec divers prompts afin de produire des réponses souhaitées. Nos résultats expérimentaux montrent que l'ICAE, appris selon notre paradigme de pré-entraînement et d'affinage proposé, peut efficacement produire des emplacements mémoire avec une compression de contexte de 4 fois, sur lesquels le LLM cible peut se conditionner pour répondre à divers prompts. Ces résultats prometteurs démontrent les implications significatives de l'ICAE pour son approche novatrice du problème de contexte long et son potentiel à réduire les surcharges de calcul et de mémoire pour l'inférence des LLM en pratique, suggérant des efforts de recherche supplémentaires dans la gestion de contexte pour un LLM. Notre code et nos données seront publiés prochainement.
Les grands modèles de langage (LLMs) démontrent une capacité remarquable à comprendre, raisonner et générer du texte en suivant des instructions en langage naturel. Cependant, le développement des LLMs s'est principalement concentré sur les langues à ressources abondantes, comme l'anglais, limitant ainsi leur applicabilité et la recherche dans d'autres langues. Par conséquent, nous présentons PolyLM, un LLM multilingue entraîné sur 640 milliards (B) de tokens, disponible en deux tailles de modèle : 1,7B et 13B. Pour renforcer ses capacités multilingues, nous 1) intégrons des données bilingues dans les données d'entraînement ; et 2) adoptons une stratégie d'apprentissage curriculaire qui augmente la proportion de données non anglophones de 30 % dans la première phase à 60 % dans la phase finale lors du pré-entraînement. De plus, nous proposons une méthode d'auto-instruction multilingue qui génère automatiquement 132,7K instructions multilingues diversifiées pour l'affinage du modèle. Pour évaluer les performances du modèle, nous collectons plusieurs tâches multilingues existantes, notamment la compréhension multilingue, la réponse aux questions, la génération de texte et la traduction. Des expériences approfondies montrent que PolyLM surpasse d'autres modèles open-source tels que LLaMA et BLOOM sur les tâches multilingues tout en maintenant des performances comparables en anglais. Nos modèles, ainsi que les données d'instruction et le benchmark multilingue, sont disponibles à l'adresse suivante : https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation.
Cet article présente InternVid, un ensemble de données multimodal à grande échelle centré sur la vidéo, qui permet d'apprendre des représentations vidéo-texte puissantes et transférables pour la compréhension et la génération multimodales. Le jeu de données InternVid contient plus de 7 millions de vidéos d'une durée totale de près de 760 000 heures, produisant 234 millions de clips vidéo accompagnés de descriptions détaillées totalisant 4,1 milliards de mots. Notre contribution principale consiste à développer une approche scalable pour construire de manière autonome un ensemble de données vidéo-texte de haute qualité à l'aide de modèles de langage de grande taille (LLM), démontrant ainsi son efficacité pour l'apprentissage de représentations vidéo-langage à grande échelle. Plus précisément, nous utilisons une approche multi-échelle pour générer des descriptions liées aux vidéos. Par ailleurs, nous introduisons ViCLIP, un modèle d'apprentissage de représentations vidéo-texte basé sur ViT-L. Entraîné sur InternVid via un apprentissage contrastif, ce modèle démontre des performances de pointe en reconnaissance d'actions en zero-shot et des résultats compétitifs en recherche de vidéos. Au-delà des tâches de base de compréhension vidéo telles que la reconnaissance et la recherche, notre jeu de données et notre modèle ont des applications étendues. Ils sont particulièrement bénéfiques pour générer des données entrelacées vidéo-texte afin d'apprendre un système de dialogue centré sur la vidéo, et pour faire progresser la recherche en génération vidéo-texte et texte-vidéo. Ces ressources proposées offrent un outil précieux pour les chercheurs et praticiens intéressés par la compréhension et la génération multimodales de vidéos.
Malgré la dominance et l'efficacité de la mise à l'échelle, qui aboutit à des réseaux de grande taille avec des centaines de milliards de paramètres, la nécessité d'entraîner des modèles surparamétrés reste mal comprise, et les approches alternatives ne rendent pas nécessairement moins coûteux l'entraînement de modèles à haute performance. Dans cet article, nous explorons des techniques d'entraînement à faible rang comme approche alternative pour entraîner de grands réseaux de neurones. Nous introduisons une nouvelle méthode appelée ReLoRA, qui utilise des mises à jour de faible rang pour entraîner des réseaux de haut rang. Nous appliquons ReLoRA à l'entraînement préalable de modèles de langage de type transformateur avec jusqu'à 350 millions de paramètres et démontrons des performances comparables à celles de l'entraînement classique des réseaux de neurones. De plus, nous observons que l'efficacité de ReLoRA augmente avec la taille du modèle, en faisant une approche prometteuse pour entraîner efficacement des réseaux de plusieurs milliards de paramètres. Nos résultats mettent en lumière le potentiel des techniques d'entraînement à faible rang et leurs implications pour les lois de mise à l'échelle.
Les grands modèles de langage (LLMs) ont démontré des résultats impressionnants dans le développement d'agents de planification généralistes pour des tâches variées. Cependant, l'ancrage de ces plans dans des environnements vastes, multi-étages et multi-pièces représente un défi majeur pour la robotique. Nous présentons SayPlan, une approche évolutive de planification de tâches à grande échelle basée sur les LLMs pour la robotique, utilisant des représentations de graphes de scène 3D (3DSG). Pour assurer l'évolutivité de notre approche, nous : (1) exploitons la nature hiérarchique des 3DSG pour permettre aux LLMs de mener une recherche sémantique de sous-graphes pertinents pour la tâche à partir d'une représentation réduite et simplifiée du graphe complet ; (2) réduisons l'horizon de planification pour le LLM en intégrant un planificateur de trajectoire classique ; et (3) introduisons un pipeline de replanification itérative qui affine le plan initial en utilisant les retours d'un simulateur de graphe de scène, corrigeant les actions irréalisables et évitant les échecs de planification. Nous évaluons notre approche sur deux environnements à grande échelle couvrant jusqu'à 3 étages, 36 pièces et 140 objets, et montrons que notre méthode est capable d'ancrer des plans de tâches à grande échelle et à long horizon à partir d'instructions abstraites et en langage naturel pour un robot manipulateur mobile à exécuter.
Les grands modèles de langage (LLMs), tels que GPT-4, ont démontré des capacités remarquables dans un large éventail de tâches, y compris les applications de santé. Dans cet article, nous étudions comment les LLMs peuvent être utilisés pour intensifier la curation des connaissances biomédicales. Nous constatons que si les LLMs possèdent déjà une compétence décente dans la structuration des textes biomédicaux, une distillation dans un modèle étudiant spécifique à la tâche par apprentissage auto-supervisé permet d'obtenir des gains substantiels par rapport aux LLMs prêts à l'emploi, avec des avantages supplémentaires tels que le coût, l'efficacité et l'accès à un modèle explicable. Nous menons une étude de cas sur l'extraction d'effets indésirables des médicaments (ADE), un domaine important pour l'amélioration des soins. Sur une évaluation standard d'extraction d'ADE, un modèle PubMedBERT distillé à partir de GPT-3.5 a atteint une précision comparable aux modèles supervisés de pointe sans utiliser aucune donnée étiquetée. Bien qu'il soit plus de 1 000 fois plus petit, le modèle distillé a surpassé son enseignant GPT-3.5 de plus de 6 points absolus en F1 et GPT-4 de plus de 5 points absolus. Des études d'ablation sur le choix du modèle de distillation (par exemple, PubMedBERT vs BioGPT) et l'architecture d'extraction d'ADE éclairent les meilleures pratiques pour l'extraction des connaissances biomédicales. Des gains similaires ont été obtenus par distillation pour d'autres tâches standard d'extraction de connaissances biomédicales, telles que les associations gène-maladie et les informations de santé protégées, illustrant davantage le potentiel de cette approche.
Les grands modèles de langage subissent généralement deux étapes d'entraînement : le pré-entraînement et le réglage fin. Bien que le pré-entraînement à grande échelle confère au modèle de solides capacités à générer des réponses en langage naturel, ces modèles pré-entraînés peuvent encore échouer à comprendre les instructions humaines dans certains cas. Pour améliorer la capacité des modèles de langage à interpréter et à répondre aux instructions, le réglage fin sur instructions est apparu comme une méthode cruciale dans ce domaine. Des études récentes ont montré que les grands modèles de langage peuvent être réglés pour bien performer même avec une petite quantité de données de haute qualité pour le suivi d'instructions. Cependant, la sélection de jeux de données de haute qualité pour le réglage fin des modèles de langage manque encore de lignes directrices claires à suivre. Dans cet article, nous proposons InstructMining, une règle linéaire pour évaluer la qualité des données de suivi d'instructions. Nous formulons InstructMining en utilisant des indicateurs spécifiques en langage naturel. Pour étudier la relation entre la qualité des données et ces indicateurs, nous menons en outre des expériences approfondies de réglage fin. Les résultats des expériences sont ensuite appliqués à l'estimation des paramètres dans InstructMining. Pour approfondir l'analyse de ses performances, nous utilisons InstructMining pour sélectionner des données de haute qualité à partir de jeux de données inédits. Les résultats démontrent qu'InstructMining peut aider à sélectionner des échantillons relativement de haute qualité parmi divers jeux de données de suivi d'instructions. Par rapport aux modèles réglés sur des jeux de données non filtrés, les modèles réglés sur des jeux de données sélectionnés par InstructMining performent mieux dans 42,5 % des cas.
Le succès de la série GPT démontre que GPT peut extraire des informations générales à partir de séquences, bénéficiant ainsi à toutes les tâches en aval. Cela nous motive à utiliser des modèles pré-entraînés pour explorer les informations cachées dans les séquences d'ADN. Cependant, les exigences en matière de données et de tâches dans l'analyse des séquences d'ADN sont complexes et diversifiées, car les données relatives à l'ADN incluent différents types d'informations, telles que les séquences, les niveaux d'expression, etc., alors qu'il n'existe actuellement aucun modèle spécifiquement conçu pour ces caractéristiques. Nous présentons ici DNAGPT, un modèle de fondation généralisé pré-entraîné sur plus de 10 milliards de paires de bases provenant de 9 espèces, qui peut être affiné pour toute tâche d'analyse de séquences d'ADN. Notre modèle peut simultanément traiter ou produire des séquences d'ADN et des nombres. De plus, notre conception unique de tokens permet aux utilisateurs de concevoir des prompts selon leurs propres exigences de tâche, le rendant applicable à tout type de tâche. Nous avons évalué notre modèle sur des tâches de classification, de régression et de génération. Nous démontrons que DNAGPT bénéficie du pré-entraînement et peut ainsi apporter des gains de performance à toute tâche en aval. Notre modèle constitue non seulement une nouvelle tentative dans le domaine de l'analyse des génomes, mais offre également une nouvelle direction pour l'application des modèles de fondation en biologie.
Avant de déployer un modèle de langage (LM) dans un domaine donné, il est important de mesurer sa tendance à générer des informations factuellement incorrectes dans ce domaine. Les méthodes d'évaluation existantes de la génération factuelle se concentrent sur des faits échantillonnés à partir du LM lui-même, et ne contrôlent donc pas l'ensemble des faits évalués, ce qui peut sous-représenter les faits rares et improbables. Nous proposons FACTOR : Factual Assessment via Corpus TransfORmation, une approche scalable pour évaluer la factualité des LM. FACTOR transforme automatiquement un corpus factuel d'intérêt en un benchmark évaluant la propension d'un LM à générer des faits véridiques issus du corpus par rapport à des déclarations similaires mais incorrectes. Nous utilisons notre cadre pour créer deux benchmarks : Wiki-FACTOR et News-FACTOR. Nous montrons que : (i) les scores de notre benchmark augmentent avec la taille du modèle et s'améliorent lorsque le LM est augmenté par un mécanisme de recherche ; (ii) le score du benchmark est corrélé à la perplexité, mais les deux métriques ne concordent pas toujours sur le classement des modèles ; et (iii) lorsque la perplexité et le score du benchmark divergent, ce dernier reflète mieux la factualité dans la génération ouverte, telle que mesurée par des annotateurs humains. Nous mettons à disposition nos données et notre code sur https://github.com/AI21Labs/factor.
Malgré la capacité impressionnante des modèles récents de génération d'images à partir de texte à produire des images de haute qualité, les approches actuelles peinent souvent à composer efficacement des objets avec différents attributs et relations dans une scène complexe et cohérente. Nous proposons T2I-CompBench, un benchmark complet pour la génération compositionnelle d'images à partir de texte en monde ouvert, comprenant 6 000 prompts textuels compositionnels répartis en 3 catégories (liaison d'attributs, relations entre objets et compositions complexes) et 6 sous-catégories (liaison de couleur, liaison de forme, liaison de texture, relations spatiales, relations non spatiales et compositions complexes). Nous proposons également plusieurs métriques d'évaluation spécifiquement conçues pour évaluer la génération compositionnelle d'images à partir de texte. Nous introduisons une nouvelle approche, le fine-tuning de modèle génératif avec sélection d'échantillons pilotée par récompense (GORS), pour améliorer les capacités de génération compositionnelle des modèles pré-entraînés de génération d'images à partir de texte. Des expériences et évaluations approfondies sont menées pour comparer les méthodes précédentes sur T2I-CompBench et valider l'efficacité de nos métriques d'évaluation proposées ainsi que de l'approche GORS. La page du projet est disponible à l'adresse suivante : https://karine-h.github.io/T2I-CompBench/.
La compréhension textuelle et sémantique des images est essentielle pour générer des légendes appropriées. Cette compréhension nécessite la détection d'objets, la modélisation des relations entre eux, une évaluation de la sémantique de la scène et, enfin, la représentation des connaissances extraites dans un espace linguistique. Pour atteindre des capacités linguistiques riches tout en assurant de bonnes correspondances entre image et langage, des modèles de langage (LMs) pré-entraînés ont été conditionnés sur des modèles multimodaux (image-texte) pré-entraînés qui permettent des entrées d'images. Cela nécessite un alignement de la représentation d'image du modèle multimodal avec les représentations linguistiques d'un LM génératif. Cependant, il n'est pas clair comment transférer au mieux la sémantique détectée par l'encodeur visuel du modèle multimodal vers le LM. Nous introduisons deux nouvelles façons de construire une cartographie linéaire qui transfère avec succès la sémantique entre les espaces d'embedding des deux modèles pré-entraînés. La première aligne l'espace d'embedding de l'encodeur de langage multimodal avec l'espace d'embedding du LM pré-entraîné via des correspondances de tokens. La seconde exploite des données supplémentaires composées de paires image-texte pour construire la cartographie directement de l'espace visuel à l'espace linguistique. En utilisant nos cartographies sémantiques, nous débloquons la génération de légendes d'images pour les LMs sans accès aux informations de gradient. En utilisant différentes sources de données, nous obtenons de solides performances en légendage sur les ensembles de données MS-COCO et Flickr30k. Même face à des données limitées, notre méthode dépasse en partie les performances d'autres concurrents en zero-shot et même finetunés. Nos études d'ablation montrent que même des LMs à l'échelle de seulement 250M paramètres peuvent générer des légendes décentes en employant nos cartographies sémantiques. Notre approche rend la génération de légendes d'images plus accessible pour les institutions disposant de ressources computationnelles limitées.
Alors que le domaine d'application des modèles de langage continue d'évoluer, une question naturelle se pose : comment pouvons-nous adapter rapidement ces modèles à de nouvelles tâches ? Nous abordons cette question classique sous l'angle de l'apprentissage continu, où l'objectif est de poursuivre le fine-tuning de modèles entraînés sur des tâches passées pour les nouvelles tâches, dans le but de "transférer" les connaissances pertinentes. Cependant, cette stratégie comporte également le risque de faire plus de mal que de bien, c'est-à-dire un transfert négatif. Dans cet article, nous construisons un nouveau benchmark de séquences de tâches visant à cibler différents scénarios de transfert possibles, tels qu'une séquence de tâches avec un fort potentiel de transfert positif, un fort potentiel de transfert négatif, aucun effet attendu, ou un mélange de chacun. Un apprenant idéal devrait être capable d'exploiter au maximum les informations provenant de toutes les tâches ayant un potentiel de transfert positif, tout en évitant les effets négatifs des tâches distrayantes qui pourraient le perturber. Nous proposons ensuite un apprenant simple mais efficace qui répond à bon nombre de nos desiderata en utilisant simplement une stratégie sélective pour initialiser de nouveaux modèles à partir de points de contrôle de tâches passées. Néanmoins, des limites subsistent, et nous espérons que ce benchmark pourra aider la communauté à construire et analyser davantage de tels apprenants.
Les grands modèles de langage (LLMs) se sont révélés posséder une richesse de connaissances exploitables qui peuvent être extraites pour la manipulation robotique sous forme de raisonnement et de planification. Malgré les progrès réalisés, la plupart reposent encore sur des primitives de mouvement prédéfinies pour effectuer les interactions physiques avec l'environnement, ce qui reste un goulot d'étranglement majeur. Dans ce travail, nous visons à synthétiser des trajectoires robotiques, c'est-à-dire une séquence dense de points de passage à 6 degrés de liberté pour l'effecteur terminal, pour une grande variété de tâches de manipulation, étant donné un ensemble ouvert d'instructions et un ensemble ouvert d'objets. Nous y parvenons en observant d'abord que les LLMs excellent à inférer les affordances et les contraintes à partir d'une instruction en langage naturel libre. Plus important encore, en exploitant leurs capacités d'écriture de code, ils peuvent interagir avec un modèle visio-linguistique (VLM) pour composer des cartes de valeurs 3D afin d'ancrer ces connaissances dans l'espace d'observation de l'agent. Les cartes de valeurs composées sont ensuite utilisées dans un cadre de planification basé sur un modèle pour synthétiser en zero-shot des trajectoires robotiques en boucle fermée, robustes aux perturbations dynamiques. Nous démontrons en outre comment le cadre proposé peut bénéficier d'expériences en ligne en apprenant efficacement un modèle de dynamique pour des scènes impliquant des interactions riches en contacts. Nous présentons une étude à grande échelle de la méthode proposée dans des environnements simulés et avec des robots réels, mettant en évidence la capacité à exécuter une grande variété de tâches de manipulation quotidiennes spécifiées en langage naturel libre. Site du projet : https://voxposer.github.io
Les caméras embarquées sur le bras robotique (eye-in-hand) ont montré leur potentiel pour améliorer l'efficacité des échantillons et la généralisation dans la manipulation robotique basée sur la vision. Cependant, pour l'imitation robotique, il reste coûteux de faire collecter par un opérateur humain de grandes quantités de démonstrations expertes avec un robot réel. Les vidéos d'humains exécutant des tâches, en revanche, sont beaucoup moins coûteuses à collecter, car elles éliminent le besoin d'expertise en téléopération robotique et peuvent être rapidement capturées dans une large gamme de scénarios. Par conséquent, les démonstrations vidéo humaines constituent une source de données prometteuse pour apprendre des politiques de manipulation robotique généralisables à grande échelle. Dans ce travail, nous enrichissons des ensembles de données étroits d'imitation robotique avec des démonstrations vidéo humaines non étiquetées et variées, afin d'améliorer considérablement la généralisation des politiques visuomotrices des caméras embarquées. Bien qu'un écart de domaine visuel évident existe entre les données humaines et robotiques, notre cadre ne nécessite aucune méthode explicite d'adaptation de domaine, car nous exploitons l'observabilité partielle des caméras embarquées ainsi qu'un simple masquage d'image fixe. Sur une série de huit tâches réelles impliquant le contrôle de bras robotiques à 3 et 6 degrés de liberté, notre méthode améliore les taux de réussite des politiques de manipulation des caméras embarquées de 58 % (en valeur absolue) en moyenne, permettant aux robots de généraliser à la fois à de nouvelles configurations d'environnement et à de nouvelles tâches qui ne sont pas présentes dans les données de démonstration robotique. Consultez les résultats vidéo sur https://giving-robots-a-hand.github.io/.