Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous proposons LENS, une approche modulaire pour résoudre les problèmes de vision par ordinateur en exploitant la puissance des grands modèles de langage (LLM). Notre système utilise un modèle de langage pour raisonner sur les sorties d'un ensemble de modules visuels indépendants et hautement descriptifs qui fournissent des informations exhaustives sur une image. Nous évaluons cette approche dans des contextes purs de vision par ordinateur, tels que la reconnaissance d'objets en zero-shot et few-shot, ainsi que sur des problèmes combinant vision et langage. LENS peut être appliqué à n'importe quel LLM prêt à l'emploi, et nous constatons que les LLMs équipés de LENS rivalisent de manière très compétitive avec des systèmes beaucoup plus volumineux et sophistiqués, sans aucun entraînement multimodal. Nous mettons notre code en open-source à l'adresse https://github.com/ContextualAI/lens et fournissons une démonstration interactive.
L'intelligence artificielle générative et les grands modèles de langage offrent un potentiel considérable pour améliorer l'enseignement de l'informatique en alimentant les technologies éducatives de nouvelle génération pour la programmation introductive. Des travaux récents ont étudié ces modèles dans différents scénarios pertinents pour l'enseignement de la programmation ; cependant, ces études sont limitées pour plusieurs raisons, car elles considèrent généralement des modèles déjà obsolètes ou se concentrent uniquement sur des scénarios spécifiques. Par conséquent, il manque une étude systématique qui évalue les modèles de pointe pour un ensemble complet de scénarios d'enseignement de la programmation. Dans notre travail, nous évaluons systématiquement deux modèles, ChatGPT (basé sur GPT-3.5) et GPT-4, et comparons leurs performances à celles de tuteurs humains pour une variété de scénarios. Nous évaluons ces modèles à l'aide de cinq problèmes de programmation Python introductifs et de programmes bogués issus d'une plateforme en ligne, et nous mesurons les performances à l'aide d'annotations expertes. Nos résultats montrent que GPT-4 surpasse largement ChatGPT (basé sur GPT-3.5) et se rapproche des performances des tuteurs humains pour plusieurs scénarios. Ces résultats mettent également en lumière les situations où GPT-4 rencontre encore des difficultés, ouvrant des perspectives passionnantes pour le développement de techniques visant à améliorer les performances de ces modèles.
Les séquences génomiques (ADN) encodent une quantité considérable d'informations pour la régulation des gènes et la synthèse des protéines. À l'instar des modèles de langage naturel, les chercheurs ont proposé des modèles de fondation en génomique pour apprendre des caractéristiques généralisables à partir de données génomiques non annotées, qui peuvent ensuite être affinées pour des tâches en aval telles que l'identification d'éléments régulateurs. En raison de la complexité quadratique de l'attention, les modèles génomiques basés sur les Transformers précédents ont utilisé des contextes de 512 à 4 000 tokens (<0,001 % du génome humain), limitant considérablement la modélisation des interactions à longue portée dans l'ADN. De plus, ces méthodes s'appuient sur des tokenizers pour agréger des unités d'ADN significatives, perdant ainsi la résolution au niveau du nucléotide unique, où des variations génétiques subtiles peuvent complètement altérer la fonction des protéines via des polymorphismes mononucléotidiques (SNPs). Récemment, Hyena, un modèle de langage massif basé sur des convolutions implicites, a démontré une qualité équivalente à l'attention tout en permettant des contextes plus longs et une complexité temporelle réduite. En exploitant les nouvelles capacités de longue portée de Hyena, nous présentons HyenaDNA, un modèle de fondation génomique pré-entraîné sur le génome de référence humain avec des contextes allant jusqu'à 1 million de tokens au niveau du nucléotide unique, soit une augmentation jusqu'à 500 fois par rapport aux modèles denses basés sur l'attention précédents. HyenaDNA évolue de manière sous-quadratique avec la longueur de la séquence (s'entraînant jusqu'à 160 fois plus vite qu'un Transformer), utilise des tokens au niveau du nucléotide unique et dispose d'un contexte global complet à chaque couche. Nous explorons ce que des contextes plus longs permettent, y compris la première utilisation de l'apprentissage en contexte en génomique pour une adaptation simple à de nouvelles tâches sans mise à jour des poids du modèle pré-entraîné. Sur les benchmarks affinés du Nucleotide Transformer, HyenaDNA atteint l'état de l'art (SotA) sur 12 des 17 ensembles de données en utilisant un modèle avec des ordres de grandeur moins de paramètres et de données de pré-entraînement. Sur les GenomicBenchmarks, HyenaDNA surpasse le SotA sur les 8 ensembles de données en moyenne de +9 points de précision.
Le réglage par instruction débloque la capacité supérieure des modèles de langage de grande taille (LLM) à interagir avec les humains. De plus, les ensembles de données récents de suivi d'instructions incluent des images comme entrées visuelles, collectant des réponses pour des instructions basées sur des images. Cependant, les modèles réglés par instruction visuelle ne parviennent pas à bien comprendre les détails textuels dans les images. Ce travail améliore le pipeline actuel de réglage par instruction visuelle avec des images riches en texte (par exemple, des affiches de films, des couvertures de livres, etc.). Plus précisément, nous utilisons d'abord des outils OCR disponibles publiquement pour collecter des résultats sur 422K images riches en texte provenant de l'ensemble de données LAION. De plus, nous incitons GPT-4, uniquement textuel, avec les textes reconnus et les légendes d'images pour générer 16K conversations, chacune contenant des paires question-réponse pour des images riches en texte. En combinant nos données collectées avec les précédentes données de suivi d'instructions multimodales, notre modèle, LLaVAR, améliore considérablement la capacité du modèle LLaVA sur les ensembles de données VQA basés sur le texte (jusqu'à 20% d'amélioration de la précision) tout en atteignant une précision de 91,42% sur ScienceQA. L'évaluation de suivi d'instructions basée sur GPT-4 démontre également l'amélioration de notre modèle sur les images naturelles et les images riches en texte. Grâce à une analyse qualitative, LLaVAR montre des compétences prometteuses d'interaction (par exemple, raisonnement, écriture et élaboration) avec les humains basées sur le dernier contenu en ligne réel qui combine texte et images. Nous rendons notre code/données/modèles disponibles publiquement à l'adresse https://llavar.github.io/.
Les grands modèles de langage (LLM) pourraient ne pas représenter équitablement les perspectives mondiales diverses sur les enjeux sociétaux. Dans cet article, nous développons un cadre quantitatif pour évaluer à quelles opinions les réponses générées par les modèles se rapprochent le plus. Nous commençons par construire un ensemble de données, GlobalOpinionQA, composé de questions et de réponses issues d'enquêtes transnationales conçues pour capturer des opinions variées sur des questions mondiales dans différents pays. Ensuite, nous définissons une métrique qui quantifie la similarité entre les réponses d'enquête générées par les LLM et les réponses humaines, en fonction du pays. Avec notre cadre, nous menons trois expériences sur un LLM entraîné à être utile, honnête et inoffensif grâce à l'IA Constitutionnelle. Par défaut, les réponses des LLM tendent à être plus similaires aux opinions de certaines populations, comme celles des États-Unis, et de certains pays européens et sud-américains, mettant en lumière des biais potentiels. Lorsque nous incitons le modèle à considérer la perspective d'un pays particulier, les réponses se rapprochent davantage des opinions des populations ciblées, mais peuvent refléter des stéréotypes culturels nuisibles. Lorsque nous traduisons les questions de GlobalOpinionQA dans une langue cible, les réponses du modèle ne deviennent pas nécessairement les plus similaires aux opinions des locuteurs de ces langues. Nous publions notre ensemble de données pour que d'autres puissent l'utiliser et le développer. Nos données sont disponibles à l'adresse https://huggingface.co/datasets/Anthropic/llm_global_opinions. Nous fournissons également une visualisation interactive à l'adresse https://llmglobalvalues.anthropic.com.
Les modèles de diffusion débruiteurs ont récemment démontré des résultats impressionnants dans les tâches génératives. En apprenant des a priori puissants à partir de vastes collections d'images d'entraînement, ces modèles sont capables de transformer progressivement un bruit complet en une image naturelle propre via une séquence de petites étapes de débruitage, ce qui semble les rendre bien adaptés au débruitage d'images uniques. Cependant, appliquer efficacement les modèles de diffusion débruiteurs à l'élimination de bruit réaliste est plus complexe qu'il n'y paraît, car leur formulation repose sur un bruit blanc gaussien additif, contrairement au bruit présent dans les images du monde réel. Dans ce travail, nous présentons SVNR, une nouvelle formulation de diffusion débruiteuse qui suppose un modèle de bruit plus réaliste et spatialement variant. SVNR permet d'utiliser l'image bruitée en entrée comme point de départ du processus de diffusion débruiteuse, en plus de conditionner le processus sur celle-ci. À cette fin, nous adaptons le processus de diffusion pour permettre à chaque pixel d'avoir son propre embedding temporel, et proposons des schémas d'entraînement et d'inférence qui prennent en charge des cartes temporelles spatialement variables. Notre formulation tient également compte de la corrélation existante entre l'image de condition et les échantillons le long du processus de diffusion modifié. Dans nos expériences, nous démontrons les avantages de notre approche par rapport à un modèle de diffusion de référence, ainsi qu'à une méthode de débruitage d'images uniques de pointe.
La capacité à détecter et analyser automatiquement les exécutions défaillantes est cruciale pour un système robotique explicable et robuste. Récemment, les modèles de langage de grande taille (LLM) ont démontré de solides compétences en raisonnement de bon sens sur des entrées textuelles. Pour exploiter la puissance des LLM dans l'explication des défaillances robotiques, nous proposons un cadre appelé REFLECT, qui convertit des données multi-sensorielles en un résumé hiérarchique des expériences passées du robot et interroge le LLM avec un algorithme progressif d'explication des défaillances. Sur la base de cette explication, un planificateur de correction des défaillances génère un plan exécutable permettant au robot de corriger l'erreur et d'accomplir la tâche. Pour évaluer systématiquement ce cadre, nous créons le jeu de données RoboFail et montrons que notre cadre basé sur les LLM est capable de générer des explications de défaillances informatives qui facilitent la planification réussie des corrections. Site web du projet : https://roboreflect.github.io/
Les grands modèles de langage (LLMs) ont démontré des capacités remarquables dès leur utilisation pour un large éventail d'applications, mais la précision reste un domaine majeur d'amélioration, en particulier dans des domaines critiques comme la biomédecine. Une méthode efficace pour calibrer le niveau de confiance des réponses des LLMs est essentielle pour détecter automatiquement les erreurs et faciliter la vérification humaine en boucle. Une source importante de signaux de calibration provient de la supervision programmatique définie par des experts, souvent disponible à faible coût mais ayant ses propres limites, telles que le bruit et la couverture. Dans cet article, nous introduisons un cadre d'auto-supervision Pareto optimal qui peut exploiter la supervision programmatique disponible pour calibrer systématiquement les réponses des LLMs en produisant un score de risque pour chaque réponse, sans aucun effort manuel supplémentaire. Cela est accompli en apprenant un modèle harmonisateur pour aligner la sortie des LLMs avec d'autres sources de supervision disponibles, qui attribuerait des scores de risque plus élevés aux réponses des LLMs les plus incertaines et faciliterait la correction des erreurs. Les expériences sur des tâches standard d'extraction de relations dans les domaines biomédicaux et généraux démontrent le potentiel de cette approche, avec nos scores de risque proposés fortement corrélés au taux d'erreur réel des LLMs. Pour les instances de test les plus incertaines, l'incitation dynamique basée sur nos scores de risque proposés entraîne une amélioration significative de la précision pour les LLMs prêts à l'emploi, dépassant les résultats de GPT-3 par rapport à l'état de l'art (SOTA) en supervision faible et les résultats de GPT-4 par rapport à l'état de l'art en supervision sur des ensembles de données d'évaluation difficiles.
Les systèmes récents de reconnaissance automatique de la parole (ASR) de bout en bout utilisent souvent un encodeur acoustique basé sur le Transformer qui génère des embeddings à un taux de trames élevé. Cependant, cette conception est inefficace, en particulier pour les signaux vocaux longs, en raison du calcul quadratique de l'auto-attention. Pour remédier à cela, nous proposons une nouvelle méthode, le Adjacent Token Merging (A-ToMe), qui combine progressivement les tokens adjacents présentant des scores de similarité élevés entre leurs valeurs clés. De cette manière, le nombre total d'étapes temporelles peut être réduit, et l'inférence à la fois de l'encodeur et du réseau joint est accélérée. Les expériences sur LibriSpeech montrent que notre méthode peut réduire de 57 % le nombre de tokens et améliorer la vitesse d'inférence sur GPU de 70 % sans perte notable de précision. De plus, nous démontrons qu'A-ToMe est également une solution efficace pour réduire les tokens dans l'ASR de long format, où la parole d'entrée est composée de multiples énoncés.