Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Florence-2, un nouveau modèle de base visuel doté d’une représentation unifiée basée sur des prompts pour une variété de tâches en vision par ordinateur et en vision-langage. Alors que les grands modèles visuels existants excellent dans l’apprentissage par transfert, ils peinent à réaliser une diversité de tâches avec des instructions simples, une capacité qui implique de gérer la complexité de diverses hiérarchies spatiales et granularités sémantiques. Florence-2 a été conçu pour prendre un texte-prompt comme instruction de tâche et générer des résultats souhaitables sous forme textuelle, qu’il s’agisse de légendage, de détection d’objets, de localisation ou de segmentation. Cette configuration d’apprentissage multi-tâches nécessite des données annotées à grande échelle et de haute qualité. À cette fin, nous avons co-développé FLD-5B, qui comprend 5,4 milliards d’annotations visuelles complètes sur 126 millions d’images, en utilisant une stratégie itérative d’annotation automatique d’images et de raffinement du modèle. Nous avons adopté une structure séquence-à-séquence pour entraîner Florence-2 à effectuer des tâches visuelles polyvalentes et complètes. Des évaluations approfondies sur de nombreuses tâches ont démontré que Florence-2 est un concurrent sérieux en tant que modèle de base visuel, doté de capacités inédites en zero-shot et en fine-tuning.
Atteindre une planification et un contrôle semblables à ceux des humains avec des observations multimodales dans un monde ouvert constitue une étape clé pour des agents généralistes plus fonctionnels. Les approches existantes peuvent gérer certaines tâches à long terme dans un monde ouvert. Cependant, elles rencontrent encore des difficultés lorsque le nombre de tâches dans un monde ouvert pourrait potentiellement être infini et manquent de la capacité à améliorer progressivement l’accomplissement des tâches à mesure que le temps de jeu avance. Nous présentons JARVIS-1, un agent de monde ouvert capable de percevoir des entrées multimodales (observations visuelles et instructions humaines), de générer des plans sophistiqués et d’effectuer un contrôle incarné, le tout dans l’univers ouvert et complexe de Minecraft. Plus précisément, nous développons JARVIS-1 à partir de modèles de langage multimodaux pré-entraînés, qui associent les observations visuelles et les instructions textuelles à des plans. Ces plans seront ensuite transmis à des contrôleurs conditionnés par des objectifs. Nous équipons JARVIS-1 d’une mémoire multimodale, qui facilite la planification en utilisant à la fois des connaissances pré-entraînées et ses expériences réelles de survie dans le jeu. Dans nos expériences, JARVIS-1 démontre des performances quasi parfaites sur plus de 200 tâches variées du Minecraft Universe Benchmark, allant du niveau débutant à intermédiaire. JARVIS-1 a atteint un taux de réussite de 12,5 % dans la tâche à long terme de fabrication d’une pioche en diamant. Cela représente une augmentation significative, jusqu’à 5 fois par rapport aux records précédents. De plus, nous montrons que JARVIS-1 est capable de s’auto-améliorer grâce à un paradigme d’apprentissage continu, favorisé par la mémoire multimodale, ce qui stimule une intelligence plus générale et une autonomie accrue. La page du projet est disponible à l’adresse suivante : https://craftjarvis-jarvis1.github.io.
La génération de modèles 3D à partir de texte avec des modèles de diffusion a connu des progrès remarquables ces dernières années. Cependant, les méthodes existantes reposent soit sur une optimisation basée sur la distillation de scores, qui souffre d'une inférence lente, d'une faible diversité et de problèmes de Janus, soit sur des méthodes en flux direct qui produisent des résultats de faible qualité en raison de la rareté des données d'entraînement 3D. Dans cet article, nous proposons Instant3D, une nouvelle méthode qui génère des actifs 3D de haute qualité et diversifiés à partir de prompts textuels de manière en flux direct. Nous adoptons un paradigme en deux étapes : d'abord, nous générons un ensemble épars de quatre vues structurées et cohérentes à partir du texte en une seule étape avec un modèle de diffusion texte-à-image affiné, puis nous régressons directement le NeRF à partir des images générées avec un reconstructeur basé sur un transformateur pour les vues éparses. À travers des expériences approfondies, nous démontrons que notre méthode peut générer des actifs 3D de haute qualité, diversifiés et exempts de problèmes de Janus en moins de 20 secondes, ce qui est deux ordres de grandeur plus rapide que les méthodes basées sur l'optimisation précédentes qui peuvent prendre de 1 à 10 heures. Notre page web de projet : https://jiahao.ai/instant3d/.
Nous présentons Lumos, un nouveau cadre pour l'entraînement d'agents linguistiques qui utilise un format de données unifié et une architecture modulaire basée sur des modèles de langage de grande taille (LLMs) open-source. Lumos se compose de trois modules distincts : planification, ancrage et exécution. Le module de planification décompose une tâche en une série de sous-objectifs de haut niveau, indépendants des outils, qui sont ensuite rendus spécifiques par le module d'ancrage via un ensemble d'actions de bas niveau. Ces actions sont ensuite exécutées par le module d'exécution, en utilisant une gamme d'outils et d'API prêts à l'emploi. Pour entraîner efficacement ces modules, des annotations de haute qualité des sous-objectifs et des actions ont été collectées et sont mises à disposition pour le fine-tuning de LLMs open-source pour diverses tâches telles que la réponse à des questions complexes, les tâches web et les problèmes mathématiques. En tirant parti de ces données unifiées et de cette conception modulaire, Lumos non seulement atteint des performances comparables ou supérieures à celles des agents actuels de pointe, mais présente également plusieurs avantages clés : (1) Lumos surpasse les agents basés sur GPT-4/3.5 dans les tâches de réponse à des questions complexes et les tâches web, tout en égalant les performances d'agents LLM significativement plus grands sur les tâches mathématiques ; (2) Lumos surpasse les agents open-source créés via des méthodes d'entraînement conventionnelles et ceux utilisant l'entraînement en chaîne de pensées ; et (3) Lumos est capable de généraliser efficacement à des tâches interactives non vues, surpassant les agents basés sur des LLM plus grands et dépassant même les performances d'agents spécialisés.
Les grands modèles de langage (LLM) excellent dans de nombreuses tâches en TAL et au-delà, mais la plupart des modèles ouverts ont une couverture très limitée des langues minoritaires, et les travaux sur les LLM tendent à se concentrer sur les langues pour lesquelles des données quasi illimitées sont disponibles pour le pré-entraînement. Dans ce travail, nous étudions les défis liés à la création de LLM pour le finnois, une langue parlée par moins de 0,1 % de la population mondiale. Nous compilons un vaste ensemble de données en finnois combinant des extractions web, des articles de presse, des médias sociaux et des livres électroniques. Nous explorons deux approches pour le pré-entraînement des modèles : 1) nous entraînons sept modèles monolingues à partir de zéro (de 186M à 13B paramètres), baptisés FinGPT, 2) nous poursuivons le pré-entraînement du modèle multilingue BLOOM sur un mélange de ses données d'entraînement originales et de données en finnois, aboutissant à un modèle de 176 milliards de paramètres que nous appelons BLUUMI. Pour l'évaluation des modèles, nous introduisons FIN-bench, une version de BIG-bench avec des tâches en finnois. Nous évaluons également d'autres qualités des modèles, telles que la toxicité et les biais. Nos modèles et outils sont librement disponibles à l'adresse https://turkunlp.org/gpt3-finnish.
L'ingénierie de prompts est une tâche complexe mais cruciale pour optimiser les performances des grands modèles de langage (LLMs). Elle nécessite un raisonnement approfondi pour analyser les erreurs du modèle, formuler des hypothèses sur ce qui manque ou induit en erreur dans le prompt actuel, et communiquer la tâche avec clarté. Bien que des travaux récents suggèrent que les LLMs peuvent être méta-promptés pour réaliser de l'ingénierie de prompts automatique, leur potentiel pourrait ne pas être pleinement exploité en raison d'un manque de guidance suffisante pour susciter des capacités de raisonnement complexe dans les méta-prompts. Dans ce travail, nous étudions le problème de "l'ingénierie de prompts pour un ingénieur de prompts" — la construction d'un méta-prompt qui guide plus efficacement les LLMs à réaliser de l'ingénierie de prompts automatique. Nous introduisons et analysons des composants clés, tels qu'un modèle de raisonnement étape par étape et une spécification de contexte, qui améliorent les performances. De plus, inspirés par des concepts d'optimisation courants comme la taille de lot, la taille de pas et la quantité de mouvement, nous introduisons leurs équivalents verbalisés dans le méta-prompt et étudions leurs effets. Notre méthode finale, nommée PE2, trouve un prompt qui surpasse "réfléchissons étape par étape" de 6,3 % sur le jeu de données MultiArith et de 3,1 % sur le jeu de données GSM8K. Pour démontrer sa polyvalence, nous appliquons PE2 au benchmark Instruction Induction, à un ensemble de tâches contrefactuelles et à un long prompt industriel réel. Dans ces contextes, PE2 obtient des performances solides et surpasse les bases antérieures d'ingénierie de prompts automatique. En outre, nous montrons que PE2 effectue des modifications de prompts ciblées et significatives, corrige des prompts erronés ou incomplets, et présente des capacités de raisonnement contrefactuel non triviales.
Le raisonnement logique est un aspect fondamental de l'intelligence humaine et un élément clé des tâches telles que la résolution de problèmes et la prise de décision. Les avancées récentes ont permis aux modèles de langage de grande taille (LLMs) de potentiellement manifester des capacités de raisonnement, mais le raisonnement logique complexe reste un défi. L'état de l'art, les modèles de langage augmentés par des solveurs, utilisent les LLMs pour analyser les questions logiques en langage naturel en représentations symboliques, puis adoptent des solveurs logiques externes pour traiter ces représentations symboliques et produire les réponses. Malgré leurs performances impressionnantes, toute erreur d'analyse entraînera inévitablement l'échec de l'exécution du solveur logique externe et l'absence de réponse aux questions logiques. Dans cet article, nous présentons LoGiPT, un nouveau modèle de langage qui imite directement les processus de raisonnement des solveurs logiques et contourne les erreurs d'analyse en apprenant à adhérer strictement à la syntaxe et à la grammaire des solveurs. LoGiPT est affiné sur un nouvel ensemble de données d'ajustement d'instructions, construit à partir de la révélation et du raffinement du processus de raisonnement invisible des solveurs déductifs. Les résultats expérimentaux sur deux ensembles de données publics de raisonnement déductif démontrent que LoGiPT surpasse les modèles de langage augmentés par des solveurs de pointe et les méthodes de prompting en few-shot sur des LLMs compétitifs comme ChatGPT ou GPT-4.
Les grands modèles de base deviennent omniprésents, mais leur entraînement à partir de zéro est prohibitivement coûteux. Ainsi, l'adaptation efficace de ces modèles puissants à des tâches en aval est de plus en plus importante. Dans cet article, nous étudions un paradigme de réglage fin (finetuning) fondé sur des principes -- le réglage fin orthogonal (Orthogonal Finetuning, OFT) -- pour l'adaptation à des tâches en aval. Bien qu'il démontre une bonne généralisabilité, l'OFT utilise encore un nombre relativement important de paramètres entraînables en raison de la dimensionnalité élevée des matrices orthogonales. Pour remédier à cela, nous commençons par examiner l'OFT sous l'angle de la transmission d'information, puis identifions quelques desiderata clés qui permettent une meilleure efficacité en termes de paramètres. Inspirés par la manière dont l'algorithme de transformée de Fourier rapide de Cooley-Tukey permet une transmission efficace de l'information, nous proposons une paramétrisation orthogonale efficace utilisant des structures en papillon (butterfly). Nous appliquons cette paramétrisation à l'OFT, créant ainsi une nouvelle méthode de réglage fin économe en paramètres, appelée Orthogonal Butterfly (BOFT). En englobant l'OFT comme un cas particulier, le BOFT introduit un cadre généralisé de réglage fin orthogonal. Enfin, nous menons une étude empirique approfondie sur l'adaptation de grands transformeurs de vision, de grands modèles de langage et de modèles de diffusion texte-image à diverses tâches en aval dans les domaines de la vision et du langage.
Les modèles convolutifs avec des filtres longs ont démontré des capacités de raisonnement de pointe dans de nombreuses tâches impliquant des séquences longues, mais ils restent en retard par rapport aux Transformers les plus optimisés en termes de temps d'exécution réel. Un goulot d'étranglement majeur est la Transformée de Fourier Rapide (FFT)—qui permet aux convolutions longues de s'exécuter en temps O(N logN) pour une séquence de longueur N, mais qui présente une faible utilisation matérielle. Dans cet article, nous étudions comment optimiser la convolution FFT. Nous identifions deux goulots d'étranglement clés : la FFT n'utilise pas efficacement les unités de multiplication matricielle spécialisées, et elle entraîne des coûts élevés en termes d'entrées/sorties entre les couches de la hiérarchie mémoire. En réponse, nous proposons FlashFFTConv. FlashFFTConv utilise une décomposition matricielle qui calcule la FFT en utilisant des unités de multiplication matricielle et permet la fusion de noyaux pour les séquences longues, réduisant ainsi les entrées/sorties. Nous présentons également deux algorithmes de convolution parcimonieuse—1) les convolutions partielles et 2) les convolutions fréquentiellement parcimonieuses—qui peuvent être implémentés simplement en sautant des blocs dans la décomposition matricielle, offrant ainsi des opportunités supplémentaires d'économies de mémoire et de calcul. FlashFFTConv accélère les convolutions FFT exactes jusqu'à 7,93 fois par rapport à PyTorch et atteint une accélération de bout en bout jusqu'à 4,4 fois. Avec le même budget de calcul, FlashFFTConv permet à Hyena-GPT-s d'atteindre une perplexité améliorée de 2,3 points sur le PILE et à M2-BERT-base d'atteindre un score GLUE supérieur de 3,3 points—égalant ainsi des modèles avec deux fois plus de paramètres. FlashFFTConv atteint également une précision de 96,1 % sur Path-512, une tâche de vision à haute résolution où aucun modèle n'avait précédemment dépassé 50 %. De plus, les convolutions partielles permettent des modèles pour des séquences plus longues—produisant le premier modèle ADN capable de traiter les gènes humains les plus longs (2,3 millions de paires de bases)—et les convolutions fréquentiellement parcimonieuses accélèrent les modèles pré-entraînés tout en maintenant ou en améliorant la qualité du modèle.
Les modèles de langage de grande taille (LLMs) sont de plus en plus utilisés pour des tâches de prise de décision interactive nécessitant de la planification et une adaptation à l'environnement. Les travaux récents emploient les LLMs en tant qu'agents de deux manières principales : en déterminant itérativement la prochaine action (exécuteurs itératifs) ou en générant des plans et en exécutant des sous-tâches à l'aide des LLMs (planifier-et-exécuter). Cependant, ces méthodes peinent à gérer la complexité des tâches, car l'incapacité à exécuter une sous-tâche peut entraîner un échec de la tâche. Pour pallier ces lacunes, nous introduisons la décomposition et la planification au besoin pour les tâches complexes (ADaPT), une approche qui planifie et décompose explicitement les sous-tâches complexes au besoin, c'est-à-dire lorsque le LLM est incapable de les exécuter. ADaPT décompose récursivement les sous-tâches pour s'adapter à la fois à la complexité de la tâche et aux capacités du LLM. Nos résultats démontrent qu'ADaPT surpasse largement les bases de référence établies, atteignant des taux de réussite jusqu'à 28,3 % plus élevés dans ALFWorld, 27 % dans WebShop et 33 % dans TextCraft — un nouvel ensemble de données compositionnelles que nous introduisons. À travers une analyse approfondie, nous illustrons l'importance de la décomposition multiniveau et établissons qu'ADaPT s'ajuste dynamiquement aux capacités du LLM exécuteur ainsi qu'à la complexité de la tâche.
L'un des principaux défis de l'apprentissage multimodal réside dans la nécessité de combiner des modalités hétérogènes (par exemple, vidéo, audio, texte). Par exemple, la vidéo et l'audio sont obtenus à des taux bien plus élevés que le texte et sont globalement alignés dans le temps. Cependant, ils ne sont souvent pas synchronisés avec le texte, qui est généralement fourni comme un contexte global, tel qu'un titre ou une description. De plus, les entrées vidéo et audio ont des volumes bien plus importants, qui augmentent avec la durée de la vidéo, ce qui nécessite naturellement plus de ressources de calcul dédiées à ces modalités et rend la modélisation des dépendances à long terme plus complexe. Nous découplons ici la modélisation multimodale en la divisant en modèles autorégressifs distincts et spécialisés, traitant les entrées en fonction des caractéristiques des modalités. Nous proposons un modèle multimodal, appelé Mirasol3B, composé d'un module autorégressif pour les modalités synchronisées dans le temps (audio et vidéo), et d'un autre module autorégressif pour les modalités contextuelles qui ne sont pas nécessairement alignées dans le temps mais restent séquentielles. Pour gérer les longues séquences des entrées vidéo-audio, nous proposons de partitionner davantage les séquences vidéo et audio en segments consécutifs et de traiter leurs représentations de manière autorégressive. À cette fin, nous introduisons un mécanisme appelé Combiner, qui modélise conjointement les informations audio et vidéo dans un intervalle de temps donné. Le Combiner apprend à extraire des caractéristiques audio et vidéo à partir des signaux spatio-temporels bruts, puis à fusionner ces caractéristiques pour produire des représentations compactes mais expressives par segment. Notre approche atteint l'état de l'art sur des benchmarks multimodaux bien établis, surpassant des modèles bien plus volumineux. Elle répond efficacement à la forte demande computationnelle des entrées multimédias en apprenant des représentations compactes, en contrôlant la longueur des séquences des représentations des caractéristiques audio-vidéo, et en modélisant leurs dépendances temporelles.
L’apprentissage des interactions entre caractéristiques constitue l’élément essentiel pour la construction de systèmes de recommandation. Dans les applications à l’échelle du web, cet apprentissage est extrêmement complexe en raison de l’espace de caractéristiques d’entrée vaste et parcimonieux ; par ailleurs, la conception manuelle d’interactions de caractéristiques efficaces est irréalisable en raison de l’espace de solution exponentiel. Nous proposons d’exploiter une architecture basée sur le Transformer avec des couches d’attention pour capturer automatiquement les interactions entre caractéristiques. Les architectures Transformer ont connu un grand succès dans de nombreux domaines, tels que le traitement du langage naturel et la vision par ordinateur. Cependant, l’adoption de l’architecture Transformer pour la modélisation des interactions de caractéristiques dans l’industrie reste limitée. Nous visons à combler cette lacune. Nous identifions deux défis majeurs pour l’application de l’architecture Transformer classique aux systèmes de recommandation à l’échelle du web : (1) l’architecture Transformer ne parvient pas à capturer les interactions hétérogènes entre caractéristiques dans la couche d’auto-attention ; (2) la latence de traitement de l’architecture Transformer pourrait être trop élevée pour être déployée dans des systèmes de recommandation à l’échelle du web. Nous proposons d’abord une couche d’auto-attention hétérogène, une modification simple mais efficace de la couche d’auto-attention du Transformer, pour tenir compte de l’hétérogénéité des interactions de caractéristiques. Nous introduisons ensuite Hiformer (Transformer d’Interactions Hétérogènes) pour améliorer davantage l’expressivité du modèle. Grâce à l’approximation de bas rang et à l’élagage du modèle, Hiformer bénéficie d’une inférence rapide pour un déploiement en ligne. Les résultats d’expériences hors ligne approfondies confirment l’efficacité et l’efficience du modèle Hiformer. Nous avons déployé avec succès le modèle Hiformer dans un modèle de classement d’applications à grande échelle dans le monde réel sur Google Play, avec une amélioration significative des indicateurs clés d’engagement (jusqu’à +2,66 %).
Les tâches de prédiction dense, telles que la segmentation sémantique, l'estimation de la profondeur et la prédiction des normales de surface, peuvent être facilement formulées comme des classifications par pixel (sorties discrètes) ou des régressions (sorties continues). Ce paradigme de prédiction par pixel est resté populaire en raison de la prévalence des réseaux entièrement convolutifs. Cependant, sur le front récent des tâches de segmentation, la communauté assiste à un changement de paradigme, passant de la prédiction par pixel à la prédiction par clusters avec l'émergence des architectures de transformateurs, en particulier les transformateurs de masques, qui prédisent directement une étiquette pour un masque plutôt que pour un pixel. Malgré ce changement, les méthodes basées sur le paradigme de prédiction par pixel dominent toujours les benchmarks pour les autres tâches de prédiction dense nécessitant des sorties continues, comme l'estimation de la profondeur et la prédiction des normales de surface. Motivés par le succès de DORN et AdaBins dans l'estimation de la profondeur, obtenu en discrétisant l'espace de sortie continu, nous proposons de généraliser la méthode basée sur la prédiction par clusters à des tâches de prédiction dense générales. Cela nous permet d'unifier les tâches de prédiction dense avec le cadre des transformateurs de masques. De manière remarquable, le modèle résultant, PolyMaX, démontre des performances de pointe sur trois benchmarks du jeu de données NYUD-v2. Nous espérons que notre conception simple mais efficace inspirera davantage de recherches sur l'exploitation des transformateurs de masques pour davantage de tâches de prédiction dense. Le code et le modèle seront rendus disponibles.
Le modèle de transformateur a connu une adoption généralisée dans les tâches de vision par ordinateur ces dernières années. Cependant, en raison de la complexité quadratique en temps et en mémoire de l'auto-attention, qui est proportionnelle au nombre de tokens d'entrée, la plupart des Vision Transformers (ViTs) existants rencontrent des difficultés à atteindre une performance efficace dans des scénarios de déploiement industriel pratique, tels que TensorRT et CoreML, où les CNN traditionnels excellent. Bien que certaines tentatives récentes aient été faites pour concevoir des architectures hybrides CNN-Transformers afin de résoudre ce problème, leurs performances globales n'ont pas répondu aux attentes. Pour relever ces défis, nous proposons une architecture hybride ViT efficace nommée FMViT. Cette approche améliore la puissance expressive du modèle en mélangeant des caractéristiques à haute fréquence et à basse fréquence avec des fréquences variables, lui permettant de capturer à la fois des informations locales et globales de manière efficace. De plus, nous introduisons des mécanismes adaptés au déploiement tels que la Reparamétrisation Multigroupe Convolutive (gMLP), l'Auto-Attention Multi-Têtes Légère (RLMHSA) et le Bloc de Fusion Convolutif (CFB) pour améliorer davantage les performances du modèle et réduire la surcharge computationnelle. Nos expériences démontrent que FMViT surpasse les CNN, ViTs et architectures hybrides CNN-Transformers existants en termes de compromis latence/précision pour diverses tâches de vision. Sur la plateforme TensorRT, FMViT surpasse Resnet101 de 2,5 % (83,3 % contre 80,8 %) en précision top-1 sur le jeu de données ImageNet tout en maintenant une latence d'inférence similaire. De plus, FMViT atteint des performances comparables à EfficientNet-B5, mais avec une amélioration de 43 % en vitesse d'inférence. Sur CoreML, FMViT surpasse MobileOne de 2,6 % en précision top-1 sur le jeu de données ImageNet, avec une latence d'inférence comparable à MobileOne (78,5 % contre 75,9 %). Notre code est disponible à l'adresse suivante : https://github.com/tany0699/FMViT.