Articles de recherche en IA sélectionnés quotidiennement avec traductions
La génération d'images à partir de texte a récemment enregistré des avancées remarquables. Nous présentons un modèle de diffusion d'images conditionné par le texte, nommé RAPHAEL, capable de générer des images hautement artistiques qui représentent fidèlement les descriptions textuelles, incluant plusieurs noms, adjectifs et verbes. Ce résultat est obtenu en empilant des dizaines de couches de mélange d'experts (MoEs), à savoir des couches space-MoE et time-MoE, permettant ainsi des milliards de chemins de diffusion (routes) depuis l'entrée jusqu'à la sortie du réseau. Chaque chemin fonctionne intuitivement comme un « peintre » pour représenter un concept textuel spécifique sur une région d'image donnée à une étape de diffusion. Des expériences approfondies révèlent que RAPHAEL surpasse les modèles récents de pointe, tels que Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd et DALL-E 2, en termes de qualité d'image et d'attrait esthétique. Premièrement, RAPHAEL démontre une performance supérieure dans la transition d'images entre divers styles, tels que les bandes dessinées japonaises, le réalisme, le cyberpunk et l'illustration à l'encre. Deuxièmement, un modèle unique avec trois milliards de paramètres, entraîné sur 1 000 GPU A100 pendant deux mois, atteint un score FID zero-shot de pointe de 6,61 sur le jeu de données COCO. De plus, RAPHAEL surpasse significativement ses concurrents dans les évaluations humaines sur le benchmark ViLG-300. Nous croyons que RAPHAEL a le potentiel de repousser les frontières de la recherche en génération d'images, tant dans le milieu académique que dans l'industrie, ouvrant la voie à de futures percées dans ce domaine en évolution rapide. Plus de détails sont disponibles sur la page web du projet : https://raphael-painter.github.io/.
Nous proposons une méthode pour fusionner des modèles de langage massifs (LLM) figés, basés uniquement sur le texte, avec des modèles pré-entraînés d'encodeur et de décodeur d'images, en établissant une correspondance entre leurs espaces d'embedding. Notre modèle démontre un large éventail de capacités multimodales : recherche d'images, génération de nouvelles images et dialogue multimodal. Notre approche est la première capable de conditionner des entrées arbitrairement entrelacées d'images et de texte pour générer des sorties cohérentes d'images (et de texte). Pour atteindre des performances solides en génération d'images, nous proposons un réseau de correspondance efficace pour ancrer le LLM à un modèle de génération texte-à-image prêt à l'emploi. Ce réseau de correspondance traduit les représentations cachées du texte dans l'espace d'embedding des modèles visuels, nous permettant ainsi de tirer parti des représentations textuelles puissantes du LLM pour les sorties visuelles. Notre approche surpasse les modèles de génération de référence sur des tâches impliquant un langage plus long et plus complexe. En plus de la génération de nouvelles images, notre modèle est également capable de rechercher des images dans un ensemble de données prédéfini et de décider, au moment de l'inférence, s'il doit récupérer ou générer une image. Cela est réalisé grâce à un module de décision appris qui se base sur les représentations cachées du LLM. Notre modèle présente une gamme de capacités plus étendue que les modèles de langage multimodaux précédents. Il peut traiter des entrées combinant images et texte, et produire des images récupérées, des images générées et du texte généré – surpassant les modèles de génération non basés sur des LLM dans plusieurs tâches texte-à-image mesurant la dépendance contextuelle.
Les modèles publics de diffusion texte-image à grande échelle, tels que Stable Diffusion, ont suscité un intérêt considérable de la part de la communauté. Ces modèles peuvent être facilement personnalisés pour de nouveaux concepts grâce à des adaptations de faible rang (LoRAs). Cependant, l'utilisation simultanée de plusieurs LoRAs de concepts pour prendre en charge plusieurs concepts personnalisés pose un défi. Nous qualifions ce scénario de personnalisation multi-concepts décentralisée, qui implique un ajustement de concept côté client unique et une fusion de concepts côté nœud central. Dans cet article, nous proposons un nouveau cadre appelé Mix-of-Show qui relève les défis de la personnalisation multi-concepts décentralisée, notamment les conflits de concepts résultant de l'ajustement LoRA côté client unique et la perte d'identité lors de la fusion des modèles. Mix-of-Show adopte une LoRA à décomposition d'embedding (ED-LoRA) pour l'ajustement côté client unique et une fusion par gradient pour le nœud central, afin de préserver l'essence intra-domaine des concepts individuels et de permettre une fusion théoriquement illimitée de concepts. De plus, nous introduisons un échantillonnage contrôlable régional, qui étend l'échantillonnage spatialement contrôlable (par exemple, ControlNet et T2I-Adaptor) pour résoudre les problèmes de liaison d'attributs et d'objets manquants dans l'échantillonnage multi-concepts. Des expériences approfondies démontrent que Mix-of-Show est capable de composer plusieurs concepts personnalisés avec une grande fidélité, incluant des personnages, des objets et des scènes.
Stable Diffusion a révolutionné la création d'images à partir de texte descriptif. GPT-2, GPT-3(.5) et GPT-4 ont démontré des performances impressionnantes dans une variété de tâches linguistiques. ChatGPT a introduit ces modèles de langage au grand public. Il est désormais évident que les grands modèles de langage (LLMs) sont là pour rester et qu'ils entraîneront des changements radicaux dans l'ensemble de l'écosystème du texte et des images en ligne. Dans cet article, nous examinons ce que l'avenir pourrait réserver. Que deviendra GPT-{n} une fois que les LLMs contribueront à une grande partie du langage trouvé en ligne ? Nous constatons que l'utilisation de contenu généré par des modèles dans l'entraînement provoque des défauts irréversibles dans les modèles résultants, où les queues de la distribution originale du contenu disparaissent. Nous appelons cet effet la démence des modèles et montrons qu'il peut survenir dans les autoencodeurs variationnels (VAEs), les modèles de mélange gaussiens (GMMs) et les LLMs. Nous développons une intuition théorique derrière ce phénomène et illustrons son ubiquité parmi tous les modèles génératifs appris. Nous démontrons qu'il doit être pris au sérieux si nous voulons maintenir les avantages de l'entraînement à partir de données massives extraites du web. En effet, la valeur des données collectées sur les interactions authentiques des humains avec les systèmes sera de plus en plus précieuse en présence de contenu généré par les LLMs dans les données extraites d'Internet.
Cet article vise à permettre efficacement aux modèles de langage de grande taille (LLMs) d'utiliser des outils multimodaux. Les LLMs propriétaires avancés, tels que ChatGPT et GPT-4, ont démontré un grand potentiel pour l'utilisation d'outils grâce à une ingénierie de prompts sophistiquée. Néanmoins, ces modèles reposent généralement sur des coûts de calcul prohibitifs et des données non accessibles au public. Pour relever ces défis, nous proposons GPT4Tools basé sur l'auto-instruction pour permettre aux LLMs open-source, tels que LLaMA et OPT, d'utiliser des outils. Il génère un ensemble de données d'instructions en sollicitant un enseignant avancé avec divers contextes multimodaux. En utilisant l'optimisation par adaptation de faible rang (LoRA), notre approche facilite la résolution par les LLMs open-source d'une gamme de problèmes visuels, y compris la compréhension visuelle et la génération d'images. De plus, nous fournissons un benchmark pour évaluer la capacité des LLMs à utiliser des outils, qui est réalisé à la fois en mode zero-shot et par fine-tuning. Des expériences approfondies démontrent l'efficacité de notre méthode sur divers modèles de langage, qui améliore non seulement de manière significative la précision de l'invocation des outils connus, mais permet également une capacité zero-shot pour les outils inconnus. Le code et la démonstration sont disponibles à l'adresse https://github.com/StevenGrove/GPT4Tools.
Nous présentons MindEye, une nouvelle approche fMRI-à-image pour récupérer et reconstruire des images visualisées à partir de l'activité cérébrale. Notre modèle comprend deux sous-modules parallèles spécialisés pour la récupération (utilisant l'apprentissage contrastif) et la reconstruction (utilisant un prior de diffusion). MindEye peut cartographier l'activité cérébrale fMRI vers n'importe quel espace latent multimodal de haute dimension, comme l'espace d'images CLIP, permettant la reconstruction d'images à l'aide de modèles génératifs qui acceptent des embeddings de cet espace latent. Nous comparons de manière exhaustive notre approche avec d'autres méthodes existantes, en utilisant à la fois des comparaisons qualitatives côte à côte et des évaluations quantitatives, et montrons que MindEye atteint des performances de pointe dans les tâches de reconstruction et de récupération. En particulier, MindEye peut récupérer l'image originale exacte même parmi des candidats très similaires, indiquant que ses embeddings cérébraux conservent des informations spécifiques à l'image de manière fine. Cela nous permet de récupérer avec précision des images même à partir de bases de données à grande échelle comme LAION-5B. Nous démontrons à travers des ablations que les améliorations de performance de MindEye par rapport aux méthodes précédentes résultent de sous-modules spécialisés pour la récupération et la reconstruction, de techniques d'entraînement améliorées, et de l'entraînement de modèles avec des ordres de grandeur de paramètres supplémentaires. De plus, nous montrons que MindEye peut mieux préserver les caractéristiques de bas niveau des images dans les reconstructions en utilisant img2img, avec des sorties d'un autoencodeur séparé. Tout le code est disponible sur GitHub.
La visualisation précise d'histoires nécessite plusieurs éléments essentiels, tels que la cohérence d'identité entre les images, l'alignement entre le texte brut et le contenu visuel, ainsi qu'une disposition raisonnable des objets dans les images. La plupart des travaux précédents s'efforcent de répondre à ces exigences en adaptant un modèle de génération d'images à partir de texte (T2I) sur un ensemble de vidéos partageant le même style et les mêmes personnages, par exemple le dataset FlintstonesSV. Cependant, les modèles T2I appris peinent généralement à s'adapter à de nouveaux personnages, scènes et styles, et manquent souvent de flexibilité pour réviser la disposition des images synthétisées. Cet article propose un système pour la visualisation interactive générique d'histoires, capable de gérer plusieurs nouveaux personnages et de supporter l'édition de la disposition et de la structure locale. Il est développé en exploitant les connaissances préalables des grands modèles de langage et de génération d'images, entraînés sur des corpus massifs. Le système comprend quatre composants interconnectés : la génération de prompts à partir d'histoires (S2P), la génération de disposition à partir de texte (T2L), la génération contrôlée d'images à partir de texte (C-T2I), et l'animation d'images en vidéo (I2V). D'abord, le module S2P convertit des informations concises sur l'histoire en prompts détaillés nécessaires pour les étapes suivantes. Ensuite, T2L génère des dispositions diverses et raisonnables basées sur les prompts, offrant aux utilisateurs la possibilité d'ajuster et d'affiner la disposition selon leurs préférences. Le composant central, C-T2I, permet la création d'images guidées par des dispositions, des esquisses et des identifiants spécifiques aux acteurs pour maintenir la cohérence et le détail dans les visualisations. Enfin, I2V enrichit le processus de visualisation en animant les images générées. Des expériences approfondies et une étude utilisateur sont menées pour valider l'efficacité et la flexibilité de l'édition interactive du système proposé.
Les grands modèles de langage (LLM) démontrent des performances prometteuses en traduction entre diverses langues naturelles. Cependant, de nombreux LLM, en particulier ceux en open source comme BLOOM et LLaMA, sont principalement axés sur l'anglais et ne prennent en charge que quelques dizaines de langues naturelles, ce qui limite l'exploration de leur potentiel en traduction linguistique. Dans ce travail, nous présentons BigTrans, qui adapte LLaMA, initialement conçu pour 20 langues, en lui ajoutant des capacités de traduction multilingue pour plus de 100 langues. BigTrans est construit sur LLaMA-13B et optimisé en trois étapes. Premièrement, nous poursuivons l'entraînement de LLaMA avec un vaste ensemble de données monolingues en chinois. Deuxièmement, nous continuons l'entraînement du modèle avec un large corpus parallèle couvrant 102 langues naturelles. Troisièmement, nous ajustons le modèle de base par instruction avec des directives de traduction multilingue, aboutissant ainsi à notre modèle BigTrans. Les expériences préliminaires en traduction multilingue montrent que BigTrans se compare favorablement à ChatGPT et Google Translate pour de nombreuses langues, et surpasse même ChatGPT pour 8 paires de langues. Nous rendons public le modèle BigTrans dans l'espoir qu'il puisse faire progresser la recherche dans ce domaine.
Les modèles de langage de grande envergure (LLMs), dotés de capacités avancées en traitement du langage naturel, ont émergé et ont été rapidement appliqués dans divers domaines tels que la science, la finance et l'ingénierie logicielle. Cependant, la capacité des LLMs à faire progresser le domaine de la chimie reste incertaine. Dans cet article, nous établissons un benchmark complet comprenant 8 tâches pratiques en chimie, incluant 1) la prédiction de noms, 2) la prédiction de propriétés, 3) la prédiction de rendement, 4) la prédiction de réactions, 5) la rétrosynthèse (prédiction des réactifs à partir des produits), 6) la conception de molécules basée sur le texte, 7) la description de molécules, et 8) la sélection de réactifs. Notre analyse s'appuie sur des ensembles de données largement reconnus, tels que BBBP, Tox21, PubChem, USPTO et ChEBI, permettant une exploration approfondie des capacités des LLMs dans le contexte de la chimie pratique. Trois modèles GPT (GPT-4, GPT-3.5 et Davinci-003) sont évalués pour chaque tâche chimique dans des configurations d'apprentissage zero-shot et few-shot avec des exemples de démonstration soigneusement sélectionnés et des prompts spécialement conçus. Les principaux résultats de notre investigation sont : 1) GPT-4 surpasse les deux autres modèles parmi les trois évalués ; 2) les modèles GPT montrent une performance moins compétitive dans les tâches nécessitant une compréhension précise de la représentation SMILES des molécules, comme la prédiction de réactions et la rétrosynthèse ; 3) les modèles GPT démontrent de fortes capacités dans les tâches d'explication liées au texte, telles que la description de molécules ; et 4) les modèles GPT affichent une performance comparable ou supérieure à celle des modèles classiques d'apprentissage automatique lorsqu'ils sont appliqués à des problèmes chimiques pouvant être transformés en tâches de classification ou de classement, comme la prédiction de propriétés et la prédiction de rendement.
Les modèles actuels de génération d'images à partir de texte rencontrent souvent des difficultés à suivre les instructions textuelles, en particulier celles nécessitant un raisonnement spatial. D'un autre côté, les modèles de langage de grande envergure (LLMs), tels que GPT-4, ont démontré une précision remarquable dans la génération de snippets de code pour esquisser graphiquement des entrées textuelles, par exemple via TikZ. Dans ce travail, nous introduisons Control-GPT pour guider les pipelines de génération d'images à partir de texte basés sur la diffusion avec des esquisses programmatiques générées par GPT-4, améliorant ainsi leurs capacités à suivre les instructions. Control-GPT fonctionne en interrogeant GPT-4 pour écrire du code TikZ, et les esquisses générées sont utilisées comme références aux côtés des instructions textuelles pour les modèles de diffusion (par exemple, ControlNet) afin de générer des images photo-réalistes. Un défi majeur pour l'entraînement de notre pipeline est l'absence d'un ensemble de données contenant du texte, des images et des esquisses alignés. Nous abordons ce problème en convertissant les masques d'instance dans les ensembles de données existants en polygones pour imiter les esquisses utilisées au moment du test. En conséquence, Control-GPT améliore considérablement la contrôlabilité de la génération d'images. Il établit un nouvel état de l'art en matière de génération d'arrangement spatial et de positionnement d'objets et améliore le contrôle des utilisateurs sur les positions, les tailles, etc., des objets, doublant presque la précision des modèles précédents. Notre travail, en tant que première tentative, montre le potentiel d'utiliser les LLMs pour améliorer les performances dans les tâches de vision par ordinateur.
Dans une ère où les images et les contenus visuels dominent notre paysage numérique, la capacité à manipuler et personnaliser ces images est devenue une nécessité. Imaginez remplacer sans effort un chat tigré se prélassant sur un rebord de fenêtre ensoleillé dans une photographie par votre propre chiot joueur, tout en préservant le charme et la composition originels de l'image. Nous présentons Photoswap, une approche novatrice qui permet cette expérience immersive d'édition d'images grâce à l'échange personnalisé de sujets dans des images existantes. Photoswap apprend d'abord le concept visuel du sujet à partir d'images de référence, puis l'intègre dans l'image cible en utilisant des modèles de diffusion pré-entraînés de manière sans apprentissage. Nous démontrons qu'un sujet visuel bien conceptualisé peut être transféré de manière transparente dans n'importe quelle image grâce à une manipulation appropriée de l'auto-attention et de l'attention croisée, en maintenant la pose du sujet échangé et la cohérence globale de l'image. Des expériences approfondies soulignent l'efficacité et la contrôlabilité de Photoswap dans l'échange personnalisé de sujets. De plus, Photoswap surpasse significativement les méthodes de référence dans les évaluations humaines en termes d'échange de sujets, de préservation de l'arrière-plan et de qualité globale, révélant son vaste potentiel d'application, du divertissement à l'édition professionnelle.
En s'appuyant sur des ensembles de données image-texte à grande échelle et sur les avancées des modèles de diffusion, les modèles génératifs pilotés par texte ont réalisé des progrès remarquables dans le domaine de la génération et de l'édition d'images. Cette étude explore le potentiel d'étendre cette capacité pilotée par texte à la génération et à l'édition de vidéos longues conditionnées par plusieurs textes. Les méthodologies actuelles pour la génération et l'édition de vidéos, bien qu'innovantes, se limitent souvent à des vidéos extrêmement courtes (généralement moins de 24 images) et sont restreintes à une seule condition textuelle. Ces contraintes limitent considérablement leurs applications, étant donné que les vidéos du monde réel se composent généralement de plusieurs segments, chacun portant des informations sémantiques différentes. Pour relever ce défi, nous introduisons un nouveau paradigme appelé Gen-L-Video, capable d'étendre les modèles de diffusion de vidéos courtes disponibles pour générer et éditer des vidéos comprenant des centaines d'images avec des segments sémantiques variés, sans nécessiter d'entraînement supplémentaire, tout en préservant la cohérence du contenu. Nous avons implémenté trois méthodologies principales de génération et d'édition de vidéos pilotées par texte et les avons étendues pour prendre en charge des vidéos plus longues enrichies de divers segments sémantiques grâce à notre paradigme proposé. Nos résultats expérimentaux montrent que notre approche élargit considérablement les capacités génératives et d'édition des modèles de diffusion de vidéos, ouvrant de nouvelles perspectives pour la recherche et les applications futures. Le code est disponible à l'adresse https://github.com/G-U-N/Gen-L-Video.
Nous présentons SwiftSage, un nouveau cadre d'agent inspiré par la théorie du double processus de la cognition humaine, conçu pour exceller dans la planification d'actions pour des tâches complexes de raisonnement interactif. SwiftSage intègre les avantages du clonage comportemental et de l'incitation des grands modèles de langage (LLMs) pour améliorer les performances dans l'accomplissement des tâches. Le cadre comprend deux modules principaux : le module Swift, représentant une pensée rapide et intuitive, et le module Sage, imitant les processus de pensée délibérés. Le module Swift est un petit modèle de langage encodeur-décodeur affiné sur les trajectoires d'actions de l'agent oracle, tandis que le module Sage utilise des LLMs tels que GPT-4 pour la planification des sous-objectifs et leur ancrage. Nous développons une méthode heuristique pour intégrer harmonieusement les deux modules, aboutissant à un processus de résolution de problèmes plus efficace et robuste. Sur 30 tâches du benchmark ScienceWorld, SwiftSage surpasse significativement d'autres méthodes telles que SayCan, ReAct et Reflexion, démontrant son efficacité à résoudre des tâches complexes du monde réel.
Le fine-tuning des modèles de langage (LMs) a permis d'obtenir des succès sur diverses tâches en aval, mais à mesure que les LMs augmentent en taille, la rétropropagation nécessite une quantité de mémoire prohibitivement importante. Les méthodes d'ordre zéro (ZO) peuvent en principe estimer les gradients en utilisant seulement deux passes avant, mais sont théoriquement considérées comme étant catastrophiquement lentes pour l'optimisation de grands modèles. Dans ce travail, nous proposons un optimiseur d'ordre zéro efficace en mémoire (MeZO), adaptant la méthode classique ZO-SGD pour fonctionner sur place, permettant ainsi de fine-tuner les LMs avec la même empreinte mémoire que l'inférence. Par exemple, avec une seule GPU A100 80GB, MeZO peut entraîner un modèle de 30 milliards de paramètres, alors que le fine-tuning avec rétropropagation ne peut entraîner qu'un LM de 2,7 milliards avec le même budget. Nous menons des expériences exhaustives sur différents types de modèles (LMs masqués et autorégressifs), échelles de modèles (jusqu'à 66 milliards), et tâches en aval (classification, choix multiples, et génération). Nos résultats démontrent que (1) MeZO surpasse significativement l'apprentissage en contexte et le sondage linéaire ; (2) MeZO atteint des performances comparables au fine-tuning avec rétropropagation sur plusieurs tâches, avec une réduction de mémoire allant jusqu'à 12x ; (3) MeZO est compatible avec les techniques de réglage des paramètres complets et efficaces comme LoRA et le réglage de préfixe ; (4) MeZO peut optimiser efficacement des objectifs non différentiables (par exemple, maximiser la précision ou le F1). Nous étayons nos résultats empiriques par des insights théoriques, mettant en évidence comment un pré-entraînement adéquat et des invites de tâches permettent à MeZO de fine-tuner des modèles énormes, malgré les analyses classiques ZO suggérant le contraire.
Récemment, un intérêt croissant s’est manifesté pour le développement de modèles génératifs texte-image basés sur la diffusion, capables de produire du texte visuel cohérent et bien structuré. Dans cet article, nous proposons une approche novatrice et efficace, appelée GlyphControl, pour relever ce défi. Contrairement aux méthodes existantes qui s’appuient sur des encodeurs de texte sensibles aux caractères, tels que ByT5, et nécessitent un réentraînement des modèles texte-image, notre approche exploite des informations conditionnelles supplémentaires liées aux glyphes pour améliorer les performances du modèle Stable-Diffusion prêt à l’emploi dans la génération de texte visuel précis. En intégrant des instructions basées sur les glyphes, les utilisateurs peuvent personnaliser le contenu, l’emplacement et la taille du texte généré en fonction de leurs besoins spécifiques. Pour favoriser les recherches futures dans le domaine de la génération de texte visuel, nous avons constitué un ensemble de données de référence pour l’entraînement, nommé LAION-Glyph. Nous évaluons l’efficacité de notre approche en mesurant des métriques basées sur la reconnaissance optique de caractères (OCR) ainsi que les scores CLIP du texte visuel généré. Nos évaluations empiriques démontrent que GlyphControl surpasse l’approche récente DeepFloyd IF en termes de précision OCR et de scores CLIP, mettant en lumière l’efficacité de notre méthode.
Alors que les modèles de langage de grande taille (LLMs) continuent d'être développés, leur évaluation devient de plus en plus importante mais aussi complexe. Ce travail propose Chain-of-Thought Hub, une suite d'évaluation open-source axée sur les capacités de raisonnement multi-étapes des grands modèles de langage. Nous nous intéressons à ce contexte pour deux raisons : (1) en observant le comportement des modèles GPT et PaLM, nous constatons que le raisonnement complexe est probablement un facteur clé de différenciation entre les LLMs plus faibles et plus performants ; (2) nous envisageons que les grands modèles de langage deviennent la prochaine plateforme de calcul et favorisent un écosystème de nouvelles applications basées sur les LLMs, ce qui nécessite naturellement que les modèles de base soient capables d'exécuter des tâches complexes impliquant souvent la composition d'opérations linguistiques et logiques. Notre approche consiste à compiler une série de benchmarks de raisonnement difficiles pour suivre les progrès des LLMs. Nos résultats actuels montrent que : (1) l'échelle des modèles est clairement corrélée à leurs capacités de raisonnement ; (2) en mai 2023, Claude-v1.3 et PaLM-2 sont les deux seuls modèles comparables à GPT-4, tandis que les modèles open source restent à la traîne ; (3) LLaMA-65B obtient des performances proches de code-davinci-002, indiquant qu'avec un développement supplémentaire réussi, comme l'apprentissage par renforcement à partir des retours humains (RLHF), il a un grand potentiel pour se rapprocher de GPT-3.5-Turbo. Nos résultats suggèrent également que pour que les efforts open source rattrapent leur retard, la communauté pourrait se concentrer davantage sur la construction de meilleurs modèles de base et l'exploration du RLHF.
Le domaine captivant de Minecraft a suscité un intérêt de recherche considérable ces dernières années, servant de plateforme riche pour le développement d'agents intelligents capables de fonctionner dans des environnements en monde ouvert. Cependant, le paysage de recherche actuel se concentre principalement sur des objectifs spécifiques, tels que la tâche populaire "ObtainDiamond", et n'a pas encore démontré une généralisation efficace à un spectre plus large de tâches. De plus, le taux de succès actuel pour la tâche "ObtainDiamond" se situe autour de 20%, mettant en évidence les limites des contrôleurs basés sur l'apprentissage par renforcement (RL) utilisés dans les méthodes existantes. Pour relever ces défis, nous introduisons Ghost in the Minecraft (GITM), un nouveau cadre qui intègre des modèles de langage de grande taille (LLMs) avec des connaissances et une mémoire basées sur le texte, visant à créer des agents généralement capables (GCAs) dans Minecraft. Ces agents, équipés des capacités de logique et de bon sens des LLMs, peuvent naviguer habilement dans des environnements complexes à récompense éparse avec des interactions basées sur le texte. Nous développons un ensemble d'actions structurées et exploitons les LLMs pour générer des plans d'action que les agents peuvent exécuter. L'agent basé sur LLM qui en résulte surpasse nettement les méthodes précédentes, obtenant une amélioration remarquable de +47,5% du taux de succès sur la tâche "ObtainDiamond", démontrant une robustesse supérieure par rapport aux contrôleurs traditionnels basés sur RL. Notamment, notre agent est le premier à obtenir tous les éléments de l'arbre technologique de l'Overworld de Minecraft, démontrant ses capacités étendues. GITM n'a besoin d'aucun GPU pour l'entraînement, mais un seul nœud CPU avec 32 cœurs CPU suffit. Cette recherche montre le potentiel des LLMs dans le développement d'agents capables de gérer des tâches complexes à long terme et de s'adapter aux incertitudes dans des environnements en monde ouvert. Consultez le site web du projet à l'adresse https://github.com/OpenGVLab/GITM.
Les grands modèles de langage (LLMs) ont considérablement amélioré la fluidité et la diversité des textes générés par machine. Cependant, ces progrès posent également un défi majeur dans la détection de l'origine d'un texte donné, et les recherches actuelles sur les méthodes de détection peinent à suivre l'évolution rapide des LLMs. Les méthodes conventionnelles basées sur l'apprentissage présentent des limites en termes de flexibilité, notamment lors de l'adaptation à de nouveaux domaines, et manquent souvent de pouvoir explicatif. Pour combler cette lacune, nous proposons une nouvelle stratégie de détection sans apprentissage appelée Analyse Divergente des N-Grammes (DNA-GPT). Étant donné un texte, nous le tronquons d'abord au milieu, puis utilisons uniquement la partie précédente comme entrée pour les LLMs afin de régénérer les nouvelles parties restantes. En analysant les différences entre les parties originales et les nouvelles parties restantes à travers une analyse N-grammes en boîte noire ou une divergence de probabilité en boîte blanche, nous pouvons clairement illustrer les écarts significatifs entre les textes générés par machine et ceux écrits par des humains. Nous avons mené des expériences approfondies sur les LLMs les plus avancés d'OpenAI, notamment text-davinci-003, GPT-3.5-turbo et GPT-4, ainsi que sur des modèles open source tels que GPT-NeoX-20B et LLaMa-13B. Les résultats montrent que notre approche zero-shot présente des performances de pointe pour distinguer les textes humains des textes générés par GPT sur quatre ensembles de données en anglais et un en allemand, surpassant le classificateur d'OpenAI, qui est entraîné sur des millions de textes. De plus, nos méthodes fournissent des explications et des preuves raisonnables pour étayer notre affirmation, ce qui est une caractéristique unique de la détection explicable. Notre méthode est également robuste face aux attaques de texte révisé et peut en outre résoudre le problème de l'identification de la source du modèle. Les codes sont disponibles à l'adresse suivante : https://github.com/Xianjun-Yang/DNA-GPT.
Malgré le succès considérable des modèles génératifs à diffusion dans la génération d'images à partir de texte, reproduire ce succès dans le domaine de la compression d'images s'est avéré difficile. Dans cet article, nous démontrons que la diffusion peut significativement améliorer la qualité perceptuelle à un débit donné, surpassant les approches de pointe PO-ELIC et HiFiC mesurées par le score FID. Ce résultat est obtenu grâce à une approche simple mais théoriquement motivée en deux étapes, combinant un autoencodeur ciblant l'erreur quadratique moyenne (MSE) suivi d'un décodeur supplémentaire basé sur les scores. Cependant, comme nous le montrerons, les détails d'implémentation sont cruciaux et les décisions de conception optimales peuvent différer considérablement des modèles typiques de génération d'images à partir de texte.