Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons SDXL, un modèle de diffusion latente pour la synthèse d'images à partir de texte. Par rapport aux versions précédentes de Stable Diffusion, SDXL s'appuie sur une architecture UNet trois fois plus grande : l'augmentation du nombre de paramètres du modèle est principalement due à un plus grand nombre de blocs d'attention et à un contexte d'attention croisée plus étendu, car SDXL utilise un second encodeur de texte. Nous concevons plusieurs schémas de conditionnement novateurs et entraînons SDXL sur plusieurs ratios d'aspect. Nous introduisons également un modèle de raffinement utilisé pour améliorer la fidélité visuelle des échantillons générés par SDXL grâce à une technique post-hoc de transformation d'image à image. Nous démontrons que SDXL présente une amélioration significative des performances par rapport aux versions précédentes de Stable Diffusion et obtient des résultats compétitifs avec ceux des générateurs d'images à l'état de l'art en boîte noire. Dans un esprit de promotion de la recherche ouverte et de transparence dans l'entraînement et l'évaluation de grands modèles, nous mettons à disposition le code et les poids du modèle à l'adresse suivante : https://github.com/Stability-AI/generative-models.
L'augmentation de la longueur des séquences est devenue une exigence cruciale à l'ère des grands modèles de langage. Cependant, les méthodes existantes peinent à concilier complexité computationnelle et expressivité du modèle, limitant ainsi la longueur maximale des séquences. Dans ce travail, nous présentons LongNet, une variante du Transformer capable de gérer des séquences de plus d'un milliard de tokens sans sacrifier les performances sur des séquences plus courtes. Plus précisément, nous proposons l'attention dilatée, qui étend le champ d'attention de manière exponentielle avec la distance. LongNet présente des avantages significatifs : 1) il possède une complexité computationnelle linéaire et une dépendance logarithmique entre les tokens ; 2) il peut être utilisé comme entraîneur distribué pour des séquences extrêmement longues ; 3) son attention dilatée est un remplacement direct de l'attention standard, permettant une intégration transparente avec les optimisations existantes basées sur le Transformer. Les résultats expérimentaux montrent que LongNet offre de solides performances à la fois en modélisation de longues séquences et en tâches générales de traitement du langage. Notre travail ouvre de nouvelles possibilités pour modéliser des séquences très longues, par exemple en traitant un corpus entier ou même l'ensemble d'Internet comme une séquence.
Malgré la capacité des modèles existants de génération d'images à partir de texte (T2I) à grande échelle à produire des images de haute qualité à partir de descriptions textuelles détaillées, ils manquent souvent de précision pour modifier les images générées ou réelles. Dans cet article, nous proposons une nouvelle méthode d'édition d'images, DragonDiffusion, permettant une manipulation de type Drag sur les modèles de diffusion. Plus précisément, nous construisons un guidage par classificateur basé sur la forte correspondance des caractéristiques intermédiaires dans le modèle de diffusion. Cela permet de transformer les signaux d'édition en gradients via une perte de correspondance des caractéristiques pour modifier la représentation intermédiaire du modèle de diffusion. Sur la base de cette stratégie de guidage, nous construisons également un guidage multi-échelle pour prendre en compte à la fois l'alignement sémantique et géométrique. De plus, une auto-attention inter-branches est ajoutée pour maintenir la cohérence entre l'image originale et le résultat de l'édition. Notre méthode, grâce à une conception efficace, permet divers modes d'édition pour les images générées ou réelles, tels que le déplacement d'objets, le redimensionnement d'objets, le remplacement de l'apparence des objets et le glissement de contenu. Il est à noter que tous les signaux d'édition et de préservation du contenu proviennent de l'image elle-même, et le modèle ne nécessite ni ajustement fin ni modules supplémentaires. Notre code source sera disponible à l'adresse https://github.com/MC-E/DragonDiffusion.
Récemment, la publication d'INSTRUCTEVAL a fourni des informations précieuses sur les performances des grands modèles de langage (LLMs) utilisant des architectures encodeur-décodeur ou décodeur uniquement. Fait intéressant, malgré leur introduction il y a quatre ans, les LLMs basés sur T5, tels que FLAN-T5, continuent de surpasser les derniers LLMs basés sur un décodeur, comme LLAMA et VICUNA, dans des tâches nécessitant des compétences générales en résolution de problèmes. Cette divergence de performance peut être attribuée à trois facteurs clés : (1) les données de pré-entraînement, (2) l'architecture de base, et (3) le jeu de données d'instructions. Dans ce rapport technique, nous nous concentrons principalement sur l'étude de l'impact du troisième facteur en exploitant VICUNA, un grand modèle de langage basé sur LLAMA, qui a été affiné sur des conversations de ChatGPT. Pour atteindre cet objectif, nous avons affiné VICUNA en utilisant une collection personnalisée de jeux de données d'instructions appelée FLANMINI. Cette collection inclut un sous-ensemble du vaste jeu de données d'instructions connu sous le nom de FLAN, ainsi que divers jeux de données liés au code et des jeux de données conversationnels dérivés de ChatGPT/GPT-4. Ce jeu de données comprend un grand nombre de tâches exigeant des compétences en résolution de problèmes. Nos résultats expérimentaux indiquent fortement que les capacités améliorées en résolution de problèmes de notre modèle, FLACUNA, sont obtenues grâce à l'affinement de VICUNA sur le jeu de données FLAN, entraînant des améliorations significatives sur de nombreux jeux de données de référence dans INSTRUCTEVAL. FLACUNA est disponible publiquement à l'adresse suivante : https://huggingface.co/declare-lab/flacuna-13b-v1.0.
La compréhension de documents fait référence à l'extraction, l'analyse et la compréhension automatiques d'informations provenant de divers types de documents numériques, tels qu'une page web. Les modèles de langage multi-modaux de grande taille (MLLMs) existants, y compris mPLUG-Owl, ont démontré des capacités prometteuses en reconnaissance de texte sans OCR (zero-shot), indiquant leur potentiel pour la compréhension de documents sans OCR. Cependant, sans entraînement spécifique au domaine, ces modèles ont tendance à ignorer les caractéristiques OCR fines, telles que des tableaux complexes ou de grands blocs de texte, qui sont essentielles pour la compréhension de documents sans OCR. Dans cet article, nous proposons mPLUG-DocOwl, basé sur mPLUG-Owl, pour la compréhension de documents sans OCR. Plus précisément, nous construisons d'abord un ensemble de données d'ajustement d'instructions comportant une large gamme de tâches de compréhension visuelle et textuelle. Ensuite, nous renforçons la capacité de compréhension de documents sans OCR en entraînant conjointement le modèle sur des ensembles de données uniquement linguistiques, de vision et langage général, et d'ajustement d'instructions de documents avec notre stratégie unifiée d'ajustement d'instructions. Nous construisons également un ensemble d'évaluation de compréhension d'instructions de documents sans OCR, LLMDoc, pour mieux comparer les capacités des modèles en matière de conformité aux instructions et de compréhension de documents. Les résultats expérimentaux montrent que notre modèle surpasse les modèles multi-modaux existants, démontrant sa forte capacité de compréhension de documents. De plus, sans ajustement spécifique, mPLUG-DocOwl généralise bien sur diverses tâches en aval. Notre code, modèles, données d'entraînement et ensemble d'évaluation sont disponibles à l'adresse https://github.com/X-PLUG/mPLUG-DocOwl.
Les grands modèles de langage entraînés pour la sécurité et l'innocuité restent vulnérables aux abus adversariaux, comme en témoigne la prévalence des attaques de "jailbreak" sur les premières versions de ChatGPT, qui provoquent des comportements indésirables. Allant au-delà de la simple reconnaissance du problème, nous étudions pourquoi ces attaques réussissent et comment elles peuvent être créées. Nous émettons l'hypothèse de deux modes de défaillance de l'entraînement à la sécurité : les objectifs concurrents et la généralisation inadaptée. Les objectifs concurrents surviennent lorsque les capacités d'un modèle et ses objectifs de sécurité entrent en conflit, tandis que la généralisation inadaptée se produit lorsque l'entraînement à la sécurité ne parvient pas à généraliser à un domaine pour lequel des capacités existent. Nous utilisons ces modes de défaillance pour guider la conception de jailbreaks, puis évaluons les modèles de pointe, y compris GPT-4 d'OpenAI et Claude v1.3 d'Anthropic, contre des attaques existantes et nouvellement conçues. Nous constatons que des vulnérabilités persistent malgré les efforts approfondis de red-teaming et d'entraînement à la sécurité derrière ces modèles. Notamment, de nouvelles attaques exploitant nos modes de défaillance réussissent sur chaque prompt d'une collection de requêtes non sécurisées provenant des ensembles d'évaluation de red-teaming des modèles et surpassent les jailbreaks ad hoc existants. Notre analyse souligne la nécessité d'une parité sécurité-capacité -- où les mécanismes de sécurité devraient être aussi sophistiqués que le modèle sous-jacent -- et conteste l'idée que le simple passage à l'échelle puisse résoudre ces modes de défaillance en matière de sécurité.
Les récents progrès des modèles de langage à grande échelle (LLMs) tels que GPT4 ont démontré des capacités multimodales exceptionnelles pour suivre des instructions ouvertes à partir d'images. Cependant, les performances de ces modèles dépendent fortement de choix de conception tels que les architectures de réseau, les données d'entraînement et les stratégies d'apprentissage, et ces choix n'ont pas été largement discutés dans la littérature, rendant difficile la quantification des avancées dans ce domaine. Pour résoudre ce problème, cet article présente une étude systématique et exhaustive, à la fois quantitative et qualitative, sur l'entraînement de tels modèles. Nous implémentons plus de 20 variantes dans des conditions contrôlées. Concrètement, pour les architectures de réseau, nous comparons différents backbones de LLM et conceptions de modèles. Pour les données d'entraînement, nous examinons l'impact des données et des stratégies d'échantillonnage. Pour les instructions, nous explorons l'influence de prompts diversifiés sur la capacité des modèles entraînés à suivre des instructions. Pour les benchmarks, nous contribuons, à notre connaissance, le premier ensemble d'évaluation complet incluant des tâches sur des images et des vidéos, réalisé via du crowdsourcing. Sur la base de nos résultats, nous présentons Lynx, qui offre la compréhension multimodale la plus précise tout en conservant la meilleure capacité de génération multimodale par rapport aux modèles open-source de style GPT4 existants.
Les modèles de langage de grande taille (LLMs) ont démontré des capacités impressionnantes en matière de planification pour des tâches incarnées mono-agent dans divers domaines. Cependant, leur aptitude à planifier et à communiquer dans le cadre d'une coopération multi-agent reste incertaine, bien que ces compétences soient cruciales pour des agents incarnés intelligents. Dans cet article, nous présentons un nouveau cadre qui utilise les LLMs pour la coopération multi-agent et le testons dans divers environnements incarnés. Notre cadre permet aux agents incarnés de planifier, de communiquer et de coopérer avec d'autres agents incarnés ou avec des humains pour accomplir efficacement des tâches à long terme. Nous démontrons que les LLMs récents, tels que GPT-4, peuvent surpasser des méthodes de planification robustes et manifester une communication émergente efficace grâce à notre cadre, sans nécessiter de réglage fin ou d'incitation en quelques exemples. Nous découvrons également que les agents basés sur les LLMs qui communiquent en langage naturel peuvent gagner davantage la confiance des humains et coopérer plus efficacement avec eux. Notre recherche souligne le potentiel des LLMs pour l'IA incarnée et pose les bases pour les futures recherches sur la coopération multi-agent. Les vidéos sont disponibles sur le site web du projet : https://vis-www.cs.umass.edu/Co-LLM-Agents/.
Les grands modèles de langage (LLMs) démontrent un large éventail de capacités prometteuses — allant de la planification étape par étape au raisonnement de bon sens — qui pourraient s'avérer utiles pour les robots, mais restent sujets à des prédictions faussement confiantes. Dans ce travail, nous présentons KnowNo, un cadre pour mesurer et aligner l'incertitude des planificateurs basés sur des LLMs, afin qu'ils sachent quand ils ne savent pas et demandent de l'aide si nécessaire. KnowNo s'appuie sur la théorie de la prédiction conforme pour fournir des garanties statistiques sur l'accomplissement des tâches tout en minimisant l'intervention humaine dans des scénarios de planification multi-étapes complexes. Des expériences menées sur une variété de configurations simulées et réelles de robots impliquant des tâches avec différents modes d'ambiguïté (par exemple, des incertitudes spatiales aux incertitudes numériques, des préférences humaines aux schémas de Winograd) montrent que KnowNo surpasse les approches modernes de référence (qui peuvent inclure des ensembles ou un réglage approfondi des prompts) en termes d'amélioration de l'efficacité et de l'autonomie, tout en offrant des assurances formelles. KnowNo peut être utilisé avec des LLMs sans nécessiter de réglage fin du modèle, et propose une approche légère prometteuse pour modéliser l'incertitude, qui peut compléter et évoluer avec les capacités croissantes des modèles de base. Site web : https://robot-help.github.io
Les Transformers de Diffusion récents (par exemple, DiT) ont démontré leur puissante efficacité dans la génération d'images 2D de haute qualité. Cependant, il reste à déterminer si l'architecture Transformer performe aussi bien dans la génération de formes 3D, car les méthodes de diffusion 3D précédentes adoptaient principalement l'architecture U-Net. Pour combler cette lacune, nous proposons un nouveau Transformer de Diffusion pour la génération de formes 3D, nommé DiT-3D, qui peut directement opérer le processus de débrui sur des nuages de points voxélisés en utilisant des Transformers standards. Comparé aux approches U-Net existantes, notre DiT-3D est plus évolutif en termes de taille de modèle et produit des générations de bien meilleure qualité. Plus précisément, le DiT-3D adopte la philosophie de conception du DiT mais la modifie en incorporant des embeddings positionnels et de patchs 3D pour agréger de manière adaptative les entrées provenant de nuages de points voxélisés. Pour réduire le coût computationnel de l'auto-attention dans la génération de formes 3D, nous intégrons une attention par fenêtre 3D dans les blocs Transformer, car la longueur accrue des tokens 3D résultant de la dimension supplémentaire des voxels peut entraîner une forte computation. Enfin, des couches linéaires et de dévoxélisation sont utilisées pour prédire les nuages de points débruités. De plus, notre architecture Transformer supporte un réglage fin efficace du 2D au 3D, où le checkpoint pré-entraîné DiT-2D sur ImageNet peut significativement améliorer le DiT-3D sur ShapeNet. Les résultats expérimentaux sur le jeu de données ShapeNet démontrent que le DiT-3D proposé atteint des performances de pointe dans la génération de nuages de points 3D haute fidélité et diversifiés. En particulier, notre DiT-3D réduit l'exactitude du 1-Nearest Neighbor de la méthode de pointe de 4,59 et augmente la métrique de Couverture de 3,51 lors de l'évaluation sur la Distance de Chamfer.
Les tokens d'entrée des Vision Transformers portent peu de sens sémantique, car ils sont définis comme des patches réguliers de taille égale de l'image d'entrée, indépendamment de son contenu. Cependant, le traitement des zones d'arrière-plan uniformes d'une image ne devrait pas nécessiter autant de calcul que les zones denses et encombrées. Pour résoudre ce problème, nous proposons un schéma de tokenisation dynamique à échelles mixtes pour les ViT, appelé MSViT. Notre méthode introduit un mécanisme de gating conditionnel qui sélectionne l'échelle optimale des tokens pour chaque région de l'image, de sorte que le nombre de tokens soit déterminé dynamiquement par entrée. Le module de gating proposé est léger, indépendant du choix de l'architecture de transformer sous-jacente, et s'entraîne en quelques époques (par exemple, 20 époques sur ImageNet) avec un faible surcoût d'entraînement. De plus, pour améliorer le comportement conditionnel du gating pendant l'entraînement, nous introduisons une nouvelle généralisation de la fonction de perte de mise en forme par lot. Nous montrons que notre module de gating est capable d'apprendre des sémantiques significatives malgré son fonctionnement local au niveau des patches grossiers. Nous validons MSViT sur les tâches de classification et de segmentation, où il permet d'améliorer le compromis précision-complexité.
Cette étude examine les performances des modèles de langage de grande taille (LLM) open source dans les tâches d'annotation de texte et les compare avec des modèles propriétaires comme ChatGPT et des services basés sur l'humain tels que MTurk. Alors que des recherches antérieures ont démontré les performances élevées de ChatGPT dans de nombreuses tâches de traitement du langage naturel (NLP), les LLM open source comme HugginChat et FLAN attirent l'attention pour leur rentabilité, transparence, reproductibilité et protection supérieure des données. Nous évaluons ces modèles en utilisant à la fois des approches zero-shot et few-shot, ainsi que différents paramètres de température, sur une variété de tâches d'annotation de texte. Nos résultats montrent que si ChatGPT obtient les meilleures performances dans la plupart des tâches, les LLM open source surpassent non seulement MTurk, mais démontrent également un potentiel compétitif face à ChatGPT dans des tâches spécifiques.
Les avatars sont essentiels pour créer des expériences interactives et immersives dans les mondes virtuels. Un défi dans l'animation de ces personnages pour imiter les mouvements d'un utilisateur est que les produits commerciaux de réalité augmentée (AR) et de réalité virtuelle (VR) se composent uniquement d'un casque et de manettes, fournissant des données de capteurs très limitées sur la posture de l'utilisateur. Un autre défi est qu'un avatar peut avoir une structure squelettique différente de celle d'un humain, et la correspondance entre les deux n'est pas claire. Dans ce travail, nous abordons ces deux défis. Nous introduisons une méthode pour retargetter les mouvements en temps réel à partir de données de capteurs humains éparses vers des personnages de morphologies variées. Notre méthode utilise l'apprentissage par renforcement pour entraîner une politique afin de contrôler les personnages dans un simulateur physique. Nous n'avons besoin que de données de capture de mouvement humain pour l'entraînement, sans dépendre d'animations générées par des artistes pour chaque avatar. Cela nous permet d'utiliser de grands ensembles de données de capture de mouvement pour entraîner des politiques générales capables de suivre des utilisateurs non vus à partir de données réelles et éparses en temps réel. Nous démontrons la faisabilité de notre approche sur trois personnages avec des structures squelettiques différentes : un dinosaure, une créature ressemblant à une souris et un humain. Nous montrons que les postures des avatars correspondent souvent étonnamment bien à celles de l'utilisateur, malgré l'absence d'informations de capteurs sur le bas du corps. Nous discutons et analysons les composants importants de notre cadre, notamment l'étape de retargetting cinématique, les récompenses d'imitation, de contact et d'action, ainsi que nos observations asymétriques acteur-critique. Nous explorons également la robustesse de notre méthode dans divers contextes, y compris les mouvements de déséquilibre, de danse et de sport.
Cet article présente l'Elastic Decision Transformer (EDT), une avancée significative par rapport au Decision Transformer (DT) existant et à ses variantes. Bien que le DT prétende générer une trajectoire optimale, des preuves empiriques suggèrent qu'il éprouve des difficultés avec le "trajectory stitching", un processus consistant à générer une trajectoire optimale ou quasi-optimale à partir des meilleures parties d'un ensemble de trajectoires sous-optimales. Le EDT proposé se distingue en facilitant le "trajectory stitching" lors de l'inférence d'actions au moment du test, grâce à l'ajustement de la longueur de l'historique maintenu dans le DT. De plus, le EDT optimise la trajectoire en conservant un historique plus long lorsque la trajectoire précédente est optimale et un historique plus court lorsqu'elle est sous-optimale, lui permettant ainsi de "recoudre" avec une trajectoire plus optimale. Des expérimentations approfondies démontrent la capacité de l'EDT à combler l'écart de performance entre les approches basées sur le DT et celles basées sur l'apprentissage Q. En particulier, l'EDT surpasse les méthodes basées sur l'apprentissage Q dans un régime multi-tâches sur le benchmark de locomotion D4RL et les jeux Atari. Des vidéos sont disponibles à l'adresse suivante : https://kristery.github.io/edt/
Doterr les agents incarnés de bon sens est essentiel pour permettre aux robots d'exécuter avec succès des instructions humaines complexes dans des environnements généraux. Les récents modèles de langage de grande taille (LLM) peuvent intégrer des connaissances sémantiques riches pour les agents dans la génération de plans pour des tâches complexes, mais ils manquent d'informations sur le monde réel et produisent souvent des séquences d'actions irréalisables. Dans cet article, nous proposons un agent de planification de tâches (TaPA) pour les tâches incarnées, permettant une planification ancrée avec des contraintes de scène physique, où l'agent génère des plans exécutables en fonction des objets présents dans la scène en alignant les LLM avec les modèles de perception visuelle. Plus précisément, nous construisons d'abord un ensemble de données multimodal contenant des triplets de scènes intérieures, d'instructions et de plans d'action, où nous fournissons des prompts conçus et la liste des objets existants dans la scène pour que GPT-3.5 génère un grand nombre d'instructions et d'actions planifiées correspondantes. Les données générées sont utilisées pour l'ajustement de plans ancrés des LLM pré-entraînés. Pendant l'inférence, nous détectons les objets dans la scène en étendant les détecteurs d'objets à vocabulaire ouvert aux images RGB multi-vues collectées à différents emplacements accessibles. Les résultats expérimentaux montrent que les plans générés par notre cadre TaPA atteignent un taux de réussite significativement plus élevé que LLaVA et GPT-3.5, ce qui démontre la praticabilité de la planification de tâches incarnées dans des environnements généraux et complexes.
La musique est utilisée pour transmettre des émotions, et donc la génération de musique émotionnelle est importante dans la création musicale automatique. Les travaux précédents sur la génération de musique émotionnelle utilisent directement des étiquettes d'émotion annotées comme signaux de contrôle, ce qui souffre d'un biais subjectif : différentes personnes peuvent annoter des émotions différentes pour la même musique, et une même personne peut ressentir des émotions différentes selon les situations. Par conséquent, mapper directement les étiquettes d'émotion à des séquences musicales de manière end-to-end brouillerait le processus d'apprentissage et empêcherait le modèle de générer une musique avec des émotions générales. Dans cet article, nous proposons EmoGen, un système de génération de musique émotionnelle qui exploite un ensemble d'attributs musicaux liés aux émotions comme pont entre l'émotion et la musique, et divise la génération en deux étapes : le mapping émotion-vers-attribut avec clustering supervisé, et la génération attribut-vers-musique avec apprentissage auto-supervisé. Les deux étapes sont bénéfiques : dans la première étape, les valeurs d'attribut autour du centre de clustering représentent les émotions générales de ces échantillons, ce qui aide à éliminer les impacts du biais subjectif des étiquettes d'émotion ; dans la seconde étape, la génération est complètement dissociée des étiquettes d'émotion et donc libre de tout biais subjectif. Les évaluations subjectives et objectives montrent qu'EmoGen surpasse les méthodes précédentes en termes de précision du contrôle émotionnel et de qualité musicale respectivement, ce qui démontre notre supériorité dans la génération de musique émotionnelle. Des échantillons musicaux générés par EmoGen sont disponibles via ce lien : https://ai-muzic.github.io/emogen/, et le code est disponible à cette adresse : https://github.com/microsoft/muzic/.