Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de diffusion sont l'approche de facto pour générer des images et des vidéos de haute qualité, mais l'apprentissage de modèles en haute dimension reste une tâche redoutable en raison des défis computationnels et d'optimisation. Les méthodes existantes recourent souvent à l'entraînement de modèles en cascade dans l'espace des pixels ou à l'utilisation d'un espace latent sous-échantillonné d'un auto-encodeur préalablement entraîné. Dans cet article, nous présentons les Matryoshka Diffusion Models (MDM), un cadre de travail end-to-end pour la synthèse d'images et de vidéos en haute résolution. Nous proposons un processus de diffusion qui débruite les entrées à plusieurs résolutions conjointement et utilise une architecture NestedUNet où les caractéristiques et paramètres pour les entrées à petite échelle sont imbriqués dans ceux des grandes échelles. De plus, MDM permet un plan d'entraînement progressif des résolutions basses vers les hautes, ce qui conduit à des améliorations significatives dans l'optimisation pour la génération en haute résolution. Nous démontrons l'efficacité de notre approche sur divers benchmarks, incluant la génération d'images conditionnées par classe, la génération d'images haute résolution à partir de texte, et les applications texte-à-vidéo. De manière remarquable, nous pouvons entraîner un seul modèle dans l'espace des pixels à des résolutions allant jusqu'à 1024x1024 pixels, démontrant une forte généralisation zero-shot en utilisant le jeu de données CC12M, qui ne contient que 12 millions d'images.
Les grands modèles de langage (LLMs), après avoir été alignés avec des modèles de vision et intégrés dans des modèles vision-langage (VLMs), peuvent apporter des améliorations impressionnantes dans les tâches de raisonnement sur les images. Cela a été démontré par les récentes versions de GPT-4V(ison) et LLaVA-1.5, entre autres. Cependant, la forte priorité linguistique de ces VLMs de pointe peut s'avérer à double tranchant : ils peuvent ignorer le contexte de l'image et se reposer uniquement sur la priorité linguistique (même contradictoire) pour raisonner. En revanche, les modules de vision des VLMs sont moins performants que les LLMs et peuvent produire des représentations visuelles trompeuses, qui sont ensuite traduites en erreurs confiantes par les LLMs. Pour étudier ces deux types d'erreurs des VLMs, à savoir l'hallucination linguistique et l'illusion visuelle, nous avons conçu HallusionBench, un benchmark de raisonnement contextuel sur les images qui reste difficile même pour GPT-4V et LLaVA-1.5. Nous fournissons une analyse détaillée des exemples dans HallusionBench, offrant de nouvelles perspectives sur les illusions ou hallucinations des VLMs et sur la manière de les améliorer à l'avenir. Le benchmark et le codebase seront disponibles sur https://github.com/tianyi-lab/HallusionBench.
Nous présentons DEsignBench, un benchmark de génération texte-image (T2I) conçu spécifiquement pour les scénarios de conception visuelle. Les modèles T2I récents, tels que DALL-E 3 et d'autres, ont démontré des capacités remarquables à générer des images photoréalistes qui s'alignent étroitement avec les entrées textuelles. Bien que l'attrait de créer des images visuellement captivantes soit indéniable, notre accent va au-delà du simple plaisir esthétique. Nous visons à explorer le potentiel d'utilisation de ces modèles puissants dans des contextes de conception authentiques. Dans cette optique, nous avons développé DEsignBench, qui intègre des échantillons de test conçus pour évaluer les modèles T2I sur deux dimensions : la « capacité technique de conception » et le « scénario d'application de conception ». Chacune de ces dimensions est soutenue par un ensemble diversifié de catégories de conception spécifiques. Nous explorons DALL-E 3 ainsi que d'autres modèles T2I de pointe sur DEsignBench, aboutissant à une galerie visuelle complète pour des comparaisons côte à côte. Pour l'évaluation de DEsignBench, nous effectuons des évaluations humaines sur les images générées dans la galerie DEsignBench, en fonction des critères d'alignement texte-image, d'esthétique visuelle et de créativité de conception. Notre évaluation prend également en compte d'autres capacités de conception spécialisées, notamment le rendu de texte, la composition de mise en page, l'harmonie des couleurs, la conception 3D et le style de médium. En plus des évaluations humaines, nous introduisons le premier évaluateur automatique de génération d'images alimenté par GPT-4V. Cet évaluateur fournit des notations qui s'alignent bien avec les jugements humains, tout en étant facilement reproductible et économique. Une version haute résolution est disponible à l'adresse suivante : https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
Avec la disponibilité de grands ensembles de données vidéo et les avancées des modèles de diffusion, la génération de vidéos pilotée par texte a réalisé des progrès significatifs. Cependant, les modèles existants de génération de vidéos sont généralement entraînés sur un nombre limité d'images, ce qui entraîne une incapacité à produire des vidéos longues de haute fidélité lors de l'inférence. De plus, ces modèles ne prennent en charge que des conditions de texte unique, alors que les scénarios réels nécessitent souvent des conditions de texte multiples à mesure que le contenu de la vidéo évolue dans le temps. Pour relever ces défis, cette étude explore le potentiel d'étendre la capacité pilotée par texte pour générer des vidéos plus longues conditionnées par plusieurs textes. 1) Nous analysons d'abord l'impact du bruit initial dans les modèles de diffusion vidéo. En nous appuyant sur cette observation, nous proposons FreeNoise, un paradigme sans réglage et efficace en temps pour améliorer les capacités génératives des modèles de diffusion vidéo pré-entraînés tout en préservant la cohérence du contenu. Plus précisément, au lieu d'initialiser des bruits pour toutes les images, nous réorganisons une séquence de bruits pour une corrélation à long terme et effectuons une attention temporelle sur ceux-ci via une fonction basée sur des fenêtres. 2) En outre, nous concevons une nouvelle méthode d'injection de mouvement pour soutenir la génération de vidéos conditionnées par plusieurs invites textuelles. Des expériences approfondies valident la supériorité de notre paradigme dans l'extension des capacités génératives des modèles de diffusion vidéo. Il est à noter que, par rapport à la méthode précédente la plus performante qui entraînait un coût temporel supplémentaire de 255 %, notre méthode n'engendre qu'un coût temporel négligeable d'environ 17 %. Des échantillons de vidéos générées sont disponibles sur notre site web : http://haonanqiu.com/projects/FreeNoise.html.
Le récent succès des grands modèles de langage (LLM) généralistes a profondément transformé le paradigme du traitement automatique des langues, orientant la discipline vers un modèle de base unifié s'appliquant à divers domaines et tâches. Dans cet article, nous nous concentrons sur l'évaluation des performances de GPT-4, le LLM le plus performant à ce jour, pour des applications textuelles liées aux comptes rendus radiologiques, en le comparant aux modèles spécifiques à la radiologie de pointe (SOTA). En explorant diverses stratégies d'incitation (prompting), nous avons évalué GPT-4 sur une gamme variée de tâches radiologiques courantes et constaté qu'il surpasse ou égalise les modèles SOTA actuels en radiologie. Avec une incitation zero-shot, GPT-4 obtient déjà des gains substantiels (environ 10 % d'amélioration absolue) par rapport aux modèles radiologiques pour la classification de similarité temporelle des phrases (précision) et l'inférence en langage naturel (F_1). Pour les tâches nécessitant l'apprentissage d'un style ou d'un schéma spécifique à un ensemble de données (par exemple, la synthèse des observations), GPT-4 s'améliore avec une incitation basée sur des exemples et atteint les performances des modèles SOTA supervisés. Notre analyse approfondie des erreurs, réalisée avec un radiologue certifié, montre que GPT-4 possède un niveau de connaissances radiologiques suffisant, avec seulement des erreurs occasionnelles dans des contextes complexes nécessitant une compréhension nuancée du domaine. Pour la synthèse des observations, les sorties de GPT-4 sont globalement comparables aux impressions rédigées manuellement existantes.
Nous présentons Habitat 3.0 : une plateforme de simulation pour étudier les tâches collaboratives entre humains et robots dans des environnements domestiques. Habitat 3.0 apporte des contributions dans trois dimensions : (1) Simulation précise d'humanoïdes : résolution des défis liés à la modélisation de corps déformables complexes et à la diversité des apparences et des mouvements, tout en garantissant une vitesse de simulation élevée. (2) Infrastructure humaine dans la boucle : permettant une interaction en temps réel entre des humains et des robots simulés via une souris/clavier ou une interface VR, facilitant l'évaluation des politiques robotiques avec des entrées humaines. (3) Tâches collaboratives : étude de deux tâches collaboratives, la Navigation Sociale et le Réarrangement Social. La Navigation Sociale explore la capacité d'un robot à localiser et suivre des avatars humanoïdes dans des environnements inconnus, tandis que le Réarrangement Social aborde la collaboration entre un humanoïde et un robot lors du réaménagement d'une scène. Ces contributions nous permettent d'étudier en profondeur des approches basées sur l'apprentissage end-to-end et des heuristiques pour la collaboration humain-robot, ainsi que de les évaluer avec des humains dans la boucle. Nos expériences démontrent que les politiques robotiques apprises permettent une exécution efficace des tâches lors de la collaboration avec des agents humanoïdes inconnus et des partenaires humains pouvant présenter des comportements que le robot n'a jamais rencontrés auparavant. De plus, nous observons des comportements émergents lors de l'exécution de tâches collaboratives, comme un robot cédant de l'espace lorsqu'il bloque un agent humanoïde, permettant ainsi à ce dernier de terminer efficacement la tâche. Par ailleurs, nos expériences utilisant l'outil humain dans la boucle montrent que notre évaluation automatisée avec des humanoïdes peut fournir une indication de l'ordre relatif des différentes politiques lorsqu'elles sont évaluées avec de véritables collaborateurs humains. Habitat 3.0 débloque de nouvelles fonctionnalités intéressantes dans les simulateurs pour l'IA incarnée, et nous espérons qu'il ouvre la voie à une nouvelle frontière de capacités d'interaction entre humains et IA incarnée.
Les modèles de langage de grande taille (LLMs) sont fréquemment utilisés pour des tâches complexes de génération et d'évaluation de langage, impliquant la satisfaction de contraintes utilisateur complexes ou la prise en compte de multiples aspects et critères. Cependant, leurs performances peuvent être insuffisantes, en raison du manque de cohérence du modèle et de son incapacité à planifier et à décomposer le problème. Nous proposons Branch-Solve-Merge (BSM), un programme de modèle de langage de grande taille (Schlag et al., 2023) pour aborder de telles tâches de langage naturel complexes. Il se compose de modules de branchement, de résolution et de fusion, paramétrés avec des prompts spécifiques pour le LLM de base. Ces trois modules planifient une décomposition de la tâche en plusieurs sous-tâches parallèles, les résolvent indépendamment, et fusionnent les solutions des sous-tâches. Nous appliquons notre méthode aux tâches d'évaluation de réponses de LLM et de génération de texte contraint, et évaluons son efficacité avec plusieurs LLMs, dont Vicuna, LLaMA-2-chat et GPT-4. BSM améliore la justesse et la cohérence de l'évaluation pour chaque LLM en augmentant l'accord humain-LLM jusqu'à 26%, en réduisant les biais de longueur et de position par paire jusqu'à 50%, et en permettant à LLaMA-2-chat de rivaliser ou de surpasser GPT-4 dans la plupart des domaines. Sur la tâche de génération d'histoire avec contraintes, BSM améliore la cohérence des histoires tout en augmentant la satisfaction des contraintes de 12%.
Nous présentons TexFusion (Texture Diffusion), une nouvelle méthode pour synthétiser des textures pour des géométries 3D données, en utilisant des modèles de diffusion d'images guidés par texte à grande échelle. Contrairement aux travaux récents qui exploitent des modèles de diffusion texte-à-image 2D pour distiller des objets 3D via un processus d'optimisation lent et fragile, TexFusion introduit une technique de génération 3D cohérente spécialement conçue pour la synthèse de textures, qui utilise un échantillonnage régulier de modèles de diffusion sur différentes vues 2D rendues. Plus précisément, nous exploitons des modèles de diffusion latents, appliquons le débruiteur du modèle de diffusion sur un ensemble de rendus 2D de l'objet 3D, et agrégons les différentes prédictions de débruitage sur une carte de texture latente partagée. Les textures RGB finales sont produites en optimisant un champ de couleur neural intermédiaire sur les décodages des rendus 2D de la texture latente. Nous validons rigoureusement TexFusion et montrons que nous pouvons générer efficacement des textures diversifiées, de haute qualité et globalement cohérentes. Nous atteignons des performances de pointe en synthèse de textures guidée par texte en utilisant uniquement des modèles de diffusion d'images, tout en évitant les écueils des méthodes précédentes basées sur la distillation. Le conditionnement par texte offre un contrôle détaillé, et nous ne dépendons d'aucune texture 3D de référence pour l'entraînement. Cela rend notre méthode polyvalente et applicable à une large gamme de géométries et de types de textures. Nous espérons que TexFusion fera progresser la texturation basée sur l'IA des actifs 3D pour des applications en réalité virtuelle, conception de jeux, simulation, et bien plus encore.
Les modèles de diffusion texte-image tels que Stable-Diffusion et Imagen ont atteint une qualité de photoréalisme sans précédent, avec des scores FID de pointe sur MS-COCO et d'autres benchmarks de génération. Étant donné une légende, la génération d'image nécessite une connaissance fine des attributs tels que la structure des objets, le style, le point de vue, entre autres. Où réside cette information dans les modèles génératifs texte-image ? Dans notre article, nous abordons cette question et cherchons à comprendre comment les connaissances correspondant à des attributs visuels distincts sont stockées dans les modèles de diffusion texte-image à grande échelle. Nous adaptons l'analyse de médiation causale pour les modèles texte-image et traçons les connaissances sur les attributs visuels distincts vers divers composants (causaux) dans (i) l'UNet et (ii) l'encodeur de texte du modèle de diffusion. En particulier, nous montrons que, contrairement aux modèles de langage génératifs à grande échelle, les connaissances sur différents attributs ne sont pas localisées dans des composants isolés, mais sont plutôt distribuées parmi un ensemble de composants dans l'UNet conditionnel. Ces ensembles de composants sont souvent distincts pour différents attributs visuels. De manière remarquable, nous constatons que l'encodeur de texte CLIP dans les modèles texte-image publics tels que Stable-Diffusion ne contient qu'un seul état causal pour différents attributs visuels, et il s'agit de la première couche d'auto-attention correspondant au dernier token du sujet de l'attribut dans la légende. Cela contraste fortement avec les états causaux dans d'autres modèles de langage, qui sont souvent les couches MLP intermédiaires. Sur la base de cette observation d'un seul état causal dans l'encodeur de texte, nous introduisons une méthode rapide et sans données d'édition de modèle, Diff-QuickFix, qui peut efficacement éditer des concepts dans les modèles texte-image. DiffQuickFix peut éditer (ablation) des concepts en moins d'une seconde avec une mise à jour en forme fermée, offrant une accélération significative de 1000x et des performances d'édition comparables aux méthodes d'édition basées sur le réglage fin existantes.
En utilisant l'apprentissage en contexte (ICL) pour la génération de données, des techniques telles que Self-Instruct (Wang et al., 2023) ou son successeur Alpaca (Taori et al., 2023) permettent d'entraîner des agents conversationnels performants avec seulement une faible supervision humaine. Une limitation de ces approches est qu'elles recourent à des modèles de langage très volumineux (environ 175 milliards de paramètres) qui sont également propriétaires et non publics. Ici, nous explorons l'application de telles techniques à des modèles de langage beaucoup plus petits (environ 10 à 40 milliards de paramètres) et dotés de licences permissives. Nous constatons que l'approche Self-Instruct est moins efficace à ces tailles et proposons de nouvelles méthodes ICL qui s'appuient sur deux idées principales : (a) la catégorisation et la simplification des modèles ICL pour faciliter l'apprentissage des prompts par le modèle de langage, et (b) l'assemblage de multiples sorties de modèles de langage pour aider à sélectionner des exemples synthétiques de haute qualité. Notre algorithme exploite les 175 tâches de départ de Self-Instruct et utilise des pipelines distincts pour les instructions nécessitant une entrée et celles qui n'en nécessitent pas. Les investigations empiriques avec différents modèles de langage montrent que : (1) notre méthode proposée produit des données de réglage d'instructions de meilleure qualité que Self-Instruct, (2) elle améliore significativement les performances des modèles de langage standard et des modèles réglés sur instructions, et (3) les modèles de langage plus petits réglés sur instructions génèrent des sorties plus utiles que leurs homologues plus grands non réglés. Notre codebase est disponible à l'adresse https://github.com/IBM/ensemble-instruct.
Le feedback humain peut empêcher les énoncés manifestement nuisibles dans les modèles conversationnels, mais ne permet pas nécessairement d'atténuer automatiquement des comportements problématiques plus subtils, tels qu'un désir exprimé d'autopréservation ou de pouvoir. L'IA constitutionnelle propose une alternative, remplaçant le feedback humain par un feedback provenant de modèles d'IA conditionnés uniquement sur une liste de principes écrits. Nous constatons que cette approche empêche efficacement l'expression de tels comportements. Le succès de principes simples nous incite à nous demander : les modèles peuvent-ils apprendre des comportements éthiques généraux à partir d'un seul principe écrit ? Pour tester cela, nous menons des expériences en utilisant un principe formulé approximativement comme "fais ce qui est le mieux pour l'humanité". Nous observons que les plus grands modèles de dialogue peuvent généraliser à partir de cette constitution courte, produisant des assistants inoffensifs sans intérêt déclaré pour des motivations spécifiques comme le pouvoir. Un principe général pourrait ainsi partiellement éviter la nécessité d'une longue liste de constitutions ciblant des comportements potentiellement nuisibles. Cependant, des constitutions plus détaillées améliorent encore le contrôle précis sur des types spécifiques de dommages. Cela suggère que les principes généraux et spécifiques ont tous deux une valeur pour orienter l'IA en toute sécurité.
Avec l'évolution des modèles de langage de grande taille (LLMs), nous pouvons résoudre des tâches de traitement du langage naturel (NLP) de plus en plus complexes dans divers domaines, y compris les feuilles de calcul. Ce travail étudie si les LLMs peuvent générer du code (Excel OfficeScripts, une API TypeScript pour exécuter de nombreuses tâches dans Excel) qui résout des tâches spécifiques à Excel fournies via des instructions utilisateur en langage naturel. Pour ce faire, nous introduisons un nouveau benchmark à grande échelle, InstructExcel, créé en exploitant la fonctionnalité 'Automatiser' d'Excel pour générer automatiquement des OfficeScripts à partir des actions des utilisateurs. Notre benchmark comprend plus de 10 000 échantillons couvrant plus de 170 opérations Excel sur 2 000 feuilles de calcul Excel publiquement disponibles. Les expériences menées dans divers contextes zero-shot et few-shot montrent qu'InstructExcel est un benchmark difficile pour les modèles de pointe comme GPT-4. Nous observons que (1) l'utilisation de GPT-4 plutôt que GPT-3.5, (2) la fourniture de plus d'exemples en contexte, et (3) l'utilisation de prompts dynamiques peuvent aider à améliorer les performances sur ce benchmark.