Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'IA générative a connu des avancées rapides ces dernières années, atteignant des capacités sans précédent en compréhension multimodale et en génération de code. Cela pourrait permettre un nouveau paradigme dans le développement front-end, où les LLM multimodaux pourraient directement convertir des conceptions visuelles en implémentations de code. Dans ce travail, nous formalisons cela comme une tâche Design2Code et menons une évaluation approfondie. Plus précisément, nous avons manuellement constitué un benchmark de 484 pages web réelles et diversifiées comme cas de test, et développé un ensemble de métriques d'évaluation automatiques pour évaluer dans quelle mesure les LLM multimodaux actuels peuvent générer des implémentations de code qui rendent directement les pages web de référence données, en utilisant les captures d'écran comme entrée. Nous complétons également les métriques automatiques par des évaluations humaines approfondies. Nous développons une série de méthodes d'invite multimodales et montrons leur efficacité sur GPT-4V et Gemini Pro Vision. Nous affinons en outre un modèle open-source Design2Code-18B qui parvient à égaler les performances de Gemini Pro Vision. Tant l'évaluation humaine que les métriques automatiques montrent que GPT-4V obtient les meilleurs résultats sur cette tâche par rapport aux autres modèles. De plus, les annotateurs estiment que les pages web générées par GPT-4V peuvent remplacer les pages web de référence originales dans 49 % des cas en termes d'apparence visuelle et de contenu ; et, peut-être de manière surprenante, dans 64 % des cas, les pages web générées par GPT-4V sont considérées comme meilleures que les pages web de référence originales. Nos métriques détaillées indiquent que les modèles open-source sont principalement en retard dans le rappel des éléments visuels des pages web d'entrée et dans la génération de conceptions de mise en page correctes, tandis que des aspects comme le contenu textuel et la coloration peuvent être considérablement améliorés avec un affinage approprié.
Les modèles de diffusion génèrent des données à partir de bruit en inversant les trajectoires directes des données vers le bruit et se sont imposés comme une technique puissante de modélisation générative pour les données perceptuelles de haute dimension, telles que les images et les vidéos. Le flux rectifié est une formulation récente de modèle génératif qui relie les données et le bruit en ligne droite. Malgré ses meilleures propriétés théoriques et sa simplicité conceptuelle, il n'est pas encore fermement établi comme pratique standard. Dans ce travail, nous améliorons les techniques existantes d'échantillonnage de bruit pour l'entraînement des modèles de flux rectifié en les biaisant vers des échelles perceptuellement pertinentes. À travers une étude à grande échelle, nous démontrons la performance supérieure de cette approche par rapport aux formulations de diffusion établies pour la synthèse d'images haute résolution à partir de texte. De plus, nous présentons une nouvelle architecture basée sur des transformers pour la génération d'images à partir de texte, qui utilise des poids distincts pour les deux modalités et permet un flux bidirectionnel d'information entre les tokens d'image et de texte, améliorant ainsi la compréhension du texte, la typographie et les évaluations de préférence humaine. Nous montrons que cette architecture suit des tendances de mise à l'échelle prévisibles et corrèle une perte de validation plus faible à une meilleure synthèse d'images à partir de texte, mesurée par diverses métriques et évaluations humaines. Nos plus grands modèles surpassent les modèles de pointe, et nous rendrons publiques nos données expérimentales, notre code et les poids de nos modèles.
L'essayage virtuel basé sur l'image (VTON), qui vise à générer une image d'une personne cible portant un vêtement en boutique, est une tâche complexe de synthèse d'image nécessitant non seulement une haute fidélité de la personne habillée, mais aussi une préservation complète des détails du vêtement. Pour résoudre ce problème, nous proposons Outfitting over Try-on Diffusion (OOTDiffusion), exploitant la puissance des modèles de diffusion latente pré-entraînés et concevant une architecture de réseau novatrice pour un essai virtuel réaliste et contrôlable. Sans processus de déformation explicite, nous proposons un UNet d'habillage pour apprendre les caractéristiques détaillées du vêtement, et les fusionner avec le corps humain cible via notre fusion d'habillage proposée dans le processus de débruitage des modèles de diffusion. Afin d'améliorer davantage la contrôlabilité de notre UNet d'habillage, nous introduisons un abandon d'habillage lors du processus d'entraînement, ce qui nous permet d'ajuster l'intensité des caractéristiques du vêtement grâce à un guidage sans classifieur. Nos expériences approfondies sur les ensembles de données VITON-HD et Dress Code démontrent qu'OOTDiffusion génère efficacement des images habillées de haute qualité pour des images arbitraires de personnes et de vêtements, surpassant les autres méthodes VTON en termes de fidélité et de contrôlabilité, marquant ainsi une avancée impressionnante dans l'essayage virtuel. Notre code source est disponible à l'adresse https://github.com/levihsu/OOTDiffusion.
Le développement de modèles multimodaux a marqué une avancée significative dans la manière dont les machines comprennent les vidéos. Ces modèles ont montré des résultats prometteurs dans l'analyse de courts clips vidéo. Cependant, lorsqu'il s'agit de formats plus longs comme les films, ils rencontrent souvent des limites. Les principaux obstacles sont le manque de données vidéo de haute qualité et diversifiées, ainsi que le travail intensif requis pour collecter ou annoter de telles données. Face à ces défis, nous proposons MovieLLM, un cadre novateur conçu pour générer des données synthétiques de haute qualité pour les vidéos longues. Ce cadre exploite la puissance de GPT-4 et des modèles de texte-à-image pour produire des scripts détaillés et des visuels correspondants. Notre approche se distingue par sa flexibilité et son évolutivité, en faisant une alternative supérieure aux méthodes traditionnelles de collecte de données. Nos expérimentations approfondies valident que les données produites par MovieLLM améliorent significativement les performances des modèles multimodaux dans la compréhension des récits vidéo complexes, surmontant ainsi les limitations des jeux de données existants en termes de rareté et de biais.
Récemment, la génération vidéo a connu un développement rapide et significatif grâce aux techniques supérieures de génération d'images à partir de texte. Dans ce travail, nous proposons un cadre de haute fidélité pour la génération vidéo à partir d'images, nommé AtomoVideo. En nous appuyant sur l'injection d'images à granularité multiple, nous obtenons une plus grande fidélité de la vidéo générée par rapport à l'image donnée. De plus, grâce à des ensembles de données de haute qualité et à des stratégies d'entraînement efficaces, nous atteignons une intensité de mouvement accrue tout en maintenant une cohérence et une stabilité temporelles supérieures. Notre architecture s'étend de manière flexible à la tâche de prédiction de trames vidéo, permettant la prédiction de séquences longues via une génération itérative. Par ailleurs, grâce à la conception de l'entraînement par adaptateurs, notre approche peut être facilement combinée avec des modèles personnalisés et des modules de contrôle existants. Par des évaluations quantitatives et qualitatives, AtomoVideo obtient des résultats supérieurs par rapport aux méthodes populaires. Plus d'exemples sont disponibles sur notre site web de projet : https://atomo-video.github.io/.
Les grands modèles de langage (LLMs) sont confrontés à un défi de taille en raison des exigences excessives en calcul et en mémoire de l'architecture Transformer couramment utilisée. Bien que les modèles à espace d'état (SSM) constituent un nouveau type d'architecture de réseau fondamental offrant une complexité computationnelle réduite, leurs performances ne rivalisent pas encore pleinement avec celles des Transformers. Cet article présente DenseSSM, une approche novatrice visant à améliorer le flux d'informations cachées entre les couches dans les SSM. En intégrant de manière sélective les états cachés des couches superficielles dans les couches plus profondes, DenseSSM conserve les informations fines cruciales pour la sortie finale. Les connexions denses améliorées de DenseSSM maintiennent toujours la parallélisabilité de l'entraînement et l'efficacité de l'inférence. La méthode proposée peut être largement applicable à divers types de SSM comme RetNet et Mamba. Avec une taille de modèle similaire, DenseSSM réalise des améliorations significatives, illustrées par DenseRetNet surpassant le RetNet original avec une amélioration allant jusqu'à 5 % en précision sur des benchmarks publics.
Les modèles de langage multimodaux de grande taille (MLLMs) ont connu des avancées significatives récemment. Néanmoins, des défis persistent dans la reconnaissance et la compréhension précises des détails complexes au sein d'images haute résolution. Bien qu'indispensable au développement de MLLMs robustes, ce domaine reste sous-exploré. Pour relever ce défi, notre travail présente InfiMM-HD, une nouvelle architecture spécialement conçue pour traiter des images de différentes résolutions avec une faible surcharge computationnelle. Cette innovation facilite l'extension des MLLMs à des capacités de plus haute résolution. InfiMM-HD intègre un module d'attention croisée et des fenêtres visuelles pour réduire les coûts de calcul. En combinant cette conception architecturale avec un pipeline d'entraînement en quatre étapes, notre modèle atteint une perception visuelle améliorée de manière efficace et économique. Une étude empirique souligne la robustesse et l'efficacité d'InfiMM-HD, ouvrant de nouvelles voies d'exploration dans des domaines connexes. Les codes et modèles sont disponibles à l'adresse suivante : https://huggingface.co/Infi-MM/infimm-hd.
Les récents progrès dans les modèles de génération d'images à partir de texte (par exemple, Stable Diffusion) et les technologies de personnalisation associées (comme DreamBooth et LoRA) permettent aux individus de générer des images de haute qualité et imaginatives. Cependant, ces modèles rencontrent souvent des limitations lorsqu'il s'agit de générer des images avec des résolutions en dehors de leur domaine d'entraînement. Pour surmonter cette limitation, nous présentons le Resolution Adapter (ResAdapter), un adapteur cohérent avec le domaine conçu pour les modèles de diffusion afin de générer des images avec des résolutions et des rapports d'aspect non restreints. Contrairement à d'autres méthodes de génération multi-résolution qui traitent des images de résolution statique avec des opérations post-traitement complexes, ResAdapter génère directement des images avec une résolution dynamique. En particulier, après avoir appris une compréhension approfondie des priorités de résolution pure, ResAdapter, entraîné sur un ensemble de données général, génère des images sans contrainte de résolution avec des modèles de diffusion personnalisés tout en préservant leur domaine de style original. Des expériences approfondies démontrent que ResAdapter, avec seulement 0,5 million de paramètres, peut traiter des images avec des résolutions flexibles pour des modèles de diffusion arbitraires. Des expériences supplémentaires montrent que ResAdapter est compatible avec d'autres modules (comme ControlNet, IP-Adapter et LCM-LoRA) pour la génération d'images sur une large gamme de résolutions, et peut être intégré à d'autres modèles multi-résolution (comme ElasticDiffusion) pour générer efficacement des images de plus haute résolution. Le lien du projet est https://res-adapter.github.io.
Ce rapport technique présente TripoSR, un modèle de reconstruction 3D exploitant l'architecture transformer pour une génération 3D rapide en propagation avant, produisant un maillage 3D à partir d'une seule image en moins de 0,5 seconde. S'appuyant sur l'architecture du réseau LRM, TripoSR intègre des améliorations substantielles dans le traitement des données, la conception du modèle et les techniques d'apprentissage. Les évaluations sur des jeux de données publics montrent que TripoSR présente des performances supérieures, à la fois quantitativement et qualitativement, par rapport aux autres alternatives open source. Distribué sous licence MIT, TripoSR vise à doter les chercheurs, développeurs et créatifs des dernières avancées en intelligence artificielle générative 3D.
Le langage offre un moyen de décomposer des concepts complexes en éléments digestes. Les travaux récents en apprentissage par imitation pour robots utilisent des politiques conditionnées par le langage qui prédisent des actions à partir d'observations visuelles et de la spécification de la tâche de haut niveau en langage naturel. Ces méthodes exploitent la structure du langage naturel pour partager des données entre des tâches sémantiquement similaires (par exemple, "ramasser une canette de coca" et "ramasser une pomme") dans des ensembles de données multi-tâches. Cependant, lorsque les tâches deviennent plus sémantiquement diversifiées (par exemple, "ramasser une canette de coca" et "verser une tasse"), le partage de données entre tâches devient plus difficile, ce qui nécessite beaucoup plus de données de démonstration pour apprendre à mapper des tâches de haut niveau à des actions. Pour établir un pont entre les tâches et les actions, notre idée est d'enseigner au robot le langage des actions, en décrivant des mouvements de bas niveau avec des phrases plus granulaires comme "avancer le bras". Prédire ces mouvements langagiers comme étape intermédiaire entre les tâches et les actions force la politique à apprendre la structure partagée des mouvements de bas niveau à travers des tâches apparemment disparates. De plus, une politique conditionnée par les mouvements langagiers peut facilement être corrigée pendant l'exécution via des mouvements langagiers spécifiés par un humain. Cela permet un nouveau paradigme pour des politiques flexibles capables d'apprendre à partir d'interventions humaines en langage. Notre méthode RT-H construit une hiérarchie d'actions en utilisant des mouvements langagiers : elle apprend d'abord à prédire les mouvements langagiers, puis, conditionnée par ceux-ci et la tâche de haut niveau, elle prédit les actions, en utilisant le contexte visuel à toutes les étapes. Nous montrons que RT-H exploite cette hiérarchie langage-action pour apprendre des politiques plus robustes et flexibles en exploitant efficacement des ensembles de données multi-tâches. Nous montrons que ces politiques permettent non seulement de répondre aux interventions langagières, mais peuvent également apprendre à partir de telles interventions et surpasser les méthodes qui apprennent à partir d'interventions téléopérées. Notre site web et nos vidéos sont disponibles à l'adresse https://rt-hierarchy.github.io.
La génération d'actifs 3D suscite un intérêt considérable, inspirée par les récents succès de la création de contenu 2D guidée par texte. Les méthodes existantes de texte-à-3D utilisent des modèles de diffusion pré-entraînés de texte-à-image dans un problème d'optimisation ou les affinent sur des données synthétiques, ce qui aboutit souvent à des objets 3D non photoréalistes sans arrière-plan. Dans cet article, nous présentons une méthode qui exploite des modèles pré-entraînés de texte-à-image comme a priori, et apprend à générer des images multi-vues en un seul processus de débruitage à partir de données du monde réel. Concrètement, nous proposons d'intégrer des couches de rendu volumétrique 3D et d'attention inter-images dans chaque bloc du réseau U-Net existant du modèle texte-à-image. De plus, nous concevons une génération autorégressive qui produit des images plus cohérentes en 3D à n'importe quel point de vue. Nous entraînons notre modèle sur des ensembles de données d'objets du monde réel et démontrons sa capacité à générer des instances avec une variété de formes et de textures de haute qualité dans des environnements authentiques. Par rapport aux méthodes existantes, les résultats générés par notre méthode sont cohérents et présentent une qualité visuelle supérieure (-30% FID, -37% KID).
Les tâches de génération image-à-vidéo (I2V) rencontrent toujours des difficultés à maintenir une haute fidélité dans les domaines ouverts. Les techniques traditionnelles d'animation d'images se concentrent principalement sur des domaines spécifiques tels que les visages ou les poses humaines, ce qui les rend difficiles à généraliser aux domaines ouverts. Plusieurs frameworks I2V récents basés sur les modèles de diffusion peuvent générer du contenu dynamique pour des images de domaines ouverts, mais échouent à maintenir la fidélité. Nous avons constaté que deux facteurs principaux de la faible fidélité sont la perte de détails de l'image et les biais de prédiction du bruit pendant le processus de débruitage. Pour remédier à cela, nous proposons une méthode efficace qui peut être appliquée aux principaux modèles de diffusion vidéo. Cette méthode atteint une haute fidélité en complétant des informations d'image plus précises et en rectifiant le bruit. Plus précisément, étant donné une image spécifiée, notre méthode ajoute d'abord du bruit au latent de l'image d'entrée pour conserver plus de détails, puis débruite le latent bruité avec une rectification appropriée pour atténuer les biais de prédiction du bruit. Notre méthode est sans réglage et prête à l'emploi. Les résultats expérimentaux démontrent l'efficacité de notre approche pour améliorer la fidélité des vidéos générées. Pour plus de résultats de génération image-à-vidéo, veuillez consulter le site web du projet : https://noise-rectification.github.io.
La manipulation d'objets avec deux mains multifonctionnelles constitue un défi de longue date en robotique, en raison de la nature riche en contacts de nombreuses tâches de manipulation et de la complexité inhérente à la coordination d'un système bimanuel à haute dimensionnalité. Dans ce travail, nous abordons le problème du vissage de bouchons sur divers objets de type bouteille à l'aide de deux mains, et démontrons que des politiques entraînées en simulation par apprentissage par renforcement profond peuvent être transférées efficacement au monde réel. Grâce à des idées novatrices en matière de modélisation physique, de perception en temps réel et de conception de récompenses, la politique démontre des capacités de généralisation sur un ensemble varié d'objets non vus, mettant en évidence des comportements dynamiques et habiles. Nos résultats constituent une preuve convaincante que l'apprentissage par renforcement profond combiné au transfert sim-to-real reste une approche prometteuse pour résoudre des problèmes de manipulation d'une complexité sans précédent.
La construction de vidéos photo-réalistes à points de vue libres (Free-Viewpoint Videos, FVVs) de scènes dynamiques à partir de vidéos multi-vues reste un défi complexe. Malgré les avancées remarquables des techniques de rendu neuronal actuelles, ces méthodes nécessitent généralement des séquences vidéo complètes pour un entraînement hors ligne et ne sont pas capables de rendu en temps réel. Pour répondre à ces limitations, nous présentons 3DGStream, une méthode conçue pour le streaming efficace de FVVs de scènes dynamiques réelles. Notre méthode permet une reconstruction rapide image par image en moins de 12 secondes et un rendu en temps réel à 200 images par seconde (FPS). Plus précisément, nous utilisons des Gaussiennes 3D (3DGs) pour représenter la scène. Plutôt que d'optimiser directement les 3DGs image par image de manière naïve, nous employons un Cache de Transformation Neuronale (Neural Transformation Cache, NTC) compact pour modéliser les translations et rotations des 3DGs, réduisant ainsi significativement le temps d'entraînement et le stockage requis pour chaque image FVV. De plus, nous proposons une stratégie d'ajout adaptative de 3DGs pour gérer les objets émergents dans les scènes dynamiques. Les expériences montrent que 3DGStream atteint des performances compétitives en termes de vitesse de rendu, qualité d'image, temps d'entraînement et stockage du modèle par rapport aux méthodes de pointe.