Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les récentes avancées dans les modèles de langage multimodaux à grande échelle (MLLMs) sont remarquables, mais ces MLLMs généralistes montrent souvent des lacunes dans leur capacité à comprendre et à interagir efficacement avec les écrans d'interface utilisateur (UI). Dans cet article, nous présentons Ferret-UI, un nouveau MLLM conçu pour une meilleure compréhension des écrans d'interface mobile, doté de capacités de référencement, d'ancrage et de raisonnement. Étant donné que les écrans d'interface présentent généralement un rapport d'aspect plus allongé et contiennent des objets d'intérêt plus petits (par exemple, des icônes, des textes) que les images naturelles, nous intégrons une fonctionnalité "toute résolution" à Ferret pour amplifier les détails et exploiter des caractéristiques visuelles améliorées. Plus précisément, chaque écran est divisé en 2 sous-images en fonction du rapport d'aspect original (c'est-à-dire une division horizontale pour les écrans en portrait et une division verticale pour les écrans en paysage). Les deux sous-images sont encodées séparément avant d'être envoyées aux LLMs. Nous collectons méticuleusement des échantillons d'entraînement à partir d'une vaste gamme de tâches élémentaires d'interface, telles que la reconnaissance d'icônes, la recherche de texte et la liste de widgets. Ces échantillons sont formatés pour suivre des instructions avec des annotations de région afin de faciliter un référencement et un ancrage précis. Pour renforcer la capacité de raisonnement du modèle, nous compilons également un ensemble de données pour des tâches avancées, incluant des descriptions détaillées, des conversations de perception/interaction et des inférences de fonction. Après entraînement sur les ensembles de données soigneusement sélectionnés, Ferret-UI démontre une compréhension exceptionnelle des écrans d'interface et la capacité à exécuter des instructions ouvertes. Pour l'évaluation du modèle, nous établissons un benchmark complet couvrant toutes les tâches mentionnées précédemment. Ferret-UI excelle non seulement au-delà de la plupart des MLLMs d'interface open-source, mais surpasse également GPT-4V sur toutes les tâches élémentaires d'interface.
Les récentes avancées dans la génération de texte-à-vidéo (T2V) ont permis des succès remarquables dans la synthèse de vidéos générales de haute qualité à partir de descriptions textuelles. Un problème largement négligé dans le domaine T2V est que les modèles existants n'ont pas suffisamment encodé les connaissances physiques du monde réel, ce qui fait que les vidéos générées ont tendance à présenter des mouvements limités et des variations pauvres. Dans cet article, nous proposons MagicTime, un modèle de génération de vidéos accélérées métamorphiques, qui apprend les connaissances physiques du monde réel à partir de vidéos accélérées et met en œuvre une génération métamorphique. Tout d'abord, nous concevons un schéma MagicAdapter pour découpler l'entraînement spatial et temporel, encoder davantage de connaissances physiques à partir de vidéos métamorphiques, et transformer des modèles T2V pré-entraînés pour générer des vidéos métamorphiques. Ensuite, nous introduisons une stratégie d'Extraction Dynamique d'Images pour s'adapter aux vidéos accélérées métamorphiques, qui présentent une plage de variation plus large et couvrent des processus métamorphiques d'objets spectaculaires, incarnant ainsi plus de connaissances physiques que les vidéos générales. Enfin, nous introduisons un Magic Text-Encoder pour améliorer la compréhension des prompts de vidéos métamorphiques. De plus, nous créons un ensemble de données vidéo-texte accélérées appelé ChronoMagic, spécialement conçu pour débloquer la capacité de génération de vidéos métamorphiques. Des expériences approfondies démontrent la supériorité et l'efficacité de MagicTime pour générer des vidéos métamorphiques de haute qualité et dynamiques, suggérant que la génération de vidéos accélérées est une voie prometteuse pour construire des simulateurs métamorphiques du monde physique.
L'édition efficace de contenu personnel joue un rôle central en permettant aux individus d'exprimer leur créativité, de tisser des récits captivants dans leurs histoires visuelles, et d'élever la qualité globale et l'impact de leur contenu visuel. Par conséquent, dans ce travail, nous présentons SwapAnything, un nouveau cadre capable de remplacer n'importe quel objet dans une image par des concepts personnalisés fournis par une référence, tout en conservant le contexte inchangé. Par rapport aux méthodes existantes pour le remplacement de sujets personnalisés, SwapAnything présente trois avantages uniques : (1) un contrôle précis d'objets et de parties arbitraires plutôt que du sujet principal, (2) une préservation plus fidèle des pixels du contexte, (3) une meilleure adaptation du concept personnalisé à l'image. Tout d'abord, nous proposons un échange ciblé de variables pour appliquer un contrôle régional sur les cartes de caractéristiques latentes et échanger les variables masquées afin de préserver fidèlement le contexte et d'effectuer un échange initial de concepts sémantiques. Ensuite, nous introduisons l'adaptation d'apparence, pour intégrer de manière fluide le concept sémantique dans l'image originale en termes d'emplacement cible, de forme, de style et de contenu pendant le processus de génération d'image. Les résultats approfondis, tant sur l'évaluation humaine qu'automatique, démontrent des améliorations significatives de notre approche par rapport aux méthodes de référence en matière de remplacement personnalisé. De plus, SwapAnything montre ses capacités d'échange précises et fidèles à travers des tâches d'échange d'un seul objet, de plusieurs objets, de parties d'objet et d'échange inter-domaines. SwapAnything obtient également d'excellentes performances sur l'échange basé sur le texte et sur des tâches allant au-delà de l'échange, comme l'insertion d'objets.
Les récents progrès dans l'édition générative d'images basée sur la diffusion ont déclenché une révolution profonde, redéfinissant le paysage des tâches de prolongation et de restauration d'images. Malgré ces avancées, le domaine est confronté à des défis inhérents, notamment : i) une qualité inférieure ; ii) une faible cohérence ; iii) un respect insuffisant des instructions ; iv) une efficacité de génération sous-optimale. Pour surmonter ces obstacles, nous présentons ByteEdit, un cadre innovant d'apprentissage par feedback méticuleusement conçu pour améliorer, conformer et accélérer les tâches d'édition générative d'images. ByteEdit intègre de manière fluide des modèles de récompense d'images dédiés à l'amélioration de l'esthétique et de l'alignement image-texte, tout en introduisant un modèle de récompense dense au niveau des pixels, conçu pour favoriser la cohérence des résultats. De plus, nous proposons une stratégie pionnière d'apprentissage par feedback adversarial et progressif pour accélérer la vitesse d'inférence du modèle. Grâce à des évaluations utilisateurs à grande échelle, nous démontrons que ByteEdit surpasse les principaux produits d'édition générative d'images, notamment Adobe, Canva et MeiTu, tant en termes de qualité que de cohérence. ByteEdit-Outpainting montre une amélioration remarquable de 388 % et 135 % en qualité et en cohérence, respectivement, par rapport au modèle de référence. Les expériences ont également confirmé que nos modèles d'accélération maintiennent d'excellents résultats en termes de qualité et de cohérence.
Les modèles de diffusion ont révolutionné le domaine de la génération d'images, entraînant une prolifération de modèles de haute qualité et d'applications en aval diversifiées. Cependant, malgré ces avancées significatives, les solutions compétitives actuelles souffrent encore de plusieurs limitations, notamment une qualité visuelle inférieure, un manque d'attrait esthétique et une inférence inefficace, sans qu'une solution globale ne soit en vue. Pour relever ces défis, nous présentons UniFL, un cadre unifié qui exploite l'apprentissage par feedback pour améliorer de manière exhaustive les modèles de diffusion. UniFL se distingue comme une solution universelle, efficace et généralisable applicable à divers modèles de diffusion, tels que SD1.5 et SDXL. Notamment, UniFL intègre trois composants clés : l'apprentissage par feedback perceptuel, qui améliore la qualité visuelle ; l'apprentissage par feedback découplé, qui renforce l'attrait esthétique ; et l'apprentissage par feedback adversarial, qui optimise la vitesse d'inférence. Des expériences approfondies et des études utilisateurs étendues valident la performance supérieure de notre méthode proposée pour améliorer à la fois la qualité des modèles générés et leur accélération. Par exemple, UniFL surpasse ImageReward de 17 % en termes de préférence utilisateur pour la qualité de génération et dépasse LCM et SDXL Turbo de 57 % et 20 % dans une inférence en 4 étapes. De plus, nous avons vérifié l'efficacité de notre approche dans des tâches en aval, notamment Lora, ControlNet et AnimateDiff.
La récupération de mouvements denses et à longue portée entre pixels dans les vidéos constitue un problème complexe. Une partie de la difficulté provient du processus de projection 3D vers 2D, entraînant des occlusions et des discontinuités dans le domaine du mouvement 2D. Bien que le mouvement 2D puisse être complexe, nous postulons que le mouvement 3D sous-jacent peut souvent être simple et de faible dimension. Dans ce travail, nous proposons d'estimer les trajectoires de points dans l'espace 3D pour atténuer les problèmes causés par la projection d'images. Notre méthode, nommée SpatialTracker, élève les pixels 2D vers la 3D en utilisant des estimateurs de profondeur monoculaires, représente efficacement le contenu 3D de chaque image à l'aide d'une représentation en triplan, et effectue des mises à jour itératives à l'aide d'un transformateur pour estimer les trajectoires 3D. Le suivi en 3D nous permet d'exploiter des contraintes de rigidité maximale (ARAP) tout en apprenant simultanément un embedding de rigidité qui regroupe les pixels en différentes parties rigides. Une évaluation approfondie montre que notre approche atteint des performances de suivi de pointe, à la fois qualitativement et quantitativement, en particulier dans des scénarios difficiles tels que les rotations hors du plan.
La génération de scènes centrées sur l'humain à haute résolution, riches en détails et contrôlables, reste un défi pour les modèles de diffusion texte-image existants. Ce défi découle de la taille limitée des images d'entraînement, de la capacité limitée de l'encodeur de texte (nombre de tokens restreint) et de la difficulté inhérente à générer des scènes complexes impliquant plusieurs humains. Bien que les méthodes actuelles aient tenté de résoudre uniquement la limite de taille d'entraînement, elles ont souvent produit des scènes centrées sur l'humain présentant des artefacts importants. Nous proposons BeyondScene, un cadre novateur qui surmonte ces limitations antérieures, générant des scènes centrées sur l'humain à très haute résolution (plus de 8K) avec une correspondance texte-image exceptionnelle et un rendu naturel, en utilisant des modèles de diffusion pré-entraînés existants. BeyondScene adopte une approche hiérarchique et par étapes pour générer initialement une image de base détaillée, en se concentrant sur les éléments cruciaux dans la création d'instances pour plusieurs humains et sur des descriptions détaillées dépassant la limite de tokens du modèle de diffusion, puis pour convertir de manière fluide cette image de base en une sortie à plus haute résolution, dépassant la taille des images d'entraînement et intégrant des détails conscients du texte et des instances via notre nouveau processus d'agrandissement hiérarchique sensible aux instances, qui comprend notre diffusion avant injectée en haute fréquence et notre diffusion conjointe adaptative. BeyondScene surpasse les méthodes existantes en termes de correspondance avec des descriptions textuelles détaillées et de naturalité, ouvrant la voie à des applications avancées dans la création de scènes centrées sur l'humain à haute résolution, au-delà de la capacité des modèles de diffusion pré-entraînés, sans nécessiter un réentraînement coûteux. Page du projet : https://janeyeon.github.io/beyond-scene.
Avec le succès des grands modèles de langage (LLMs), l'intégration de modèles de vision dans les LLMs pour construire des modèles de base vision-langage a suscité un intérêt croissant récemment. Cependant, les modèles multimodaux de grande taille basés sur les LLMs existants (par exemple, Video-LLaMA, VideoChat) ne peuvent traiter qu'un nombre limité d'images pour la compréhension de vidéos courtes. Dans cette étude, nous nous concentrons principalement sur la conception d'un modèle efficace et efficient pour la compréhension de vidéos longues. Plutôt que de tenter de traiter simultanément plus d'images comme la plupart des travaux existants, nous proposons de traiter les vidéos de manière en ligne et de stocker les informations vidéo passées dans une banque de mémoire. Cela permet à notre modèle de référencer le contenu vidéo historique pour une analyse à long terme sans dépasser les contraintes de longueur de contexte des LLMs ou les limites de mémoire GPU. Notre banque de mémoire peut être intégrée de manière transparente dans les LLMs multimodaux actuels, prêts à l'emploi. Nous menons des expériences approfondies sur diverses tâches de compréhension vidéo, telles que la compréhension de vidéos longues, la réponse à des questions sur des vidéos et la génération de légendes vidéo, et notre modèle peut atteindre des performances de pointe sur plusieurs ensembles de données. Le code est disponible à l'adresse suivante : https://boheumd.github.io/MA-LMM/.
La modélisation et le rendu d'avatars photoréalistes revêtent une importance cruciale dans de nombreuses applications. Cependant, les méthodes existantes qui construisent un avatar 3D à partir d'observations visuelles peinent à reconstruire des humains vêtus. Nous présentons PhysAvatar, un nouveau cadre qui combine l'inversion de rendu avec l'inversion de la physique pour estimer automatiquement la forme et l'apparence d'un humain à partir de données vidéo multi-vues, ainsi que les paramètres physiques du tissu de leurs vêtements. À cette fin, nous adoptons une technique de Gaussienne 4D alignée sur un maillage pour le suivi spatio-temporel du maillage, ainsi qu'un inverseur de rendu basé sur la physique pour estimer les propriétés matérielles intrinsèques. PhysAvatar intègre un simulateur physique pour estimer les paramètres physiques des vêtements en utilisant une optimisation basée sur le gradient de manière rigoureuse. Ces nouvelles capacités permettent à PhysAvatar de créer des rendus de haute qualité de nouvelles vues d'avatars vêtus de vêtements amples sous des mouvements et des conditions d'éclairage non vus dans les données d'entraînement. Cela marque une avancée significative vers la modélisation d'humains numériques photoréalistes en utilisant l'inversion de rendu basée sur la physique avec une boucle de simulation physique. Notre site web de projet est disponible à l'adresse suivante : https://qingqing-zhao.github.io/PhysAvatar
Dans le domaine en pleine expansion des modèles génératifs, le développement de systèmes de diffusion texte-image efficaces et à haute fidélité représente une frontière majeure. Cette étude présente YaART, un nouveau modèle de diffusion en cascade de production, aligné sur les préférences humaines grâce à l'apprentissage par renforcement à partir de retours humains (RLHF). Lors du développement de YaART, nous nous sommes particulièrement concentrés sur les choix relatifs à la taille du modèle et des ensembles de données d'entraînement, des aspects qui n'avaient pas été systématiquement explorés auparavant pour les modèles de diffusion en cascade texte-image. Nous analysons en détail comment ces choix influencent à la fois l'efficacité du processus d'entraînement et la qualité des images générées, des facteurs cruciaux en pratique. De plus, nous démontrons que les modèles entraînés sur des ensembles de données plus petits mais de meilleure qualité peuvent rivaliser avec ceux entraînés sur des ensembles plus volumineux, établissant ainsi un scénario plus efficace pour l'entraînement des modèles de diffusion. En termes de qualité, YaART est systématiquement préféré par les utilisateurs par rapport à de nombreux modèles de pointe existants.
Dans cet article, nous présentons MoMA : un modèle d'image personnalisé à vocabulaire ouvert et sans apprentissage, doté de capacités flexibles de zero-shot. Alors que les modèles fondamentaux de génération d'images à partir de texte évoluent rapidement, la demande pour une traduction robuste d'image à image augmente. Répondant à ce besoin, MoMA se spécialise dans la génération d'images personnalisées pilotée par un sujet. En utilisant un modèle de langage multimodal (MLLM) open-source, nous entraînons MoMA pour jouer un double rôle en tant qu'extracteur de caractéristiques et générateur. Cette approche combine efficacement les informations d'une image de référence et d'une invite textuelle pour produire des caractéristiques d'image utiles, facilitant ainsi un modèle de diffusion d'images. Pour mieux exploiter les caractéristiques générées, nous introduisons en outre une nouvelle méthode de raccourci d'auto-attention qui transfère efficacement les caractéristiques d'image à un modèle de diffusion d'images, améliorant la ressemblance de l'objet cible dans les images générées. De manière remarquable, en tant que module plug-and-play sans réglage, notre modèle ne nécessite qu'une seule image de référence et surpasse les méthodes existantes en générant des images avec une fidélité élevée des détails, une préservation améliorée de l'identité et une fidélité à l'invite. Notre travail est open-source, offrant ainsi un accès universel à ces avancées.
Nous présentons Diffusion-KTO, une nouvelle approche pour aligner les modèles de diffusion texte-image en formulant l'objectif d'alignement comme la maximisation de l'utilité humaine attendue. Comme cet objectif s'applique à chaque génération de manière indépendante, Diffusion-KTO ne nécessite ni la collecte de données de préférences par paires coûteuses ni l'entraînement d'un modèle de récompense complexe. À la place, notre objectif requiert des signaux de feedback binaires simples par image, par exemple des "j'aime" ou "je n'aime pas", qui sont largement disponibles. Après un ajustement fin utilisant Diffusion-KTO, les modèles de diffusion texte-image montrent une performance supérieure comparée aux techniques existantes, y compris l'ajustement fin supervisé et Diffusion-DPO, à la fois en termes de jugement humain et de métriques d'évaluation automatiques telles que PickScore et ImageReward. Globalement, Diffusion-KTO permet d'exploiter le potentiel des signaux binaires par image facilement accessibles et élargit l'applicabilité de l'alignement des modèles de diffusion texte-image avec les préférences humaines.
Les Transformers ont catalysé des avancées dans les domaines de la vision par ordinateur et du traitement du langage naturel (NLP). Cependant, leur complexité computationnelle substantielle pose des limites à leur application dans des tâches à contexte long, telles que la génération d'images haute résolution. Cet article présente une série d'architectures adaptées du modèle RWKV utilisé en NLP, avec les modifications nécessaires pour les modèles de diffusion appliqués à la génération d'images, appelées Diffusion-RWKV. Similairement à la diffusion avec les Transformers, notre modèle est conçu pour gérer efficacement des entrées découpées en séquences avec des conditions supplémentaires, tout en étant capable de s'adapter à des paramètres à grande échelle et à des ensembles de données étendus. Son avantage distinctif réside dans sa complexité réduite d'agrégation spatiale, le rendant particulièrement apte à traiter des images haute résolution, éliminant ainsi la nécessité d'opérations de fenêtrage ou de mise en cache par groupe. Les résultats expérimentaux sur des tâches de génération d'images conditionnelles et non conditionnelles démontrent que Diffusion-RWKV atteint des performances équivalentes ou supérieures aux modèles de diffusion basés sur les CNN ou les Transformers en termes de métriques FID et IS, tout en réduisant significativement l'utilisation totale des FLOPs de calcul.
Les récentes avancées dans les modèles de diffusion ont démontré une remarquable capacité à éditer des images 2D à partir de prompts textuels. Cependant, l'extension de ces techniques pour éditer des scènes dans les champs de radiance neuronaux (NeRF) est complexe, car la modification d'images 2D individuelles peut entraîner des incohérences entre plusieurs vues. Notre idée clé est que la géométrie d'une scène NeRF peut servir de pont pour intégrer ces modifications 2D. En exploitant cette géométrie, nous utilisons un ControlNet conditionné par la profondeur pour améliorer la cohérence de chaque modification d'image 2D. De plus, nous introduisons une approche d'inpainting qui s'appuie sur les informations de profondeur des scènes NeRF pour répartir les modifications 2D sur différentes images, garantissant ainsi une robustesse face aux erreurs et aux défis de rééchantillonnage. Nos résultats montrent que cette méthode permet d'obtenir des modifications plus cohérentes, réalistes et détaillées que les principales méthodes existantes pour l'édition de scènes NeRF pilotée par texte.
La réponse à des questions sur de longues vidéos est une tâche complexe qui implique la reconnaissance d'activités à court terme et le raisonnement sur leurs relations fines. Les modèles de langage de grande taille pour vidéos (vLLMs) de pointe apparaissent comme une solution prometteuse en raison de leurs capacités émergentes démontrées sur de nouvelles tâches. Cependant, bien qu'ils soient entraînés sur des millions de vidéos courtes de quelques secondes, les vLLMs ne parviennent pas à comprendre des vidéos de plusieurs minutes et à répondre avec précision à des questions les concernant. Pour surmonter cette limitation, nous proposons une approche légère et auto-supervisée, appelée Key frame-conditioned long video-LLM (Koala), qui introduit des requêtes spatiotemporelles apprenables pour adapter des vLLMs pré-entraînés à la généralisation sur des vidéos plus longues. Notre approche introduit deux nouveaux tokenizers qui se basent sur des tokens visuels calculés à partir de frames clés éparses de la vidéo, permettant de comprendre des moments courts et longs dans les vidéos. Nous entraînons notre approche sur HowTo100M et démontrons son efficacité sur des benchmarks de compréhension de longues vidéos en zero-shot, où elle surpasse les modèles de grande taille de pointe de 3 à 6 % en précision absolue sur toutes les tâches. De manière surprenante, nous montrons également empiriquement que notre approche aide non seulement un vLLM pré-entraîné à comprendre les longues vidéos, mais améliore aussi sa précision sur la reconnaissance d'actions à court terme.