Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous découvrons que les échelles de bruit de diffusion couramment utilisées n’imposent pas un rapport signal-sur-bruit (SNR) nul au dernier pas de temps, et que certaines implémentations de méthodes d’échantillonnage par diffusion ne commencent pas à partir du dernier pas de temps. Ces conceptions sont erronées et ne reflètent pas le fait que le modèle reçoit un bruit gaussien pur lors de l’inférence, créant ainsi une divergence entre l’entraînement et l’inférence. Nous montrons que cette conception défectueuse pose des problèmes réels dans les implémentations existantes. Dans Stable Diffusion, elle limite sévèrement le modèle à ne générer que des images de luminosité moyenne et l’empêche de produire des échantillons très clairs ou très sombres. Nous proposons quelques corrections simples : (1) redimensionner l’échelle de bruit pour imposer un SNR terminal nul ; (2) entraîner le modèle avec une prédiction de v ; (3) modifier l’échantillonneur pour qu’il commence toujours au dernier pas de temps ; (4) redimensionner le guidage sans classificateur pour éviter la surexposition. Ces modifications simples garantissent que le processus de diffusion est cohérent entre l’entraînement et l’inférence et permettent au modèle de générer des échantillons plus fidèles à la distribution de données originale.
Dans cet article, nous présentons FitMe, un modèle de réflectance faciale et un pipeline d'optimisation de rendu différentiable, qui peut être utilisé pour acquérir des avatars humains rendus en haute fidélité à partir d'une ou plusieurs images. Le modèle se compose d'un générateur multimodal basé sur le style, qui capture l'apparence faciale en termes de réflectance diffuse et spéculaire, et d'un modèle de forme basé sur l'ACP. Nous utilisons un processus de rendu différentiable rapide qui peut être intégré dans un pipeline d'optimisation, tout en obtenant un ombrage facial photoréaliste. Notre processus d'optimisation capture avec précision à la fois la réflectance faciale et la forme avec un haut niveau de détail, en exploitant l'expressivité de la représentation latente basée sur le style et de notre modèle de forme. FitMe atteint des performances de pointe en matière d'acquisition de réflectance et de préservation de l'identité sur des images faciales uniques "en conditions réelles", tout en produisant des résultats impressionnants de type scan, lorsqu'il est alimenté par plusieurs images faciales non contraintes appartenant à la même identité. Contrairement aux reconstructions d'avatars implicites récentes, FitMe ne nécessite qu'une minute et produit des avatars relightables basés sur des maillages et des textures, qui peuvent être utilisés par des applications grand public.
Les modèles de diffusion excellent dans la génération d'images à partir de texte, en particulier pour la génération axée sur des sujets permettant des images personnalisées. Cependant, les méthodes existantes sont inefficaces en raison de l'ajustement spécifique à chaque sujet, qui est coûteux en calculs et entrave un déploiement efficace. De plus, les méthodes actuelles peinent à générer des images avec plusieurs sujets, car elles mélangent souvent les caractéristiques entre les sujets. Nous présentons FastComposer, qui permet une génération efficace, personnalisée et multi-sujets d'images à partir de texte sans ajustement. FastComposer utilise des embeddings de sujets extraits par un encodeur d'images pour enrichir le conditionnement textuel générique dans les modèles de diffusion, permettant ainsi une génération d'images personnalisées basée sur des images de sujets et des instructions textuelles avec uniquement des passes avant. Pour résoudre le problème de mélange d'identité dans la génération multi-sujets, FastComposer propose une supervision de localisation par attention croisée pendant l'entraînement, forçant l'attention des sujets de référence à se localiser sur les bonnes régions dans les images cibles. Un conditionnement naïf sur les embeddings de sujets entraîne un surajustement. FastComposer propose un conditionnement retardé des sujets lors de l'étape de débruitage pour préserver à la fois l'identité et la capacité d'édition dans la génération d'images axée sur des sujets. FastComposer génère des images de plusieurs individus non vus avec différents styles, actions et contextes. Il atteint une accélération de 300 à 2500 fois par rapport aux méthodes basées sur l'ajustement et ne nécessite aucun stockage supplémentaire pour de nouveaux sujets. FastComposer ouvre la voie à une création d'images multi-sujets efficace, personnalisée et de haute qualité. Le code, le modèle et le jeu de données sont disponibles à l'adresse https://github.com/mit-han-lab/fastcomposer.
Déterminer automatiquement si un texte et une image correspondante sont sémantiquement alignés constitue un défi majeur pour les modèles vision-langage, avec des applications dans les tâches génératives texte-à-image et image-à-texte. Dans ce travail, nous étudions des méthodes pour l'évaluation automatique de l'alignement texte-image. Nous introduisons d'abord SeeTRUE : un ensemble d'évaluation complet, couvrant plusieurs jeux de données issus des tâches de génération texte-à-image et image-à-texte, avec des jugements humains sur l'alignement sémantique d'une paire texte-image donnée. Nous décrivons ensuite deux méthodes automatiques pour déterminer cet alignement : la première impliquant un pipeline basé sur la génération de questions et des modèles de réponse à des questions visuelles, et la seconde utilisant une approche de classification de bout en bout par affinage de modèles multimodaux pré-entraînés. Les deux méthodes surpassent les approches précédentes dans diverses tâches d'alignement texte-image, avec des améliorations significatives dans les cas difficiles impliquant une composition complexe ou des images non naturelles. Enfin, nous montrons comment nos approches peuvent localiser des désalignements spécifiques entre une image et un texte donné, et comment elles peuvent être utilisées pour reclasser automatiquement les candidats dans la génération texte-à-image.
Les humains peuvent facilement interpréter une image unique comme représentant plusieurs objets potentiels permettant une interaction. Nous utilisons cette compétence pour planifier nos interactions avec le monde et accélérer la compréhension de nouveaux objets sans avoir besoin d'interagir directement. Dans cet article, nous souhaitons doter les machines d'une capacité similaire, afin que les agents intelligents puissent mieux explorer les scènes 3D ou manipuler des objets. Notre approche repose sur un modèle basé sur les transformers, qui prédit la localisation 3D, les propriétés physiques et les affordances des objets. Pour alimenter ce modèle, nous avons constitué un ensemble de données comprenant des vidéos issues d'Internet, des vidéos égocentriques et des images d'intérieur, afin de l'entraîner et de le valider. Notre modèle démontre de solides performances sur nos données et se généralise efficacement aux données robotiques.
La recherche sur l'apprentissage continu en ligne (OCL) s'est principalement concentrée sur l'atténuation de l'oubli catastrophique avec une allocation de stockage fixe et limitée tout au long de la vie de l'agent. Cependant, l'accessibilité croissante du stockage de données met en lumière un large éventail d'applications qui ne respectent pas ces hypothèses. Dans ces cas, la préoccupation principale réside dans la gestion des dépenses de calcul plutôt que dans le stockage. Dans cet article, nous ciblons de tels contextes, en étudiant le problème de l'apprentissage continu en ligne en relâchant les contraintes de stockage et en mettant l'accent sur un budget économique fixe et limité. Nous proposons un algorithme simple capable de stocker de manière compacte et d'utiliser l'intégralité du flux de données entrant sous de minuscules budgets de calcul, en utilisant un classifieur kNN et des extracteurs de caractéristiques pré-entraînés universels. Notre algorithme offre une propriété de cohérence attrayante pour l'apprentissage continu : il n'oubliera jamais les données passées. Nous établissons un nouvel état de l'art sur deux ensembles de données OCL à grande échelle : Continual LOCalization (CLOC), qui contient 39 millions d'images réparties sur 712 classes, et Continual Google Landmarks V2 (CGLM), qui contient 580 000 images réparties sur 10 788 classes -- surpassant des méthodes avec des budgets de calcul bien supérieurs aux nôtres en termes de réduction de l'oubli catastrophique des données passées et d'adaptation rapide aux flux de données en évolution rapide. Nous fournissons le code pour reproduire nos résultats à l'adresse https://github.com/drimpossible/ACM.