papers.description
L'apprentissage contrastif s'est imposé comme une méthode transformative pour l'apprentissage de représentations visuelles efficaces grâce à l'alignement des embeddings d'images et de texte. Cependant, le calcul de similarité par paire dans la fonction de perte contrastive entre les paires image-texte pose des défis computationnels. Cet article présente une nouvelle méthode de pré-entraînement faiblement supervisé de modèles visuels sur des données image-texte à l'échelle du web. La méthode proposée reformule le pré-entraînement sur des données image-texte comme une tâche de classification. Par conséquent, elle élimine le besoin de calculs de similarité par paire dans la perte contrastive, permettant une accélération remarquable de 2,7 fois la vitesse d'entraînement par rapport à l'apprentissage contrastif sur des données web-scale. À travers des expériences approfondies couvrant diverses tâches visuelles, y compris la détection et la segmentation, nous démontrons que la méthode proposée maintient une qualité de représentation élevée. Notre code source, ainsi que les poids des modèles pré-entraînés et les protocoles d'entraînement, sont disponibles à l'adresse https://github.com/apple/corenet.
Nous proposons PuLID (Pure and Lightning ID Customization), une nouvelle méthode de personnalisation d'identité sans réglage pour la génération d'images à partir de texte. En intégrant une branche Lightning T2I avec une branche de diffusion standard, PuLID introduit à la fois une perte d'alignement contrastive et une perte d'identité précise, minimisant ainsi les perturbations du modèle original et garantissant une fidélité élevée à l'identité. Les expériences montrent que PuLID obtient des performances supérieures en termes de fidélité à l'identité et de capacité d'édition. Une autre propriété attrayante de PuLID est que les éléments de l'image (par exemple, l'arrière-plan, l'éclairage, la composition et le style) avant et après l'insertion de l'identité sont maintenus aussi cohérents que possible. Les codes et modèles seront disponibles à l'adresse suivante : https://github.com/ToTheBeginning/PuLID.
Le succès du pré-entraînement contrastif image-texte (CLIP) repose sur la supervision issue de l'appariement entre images et légendes, qui tend à être bruité dans les données collectées sur le web. Nous présentons Mixture of Data Experts (MoDE) et apprenons un système d'experts de données CLIP via un clustering. Chaque expert de données est entraîné sur un cluster de données, étant moins sensible aux bruits de faux négatifs dans les autres clusters. Au moment de l'inférence, nous combinons leurs sorties en appliquant des poids déterminés par la corrélation entre les métadonnées de la tâche et les conditions des clusters. Pour estimer précisément cette corrélation, les échantillons d'un cluster doivent être sémantiquement similaires, mais le nombre d'experts de données doit rester raisonnable pour l'entraînement et l'inférence. Ainsi, nous considérons l'ontologie du langage humain et proposons d'utiliser des centres de clusters à granularité fine pour représenter chaque expert de données à un niveau de granularité grossière. Les études expérimentales montrent que quatre experts de données CLIP sur ViT-B/16 surpassent le ViT-L/14 d'OpenAI CLIP et OpenCLIP en classification d'images zero-shot, mais avec un coût d'entraînement moindre (<35\%). Par ailleurs, MoDE permet d'entraîner tous les experts de données de manière asynchrone et peut inclure de nouveaux experts de données de manière flexible. Le code est disponible à l'adresse https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
Le développement rapide des modèles de diffusion a suscité une diversité d'applications. La génération d'images à partir de texte préservant l'identité (ID-T2I) a particulièrement retenu l'attention en raison de ses nombreux scénarios d'application, tels que les portraits IA et la publicité. Bien que les méthodes existantes d'ID-T2I aient démontré des résultats impressionnants, plusieurs défis majeurs persistent : (1) Il est difficile de maintenir avec précision les caractéristiques identitaires des portraits de référence, (2) Les images générées manquent d'attrait esthétique, en particulier lors de la conservation de l'identité, et (3) Il existe une limitation qui empêche la compatibilité simultanée avec les méthodes basées sur LoRA et Adapter. Pour résoudre ces problèmes, nous présentons ID-Aligner, un cadre d'apprentissage par feedback général visant à améliorer les performances de l'ID-T2I. Pour pallier la perte des caractéristiques identitaires, nous introduisons un réglage fin basé sur une récompense de cohérence identitaire, exploitant le feedback des modèles de détection et de reconnaissance faciale pour améliorer la préservation de l'identité générée. De plus, nous proposons un réglage fin basé sur une récompense esthétique identitaire, tirant parti des données de préférence annotées par des humains et des feedbacks automatiquement construits sur la génération de la structure des personnages pour fournir des signaux de réglage esthétique. Grâce à son cadre universel de réglage fin par feedback, notre méthode peut être facilement appliquée à la fois aux modèles LoRA et Adapter, obtenant des gains de performance constants. Des expériences approfondies sur les modèles de diffusion SD1.5 et SDXL valident l'efficacité de notre approche. Page du projet : \url{https://idaligner.github.io/}
L'émergence des modèles de diffusion a grandement propulsé les progrès dans la génération d'images et de vidéos. Récemment, des efforts ont été consacrés à la génération de vidéos contrôlables, incluant la génération de texte-à-vidéo et le contrôle des mouvements vidéo, parmi lesquels le contrôle des mouvements de caméra constitue un sujet important. Cependant, les méthodes existantes de contrôle des mouvements de caméra reposent sur l'entraînement d'un module temporel de caméra et nécessitent des ressources de calcul substantielles en raison du grand nombre de paramètres dans les modèles de génération de vidéos. De plus, les méthodes actuelles prédéfinissent les types de mouvements de caméra pendant l'entraînement, ce qui limite leur flexibilité dans le contrôle de la caméra. Par conséquent, afin de réduire les coûts d'entraînement et d'atteindre un contrôle flexible de la caméra, nous proposons COMD, un nouveau modèle de transfert de mouvement vidéo sans entraînement, qui dissocie les mouvements de caméra et les mouvements d'objets dans les vidéos sources et transfère les mouvements de caméra extraits à de nouvelles vidéos. Nous proposons d'abord une méthode de dissociation des mouvements de caméra en une seule étape pour extraire le mouvement de caméra d'une seule vidéo source, qui sépare les objets en mouvement de l'arrière-plan et estime le mouvement de caméra dans la région des objets en mouvement en se basant sur le mouvement de l'arrière-plan en résolvant une équation de Poisson. En outre, nous proposons une méthode de dissociation des mouvements de caméra en quelques étapes pour extraire le mouvement de caméra commun à partir de plusieurs vidéos avec des mouvements de caméra similaires, qui utilise une technique de clustering basée sur des fenêtres pour extraire les caractéristiques communes dans les cartes d'attention temporelle de plusieurs vidéos. Enfin, nous proposons une méthode de combinaison des mouvements pour combiner différents types de mouvements de caméra, permettant à notre modèle un contrôle de caméra plus contrôlable et flexible. Des expériences approfondies démontrent que notre approche sans entraînement peut efficacement découpler les mouvements caméra-objets et appliquer le mouvement de caméra découplé à une large gamme de tâches de génération de vidéos contrôlables, atteignant un contrôle flexible et diversifié des mouvements de caméra.
Le matting humain est une tâche fondamentale dans le traitement d'images et de vidéos, où les pixels de premier plan humains sont extraits de l'entrée. Les travaux antérieurs améliorent soit la précision par des guidages supplémentaires, soit la cohérence temporelle d'une seule instance à travers les images. Nous proposons un nouveau cadre, MaGGIe (Masked Guided Gradual Human Instance Matting), qui prédit progressivement les mattes alpha pour chaque instance humaine tout en maintenant le coût de calcul, la précision et la cohérence. Notre méthode exploite des architectures modernes, incluant l'attention par transformateur et la convolution parcimonieuse, pour produire simultanément toutes les mattes d'instance sans explosion de la mémoire et de la latence. Bien que conservant des coûts d'inférence constants dans le scénario multi-instance, notre cadre atteint des performances robustes et polyvalentes sur nos nouveaux benchmarks synthétisés. Avec des benchmarks de matting d'images et de vidéos de plus haute qualité, une nouvelle approche de synthèse multi-instance à partir de sources publiquement disponibles est introduite pour augmenter la généralisation des modèles dans des scénarios réels.
Les modèles de diffusion ont réalisé des avancées significatives dans les tâches de synthèse guidée par texte. Cependant, l'édition d'images fournies par l'utilisateur reste un défi, car l'espace d'entrée de bruit de haute dimension des modèles de diffusion ne se prête pas naturellement à l'inversion d'image ou à l'édition spatiale. Dans ce travail, nous proposons une représentation d'image qui facilite l'édition spatiale des images d'entrée à l'aide d'un modèle de diffusion. Concrètement, nous apprenons à encoder une entrée en "éléments d'image" capables de reconstruire fidèlement une image d'entrée. Ces éléments peuvent être intuitivement modifiés par un utilisateur et sont décodés par un modèle de diffusion en images réalistes. Nous démontrons l'efficacité de notre représentation sur diverses tâches d'édition d'images, telles que le redimensionnement d'objets, le réarrangement, le déplacement, la dé-occlusion, la suppression, la variation et la composition d'images. Page du projet : https://jitengmu.github.io/Editable_Image_Elements/
Le décodage spéculatif s'est imposé comme une méthode puissante pour améliorer la latence et le débit lors de l'hébergement de grands modèles de langage. Cependant, la plupart des implémentations existantes se concentrent sur la génération d'une seule séquence. Les applications réelles d'IA générative nécessitent souvent plusieurs réponses, et la manière d'effectuer un décodage spéculatif dans un contexte par lots tout en préservant ses avantages en termes de latence pose des défis non triviaux. Cet article décrit un système de décodage spéculatif par lots qui établit un nouvel état de l'art en matière de latence pour la génération de séquences multiples et démontre une utilisation supérieure des GPU ainsi qu'une qualité de génération optimale dans un budget de temps donné. Par exemple, pour un modèle de 7,8 milliards de paramètres sur un seul GPU A100 et avec une taille de lot de 8, chaque séquence est générée à une vitesse moyenne de 5,8 ms par token, avec un débit global de 1,1K tokens par seconde. Ces résultats représentent une latence de pointe et une accélération de 2,15X par rapport à un décodage régulier optimisé. Dans un budget de temps où le décodage régulier ne parvient pas à terminer, notre système est capable de générer des séquences avec un HumanEval Pass@First de 43 % et un Pass@All de 61 %, dépassant largement ce qui est réalisable avec un décodage spéculatif mono-séquence. Notre utilisation maximale des GPU pendant le décodage atteint jusqu'à 15,8 %, soit plus de 3X le maximum du décodage régulier et environ 10X celui du décodage spéculatif mono-séquence.
Les approches d'apprentissage en contexte (ICL) exploitent généralement des techniques de prompting pour conditionner la génération des modèles de langage à décodeur unique sur des informations de référence. Le traitement en temps réel d'un contexte est inefficace en raison du coût quadratique des opérations d'auto-attention, ce qui rend la mise en cache souhaitable. Cependant, la mise en cache des états des transformateurs peut facilement nécessiter presque autant d'espace que les paramètres du modèle. Lorsque le contexte approprié n'est pas connu à l'avance, la mise en cache de l'ICL peut s'avérer difficile. Ce travail aborde ces limitations en introduisant des modèles qui, inspirés par l'architecture encodeur-décodeur, utilisent l'attention croisée pour conditionner la génération sur un texte de référence sans recourir au prompting. Plus précisément, nous exploitons des modèles pré-entraînés à décodeur unique et n'entraînons qu'un petit nombre de couches supplémentaires. Nous utilisons la tâche de Question-Réponse (QA) comme banc d'essai pour évaluer la capacité de nos modèles à effectuer une génération conditionnelle et observons qu'ils surpassent l'ICL, sont comparables aux grands modèles de langage (LLM) avec prompting finement ajustés, et réduisent considérablement l'empreinte mémoire par rapport à la mise en cache standard des clés-valeurs (KV) d'un facteur de deux ordres de grandeur.