Articles de recherche en IA sélectionnés quotidiennement avec traductions
La personnalisation est devenue un aspect prépondérant dans le domaine de l'IA générative, permettant la synthèse d'individus dans divers contextes et styles, tout en conservant une fidélité élevée à leurs identités. Cependant, le processus de personnalisation présente des défis inhérents en termes de temps et de mémoire requis. L'affinage de chaque modèle personnalisé nécessite un investissement considérable en temps GPU, et le stockage d'un modèle personnalisé par sujet peut être exigeant en termes de capacité de stockage. Pour surmonter ces défis, nous proposons HyperDreamBooth, un hyper-réseau capable de générer efficacement un petit ensemble de poids personnalisés à partir d'une seule image d'une personne. En composant ces poids dans le modèle de diffusion, couplé à un affinage rapide, HyperDreamBooth peut générer le visage d'une personne dans divers contextes et styles, avec des détails élevés sur le sujet tout en préservant les connaissances cruciales du modèle sur les styles divers et les modifications sémantiques. Notre méthode réalise la personnalisation des visages en environ 20 secondes, soit 25 fois plus rapide que DreamBooth et 125 fois plus rapide que Textual Inversion, en utilisant aussi peu qu'une seule image de référence, avec la même qualité et diversité de style que DreamBooth. De plus, notre méthode produit un modèle qui est 10 000 fois plus petit qu'un modèle DreamBooth normal. Page du projet : https://hyperdreambooth.github.io
La personnalisation texte-image (T2I) permet aux utilisateurs de guider le processus de génération créative d'images en combinant leurs propres concepts visuels dans des invites en langage naturel. Récemment, les techniques basées sur des encodeurs ont émergé comme une nouvelle approche efficace pour la personnalisation T2I, réduisant le besoin de multiples images et de longs temps d'entraînement. Cependant, la plupart des encodeurs existants sont limités à un domaine de classe unique, ce qui entrave leur capacité à gérer des concepts diversifiés. Dans ce travail, nous proposons une méthode agnostique au domaine qui ne nécessite aucun ensemble de données spécialisé ni information préalable sur les concepts personnalisés. Nous introduisons une nouvelle technique de régularisation basée sur le contraste pour maintenir une haute fidélité aux caractéristiques du concept cible tout en gardant les embeddings prédits proches des zones modifiables de l'espace latent, en poussant les tokens prédits vers leurs tokens CLIP existants les plus proches. Nos résultats expérimentaux démontrent l'efficacité de notre approche et montrent comment les tokens appris sont plus sémantiques que ceux prédits par des modèles non régularisés. Cela conduit à une meilleure représentation qui atteint des performances de pointe tout en étant plus flexible que les méthodes précédentes.
La génération de vidéos pour la narration visuelle peut s'avérer un processus fastidieux et complexe, nécessitant généralement soit un tournage en prise de vue réelle, soit un rendu d'animation graphique. Pour contourner ces difficultés, notre idée clé est d'exploiter l'abondance de clips vidéo existants et de synthétiser une vidéo narrative cohérente en personnalisant leurs apparences. Nous y parvenons en développant un cadre composé de deux modules fonctionnels : (i) la Récupération de Structure de Mouvement, qui fournit des candidats vidéo avec le contexte de scène ou de mouvement souhaité décrit par des textes de requête, et (ii) la Synthèse Vidéo Guidée par Structure à partir de Texte, qui génère des vidéos alignées sur l'intrigue sous la guidance de la structure de mouvement et des prompts textuels. Pour le premier module, nous exploitons un système de récupération vidéo existant et extrayons les profondeurs vidéo comme structure de mouvement. Pour le second module, nous proposons un modèle de génération vidéo contrôlable offrant une flexibilité dans le contrôle de la structure et des personnages. Les vidéos sont synthétisées en suivant les instructions structurelles et d'apparence. Pour garantir une cohérence visuelle entre les clips, nous proposons une approche efficace de personnalisation de concept, permettant de spécifier les identités des personnages souhaitées via des prompts textuels. Des expériences approfondies démontrent que notre approche présente des avantages significatifs par rapport à diverses méthodes de référence existantes.
Dans cet article, nous présentons une approche novatrice pour améliorer la qualité et la cohérence des sorties générées par les modèles de langage pré-entraînés à grande échelle (LLMs). L'auto-cohérence s'est révélée être une méthode efficace pour les prompts ayant des réponses fixes, en sélectionnant la réponse ayant le plus grand nombre de votes. Dans cet article, nous introduisons un cadre généralisé pour l'auto-cohérence qui étend son applicabilité au-delà des problèmes ayant des réponses fixes. Grâce à des simulations approfondies, nous démontrons que notre approche récupère systématiquement la génération optimale ou quasi-optimale parmi un ensemble de candidats. Nous proposons également des fonctions de similarité légères et sans paramètres qui montrent des améliorations significatives et cohérentes pour les tâches de génération de code, d'autoformalisation et de résumé, même sans accès aux probabilités logarithmiques des tokens. Notre méthode entraîne une surcharge computationnelle minimale, ne nécessitant aucun modèle de reclassement auxiliaire ni modification du modèle existant.