Articles de recherche en IA sélectionnés quotidiennement avec traductions
Cet article présente un modèle de diffusion texte-vidéo (T2V) contrôlable, nommé Video-ControlNet, qui génère des vidéos conditionnées par une séquence de signaux de contrôle, tels que des cartes de contours ou de profondeur. Video-ControlNet est construit sur un modèle de diffusion texte-image (T2I) conditionnel pré-entraîné, en intégrant un mécanisme d'auto-attention spatio-temporelle et des couches temporelles entraînables pour une modélisation inter-images efficace. Une stratégie de conditionnement sur la première image est proposée pour permettre au modèle de générer des vidéos transférées depuis le domaine de l'image ainsi que des vidéos de longueur arbitraire de manière auto-régressive. De plus, Video-ControlNet utilise une nouvelle stratégie d'initialisation du bruit basée sur les résidus pour introduire un mouvement prioritaire à partir d'une vidéo d'entrée, produisant ainsi des vidéos plus cohérentes. Grâce à l'architecture et aux stratégies proposées, Video-ControlNet peut atteindre une convergence efficace en termes de ressources et générer des vidéos de qualité supérieure et cohérentes avec un contrôle fin. Des expériences approfondies démontrent son succès dans diverses tâches de génération vidéo, telles que l'édition vidéo et le transfert de style vidéo, surpassant les méthodes précédentes en termes de cohérence et de qualité. Page du projet : https://controlavideo.github.io/
Les modèles récents de génération d'images à partir de texte ont démontré une capacité impressionnante à produire des images alignées avec le texte et d'une grande fidélité. Cependant, la génération d'images représentant un nouveau concept fourni par une image d'entrée de l'utilisateur reste une tâche complexe. Pour résoudre ce problème, les chercheurs explorent diverses méthodes pour personnaliser les modèles pré-entraînés de génération d'images à partir de texte. Actuellement, la plupart des méthodes existantes pour personnaliser ces modèles impliquent l'utilisation de techniques de régularisation pour éviter le surapprentissage. Bien que la régularisation facilite la personnalisation et permette une création de contenu réussie en suivant les indications textuelles, elle peut limiter les capacités du modèle, entraînant une perte d'informations détaillées et une performance inférieure. Dans ce travail, nous proposons un nouveau cadre pour la génération personnalisée d'images à partir de texte sans recourir à la régularisation. Plus précisément, notre cadre proposé comprend un réseau encodeur et une nouvelle méthode d'échantillonnage capable de résoudre le problème de surapprentissage sans utiliser de régularisation. Grâce à ce cadre, nous pouvons personnaliser un modèle de génération d'images à partir de texte à grande échelle en moins d'une demi-minute sur un seul GPU, avec une seule image fournie par l'utilisateur. Nous démontrons dans nos expériences que notre cadre surpasse les méthodes existantes et préserve davantage de détails fins.