Articles de recherche en IA sélectionnés quotidiennement avec traductions
La synthèse de contenu visuel répondant aux besoins des utilisateurs nécessite souvent un contrôle flexible et précis de la pose, de la forme, de l'expression et de la disposition des objets générés. Les approches existantes obtiennent ce contrôle des réseaux antagonistes génératifs (GAN) via des données d'entraînement annotées manuellement ou un modèle 3D préexistant, ce qui manque souvent de flexibilité, de précision et de généralité. Dans ce travail, nous étudions une méthode puissante mais encore peu explorée pour contrôler les GAN, consistant à "faire glisser" n'importe quel point de l'image pour atteindre précisément des points cibles de manière interactive, comme illustré dans la Fig.1. Pour y parvenir, nous proposons DragGAN, qui se compose de deux éléments principaux : 1) une supervision du mouvement basée sur les caractéristiques, qui guide le point de manipulation vers la position cible, et 2) une nouvelle approche de suivi de points exploitant les caractéristiques discriminatives du générateur pour localiser continuellement la position des points de manipulation. Grâce à DragGAN, tout utilisateur peut déformer une image avec un contrôle précis du déplacement des pixels, manipulant ainsi la pose, la forme, l'expression et la disposition de catégories variées telles que les animaux, les voitures, les humains, les paysages, etc. Ces manipulations étant effectuées sur la variété générative apprise par un GAN, elles produisent des résultats réalistes même dans des scénarios complexes, comme l'hallucination de contenu occlus ou la déformation de formes respectant la rigidité des objets. Des comparaisons qualitatives et quantitatives démontrent l'avantage de DragGAN par rapport aux approches précédentes dans les tâches de manipulation d'images et de suivi de points. Nous illustrons également la manipulation d'images réelles via l'inversion de GAN.
Les modèles de langage sont de plus en plus déployés pour résoudre des problèmes généraux sur une large gamme de tâches, mais restent limités à des processus de décision séquentiels, de gauche à droite, au niveau des tokens lors de l'inférence. Cela signifie qu'ils peuvent échouer dans des tâches nécessitant de l'exploration, une anticipation stratégique, ou où les décisions initiales jouent un rôle crucial. Pour surmonter ces défis, nous introduisons un nouveau cadre pour l'inférence des modèles de langage, l'Arbre de Pensées (Tree of Thoughts, ToT), qui généralise l'approche populaire de la Chaîne de Pensées (Chain of Thought) pour inciter les modèles de langage, et permet l'exploration d'unités cohérentes de texte (pensées) servant d'étapes intermédiaires vers la résolution de problèmes. ToT permet aux modèles de langage de prendre des décisions réfléchies en considérant plusieurs chemins de raisonnement et en auto-évaluant les choix pour décider de la prochaine action, ainsi qu'en anticipant ou en revenant en arrière si nécessaire pour faire des choix globaux. Nos expériences montrent que ToT améliore significativement les capacités de résolution de problèmes des modèles de langage sur trois tâches nouvelles nécessitant une planification ou une recherche non triviale : le Jeu de 24, l'Écriture Créative et les Mots Croisés Miniatures. Par exemple, dans le Jeu de 24, alors que GPT-4 avec l'incitation par Chaîne de Pensées ne résolvait que 4 % des tâches, notre méthode a atteint un taux de réussite de 74 %. Dépôt de code avec toutes les incitations : https://github.com/ysymyth/tree-of-thought-llm.
Cet article de recherche propose un modèle de diffusion latente pour la 3D (LDM3D) qui génère à la fois des images et des cartes de profondeur à partir d'une invite textuelle donnée, permettant aux utilisateurs de créer des images RGBD à partir de prompts textuels. Le modèle LDM3D est affiné sur un ensemble de données contenant des tuples d'images RGB, de cartes de profondeur et de légendes, et est validé par des expériences approfondies. Nous développons également une application appelée DepthFusion, qui utilise les images RGB et les cartes de profondeur générées pour créer des expériences immersives et interactives en vue à 360 degrés à l'aide de TouchDesigner. Cette technologie a le potentiel de transformer un large éventail d'industries, du divertissement et des jeux à l'architecture et au design. Globalement, cet article présente une contribution significative au domaine de l'IA générative et de la vision par ordinateur, et met en lumière le potentiel de LDM3D et DepthFusion à révolutionner la création de contenu et les expériences numériques. Une courte vidéo résumant l'approche est disponible à l'adresse suivante : https://t.ly/tdi2.
Nous présentons OpenShape, une méthode pour apprendre des représentations conjointes multi-modales du texte, de l'image et des nuages de points. Nous adoptons le cadre d'apprentissage contrastif multi-modal couramment utilisé pour l'alignement des représentations, mais avec un accent particulier sur la mise à l'échelle des représentations 3D afin de permettre une compréhension des formes 3D dans un monde ouvert. Pour y parvenir, nous augmentons les données d'entraînement en combinant plusieurs ensembles de données 3D et proposons plusieurs stratégies pour filtrer et enrichir automatiquement les descriptions textuelles bruitées. Nous explorons et comparons également des stratégies pour mettre à l'échelle les réseaux de base 3D et introduisons un nouveau module d'extraction de négatifs difficiles pour un entraînement plus efficace. Nous évaluons OpenShape sur des benchmarks de classification 3D en zero-shot et démontrons ses capacités supérieures pour la reconnaissance dans un monde ouvert. Plus précisément, OpenShape atteint une précision en zero-shot de 46,8 % sur le benchmark Objaverse-LVIS à 1 156 catégories, contre moins de 10 % pour les méthodes existantes. OpenShape atteint également une précision de 85,3 % sur ModelNet40, surpassant les méthodes de base en zero-shot précédentes de 20 % et performant à égalité avec certaines méthodes entièrement supervisées. De plus, nous montrons que nos embeddings appris encodent une large gamme de concepts visuels et sémantiques (par exemple, sous-catégories, couleur, forme, style) et facilitent les interactions fines entre texte-3D et image-3D. En raison de leur alignement avec les embeddings CLIP, nos représentations de formes apprises peuvent également être intégrées à des modèles basés sur CLIP prêts à l'emploi pour diverses applications, telles que la génération de légendes pour les nuages de points et la génération d'images conditionnées par des nuages de points.
Les modèles de langage multi-modaux de grande échelle sont considérés comme une étape cruciale vers l'Intelligence Artificielle Générale (IAG) et ont suscité un intérêt significatif avec l'émergence de ChatGPT. Cependant, les modèles actuels combinant parole et langage adoptent généralement le paradigme en cascade, ce qui empêche le transfert de connaissances inter-modales. Dans cet article, nous proposons SpeechGPT, un modèle de langage de grande échelle doté de capacités conversationnelles intrinsèquement inter-modales, capable de percevoir et de générer du contenu multi-modal. En utilisant des représentations discrètes de la parole, nous construisons d'abord SpeechInstruct, un ensemble de données à grande échelle d'instructions vocales inter-modales. De plus, nous employons une stratégie d'entraînement en trois étapes comprenant un pré-entraînement d'adaptation modale, un affinage par instructions inter-modales et un affinage par chaîne d'instructions modales. Les résultats expérimentaux démontrent que SpeechGPT possède une capacité impressionnante à suivre les instructions humaines multi-modales et mettent en lumière le potentiel de gestion de multiples modalités avec un seul modèle. Des démonstrations sont disponibles sur https://0nutation.github.io/SpeechGPT.github.io/.
Les grands modèles de langage (LLMs) ont considérablement accéléré les progrès vers l'intelligence artificielle générale (AGI), grâce à leur impressionnante capacité en zero-shot pour des tâches adaptées aux utilisateurs, leur conférant un immense potentiel dans une variété d'applications. Cependant, dans le domaine de la vision par ordinateur, malgré la disponibilité de nombreux modèles de base visuels (VFMs) puissants, ils restent limités à des tâches dans un format prédéfini, peinant à égaler les capacités de tâches ouvertes des LLMs. Dans ce travail, nous présentons un framework basé sur les LLMs pour les tâches centrées sur la vision, appelé VisionLLM. Ce framework offre une perspective unifiée pour les tâches de vision et de langage en traitant les images comme un langage étranger et en alignant les tâches centrées sur la vision avec des tâches de langage qui peuvent être définies et gérées de manière flexible à l'aide d'instructions linguistiques. Un décodeur basé sur les LLMs peut ensuite faire des prédictions appropriées en fonction de ces instructions pour des tâches ouvertes. Des expériences approfondies montrent que le VisionLLM proposé peut atteindre différents niveaux de personnalisation des tâches grâce aux instructions linguistiques, allant de la personnalisation fine au niveau des objets à la personnalisation grossière au niveau des tâches, le tout avec de bons résultats. Il est à noter qu'avec un framework généraliste basé sur les LLMs, notre modèle peut atteindre plus de 60 % de mAP sur COCO, à égalité avec les modèles spécifiques à la détection. Nous espérons que ce modèle pourra établir une nouvelle référence pour les modèles généralistes de vision et de langage. La démo sera publiée sur https://github.com/OpenGVLab/InternGPT. Le code sera publié sur https://github.com/OpenGVLab/VisionLLM.
Atteindre l'autonomie des machines et le contrôle humain représentent souvent des objectifs divergents dans la conception des systèmes d'IA interactifs. Les modèles génératifs visuels de base tels que Stable Diffusion montrent un potentiel pour naviguer entre ces objectifs, en particulier lorsqu'ils sont sollicités avec des langages arbitraires. Cependant, ils échouent souvent à générer des images avec des contrôles spatiaux, structurels ou géométriques. L'intégration de tels contrôles, capables d'accommoder diverses conditions visuelles dans un modèle unifié, reste un défi non résolu. En réponse, nous présentons UniControl, un nouveau modèle génératif de base qui consolide une large gamme de tâches contrôlées de condition à image (C2I) dans un cadre unique, tout en permettant des sollicitations linguistiques arbitraires. UniControl permet une génération d'images précise au niveau des pixels, où les conditions visuelles influencent principalement les structures générées et les sollicitations linguistiques guident le style et le contexte. Pour doter UniControl de la capacité à gérer diverses conditions visuelles, nous enrichissons les modèles de diffusion pré-entraînés de texte à image et introduisons un HyperNet conscient des tâches pour moduler les modèles de diffusion, permettant l'adaptation à différentes tâches C2I simultanément. Entraîné sur neuf tâches C2I uniques, UniControl démontre des capacités impressionnantes de génération zero-shot avec des conditions visuelles inédites. Les résultats expérimentaux montrent qu'UniControl surpasse souvent les performances des méthodes contrôlées par une seule tâche de tailles de modèles comparables. Cette polyvalence de contrôle positionne UniControl comme une avancée significative dans le domaine de la génération visuelle contrôlée.
Les modèles de diffusion ont suscité un intérêt croissant pour leurs impressionnantes capacités de génération, mais ils rencontrent actuellement des difficultés à produire du texte précis et cohérent. Pour résoudre ce problème, nous présentons TextDiffuser, qui se concentre sur la génération d'images contenant du texte visuellement attrayant et cohérent avec les arrière-plans. TextDiffuser se compose de deux étapes : d'abord, un modèle Transformer génère la disposition des mots-clés extraits des invites textuelles, puis des modèles de diffusion génèrent des images conditionnées par l'invite textuelle et la disposition générée. De plus, nous contribuons avec le premier jeu de données à grande échelle d'images textuelles annotées par OCR, MARIO-10M, contenant 10 millions de paires image-texte avec des annotations de reconnaissance de texte, de détection et de segmentation au niveau des caractères. Nous collectons également le benchmark MARIO-Eval pour servir d'outil complet d'évaluation de la qualité de rendu du texte. À travers des expériences et des études utilisateurs, nous montrons que TextDiffuser est flexible et contrôlable pour créer des images textuelles de haute qualité en utilisant uniquement des invites textuelles ou en combinaison avec des images de modèles de texte, et réalise de la réparation de texte pour reconstruire des images incomplètes contenant du texte. Le code, le modèle et le jeu de données seront disponibles à l'adresse https://aka.ms/textdiffuser.
L'amélioration de la représentation textuelle a suscité un intérêt considérable pour parvenir à une synthèse vocale (TTS) expressive. Cependant, les travaux existants n'apprennent la prosodie que de manière implicite à travers des tâches de reconstruction de tokens masqués, ce qui entraîne une faible efficacité d'entraînement et des difficultés dans la modélisation de la prosodie. Nous proposons CLAPSpeech, un cadre de pré-entraînement contrastif multimodal qui apprend explicitement la variance prosodique d'un même token textuel dans différents contextes. Plus précisément, 1) Nous encourageons le modèle à associer le contexte textuel à son motif prosodique correspondant dans l'espace multimodal conjoint grâce à une conception minutieuse des entrées de l'encodeur et de la fonction de perte contrastive ; 2) Nous introduisons un pipeline de pré-entraînement multi-échelle pour capturer les motifs prosodiques à plusieurs niveaux. Nous montrons comment intégrer CLAPSpeech dans les modèles TTS existants pour une meilleure prosodie. Les expériences sur trois ensembles de données montrent non seulement que CLAPSpeech peut améliorer la prédiction de la prosodie pour les méthodes TTS existantes, mais démontrent également sa capacité de généralisation pour s'adapter à plusieurs langues et à la synthèse vocale multi-locuteurs. Nous analysons également en profondeur le principe sous-jacent à la performance de CLAPSpeech. Les études d'ablation démontrent la nécessité de chaque composant de notre méthode. Le code source et des échantillons audio sont disponibles à l'adresse https://clapspeech.github.io.
Les modèles de diffusion, tels que Stable Diffusion, ont démontré des performances impressionnantes dans la génération d'images à partir de texte. Étant donné que la génération d'images à partir de texte nécessite souvent que les modèles produisent des concepts visuels avec des détails et des attributs précis spécifiés dans les prompts textuels, pouvons-nous exploiter les représentations puissantes apprises par les modèles de diffusion pré-entraînés pour des tâches discriminatives telles que l'appariement image-texte ? Pour répondre à cette question, nous proposons une nouvelle approche, Discriminative Stable Diffusion (DSD), qui transforme les modèles de diffusion pré-entraînés pour la génération d'images à partir de texte en apprenants discriminatifs à few-shot. Notre approche utilise le score d'attention croisée d'un modèle Stable Diffusion pour capturer l'influence mutuelle entre les informations visuelles et textuelles, et affine le modèle via un apprentissage de prompts basé sur l'attention pour effectuer l'appariement image-texte. En comparant DSD avec les méthodes de pointe sur plusieurs ensembles de données de référence, nous démontrons le potentiel d'utilisation des modèles de diffusion pré-entraînés pour des tâches discriminatives, avec des résultats supérieurs en appariement image-texte à few-shot.
La détection d'objets est passée d'un nombre limité de catégories à un vocabulaire ouvert. Pour aller plus loin, un système de vision intelligent complet nécessite de comprendre des descriptions d'objets plus fines ainsi que leurs parties. Dans cet article, nous proposons un détecteur capable de prédire à la fois des objets en vocabulaire ouvert et leur segmentation en parties. Cette capacité découle de deux conceptions. Premièrement, nous entraînons le détecteur sur un ensemble combiné de données au niveau des parties, des objets et des images pour établir un alignement multi-granularité entre le langage et l'image. Deuxièmement, nous décomposons un nouvel objet en ses parties grâce à sa correspondance sémantique dense avec l'objet de base. Ces deux conceptions permettent au détecteur de tirer largement profit de diverses sources de données et de modèles de base. Dans les expériences de segmentation en parties en vocabulaire ouvert, notre méthode surpasse la référence de 3,3 à 7,3 mAP en généralisation inter-dataset sur PartImageNet, et améliore la référence de 7,3 novel AP_{50} en généralisation inter-catégorie sur Pascal Part. Enfin, nous entraînons un détecteur qui généralise à un large éventail de datasets de segmentation en parties tout en obtenant de meilleures performances qu'un entraînement spécifique à un dataset.
L'évaluation de la cohérence factuelle est souvent réalisée à l'aide de modèles d'Inférence en Langage Naturel (NLI), mais ces modèles montrent un succès limité dans l'évaluation des résumés. Les travaux précédents ont amélioré ces modèles en utilisant des données d'entraînement synthétiques. Cependant, ces données sont généralement basées sur des résumés écrits par des humains et modifiés, qui diffèrent souvent dans leurs caractéristiques des résumés générés par des modèles réels et offrent une couverture limitée des erreurs factuelles possibles. Alternativement, les grands modèles de langage (LLM) ont récemment montré des résultats prometteurs dans l'évaluation directe des tâches génératives, mais sont trop coûteux en calcul pour une utilisation pratique. Motivés par ces limitations, nous introduisons TrueTeacher, une méthode pour générer des données synthétiques en annotant des résumés variés générés par des modèles à l'aide d'un LLM. Contrairement aux travaux précédents, TrueTeacher ne repose pas sur des résumés écrits par des humains et est multilingue par nature. Les expériences sur le benchmark TRUE montrent qu'un modèle étudiant entraîné avec nos données surpasse à la fois le modèle de pointe de capacité similaire et le LLM enseignant. Dans une étude systématique, nous comparons TrueTeacher aux méthodes existantes de génération de données synthétiques et démontrons sa supériorité et sa robustesse face au changement de domaine. En utilisant le jeu de données mFACE, nous montrons également que notre méthode se généralise aux scénarios multilingues. Enfin, nous publions un jeu de données synthétique à grande échelle contenant 1,4 million d'exemples générés avec TrueTeacher.
Nous présentons notre travail sur le développement d'un transformeur texte-à-texte multilingue et efficace, adapté à la gestion de longues entrées. Ce modèle, appelé mLongT5, s'appuie sur l'architecture de LongT5 tout en exploitant les ensembles de données multilingues utilisés pour le pré-entraînement de mT5 ainsi que les tâches de pré-entraînement d'UL2. Nous évaluons ce modèle sur une variété de tâches de résumé multilingue et de question-réponse, et les résultats montrent une performance supérieure de mLongT5 par rapport aux modèles multilingues existants tels que mBART ou M-BERT.
La génération de musique symbolique vise à créer des notes musicales, ce qui peut aider les utilisateurs à composer de la musique, par exemple en générant des pistes instrumentales cibles à partir de zéro ou en se basant sur des pistes sources fournies par l'utilisateur. Compte tenu de la combinaison diverse et flexible entre les pistes sources et cibles, un modèle unifié capable de générer n'importe quelle piste arbitraire est d'une importance cruciale. Les travaux précédents n'ont pas répondu à ce besoin en raison de contraintes inhérentes aux représentations musicales et aux architectures de modèles. Pour répondre à ce besoin, nous proposons une représentation unifiée et un cadre de diffusion nommé GETMusic (`GET' signifiant GEnerate music Tracks), qui inclut une nouvelle représentation musicale nommée GETScore, et un modèle de diffusion nommé GETDiff. GETScore représente les notes sous forme de tokens et les organise dans une structure 2D, avec les pistes empilées verticalement et progressant horizontalement dans le temps. Pendant l'entraînement, les pistes sont sélectionnées aléatoirement comme cibles ou sources. Dans le processus direct, les pistes cibles sont corrompues en masquant leurs tokens, tandis que les pistes sources restent comme vérité terrain. Dans le processus de débruiement, GETDiff apprend à prédire les tokens masqués des pistes cibles, en se basant sur les pistes sources. Avec des pistes séparées dans GETScore et le comportement non-autorégressif du modèle, GETMusic peut contrôler explicitement la génération de n'importe quelle piste cible à partir de zéro ou en se basant sur des pistes sources. Nous menons des expériences sur la génération de musique impliquant six pistes instrumentales, résultant en un total de 665 combinaisons. GETMusic fournit des résultats de haute qualité à travers diverses combinaisons et surpasse les travaux précédents proposés pour certaines combinaisons spécifiques.
Le texte visuel évoque une image dans l'esprit d'une personne, tandis que le texte non visuel n'y parvient pas. Une méthode pour détecter automatiquement la visualité dans un texte permettra d'enrichir le texte avec des images pertinentes, car les modèles de génération et de récupération d'images à partir de texte neuronal opèrent sur l'hypothèse implicite que le texte d'entrée est de nature visuelle. Nous avons constitué un ensemble de données de 3 620 phrases en anglais et leurs scores de visualité fournis par plusieurs annotateurs humains. De plus, nous utilisons des documents contenant du texte et des éléments visuels pour créer un corpus supervisé à distance de texte documentaire et d'images associées. Nous proposons également une stratégie de fine-tuning qui adapte les grands modèles vision-langage comme CLIP, qui supposent une correspondance un-à-un entre texte et image, à la tâche d'évaluation de la visualité du texte à partir du seul texte d'entrée. Notre stratégie consiste à modifier l'objectif d'apprentissage contrastif du modèle pour mapper le texte identifié comme non visuel à une image NULL commune tout en faisant correspondre le texte visuel à leurs images correspondantes dans le document. Nous évaluons l'approche proposée sur sa capacité à (i) classer avec précision le texte visuel et non visuel, et (ii) se concentrer sur les mots identifiés comme visuels dans les études psycholinguistiques. L'évaluation empirique indique que notre approche surpasse plusieurs heuristiques et modèles de base pour la tâche proposée. Par ailleurs, pour souligner l'importance de modéliser la visualité du texte, nous menons des analyses qualitatives des systèmes de génération d'images à partir de texte comme DALL-E.
Nous étudions l'utilisation de modèles séquentiels de type transformer comme modèles de dynamique (TDM) pour le contrôle. À travers plusieurs expériences dans la suite de contrôle DeepMind, nous constatons que, premièrement, les TDM obtiennent de bons résultats dans un cadre d'apprentissage mono-environnement par rapport aux modèles de référence. Deuxièmement, les TDM démontrent de solides capacités de généralisation à des environnements inconnus, que ce soit dans un contexte de few-shot, où un modèle généraliste est affiné avec de petites quantités de données provenant de l'environnement cible, ou dans un contexte de zero-shot, où un modèle généraliste est appliqué à un environnement inconnu sans entraînement supplémentaire. Nous montrons en outre que la généralisation des dynamiques du système peut fonctionner bien mieux que la généralisation directe d'un comportement optimal sous forme de politique. Cela fait des TDM un composant prometteur pour un modèle fondateur du contrôle.
Nous présentons VideoFactory, un cadre innovant pour la génération de vidéos de haute qualité dans des domaines ouverts. VideoFactory excelle dans la production de vidéos haute définition (1376x768) au format large (16:9) sans filigrane, offrant ainsi une expérience utilisateur immersive. La génération de vidéos guidée par des instructions textuelles pose des défis majeurs, tels que la modélisation de la relation complexe entre l'espace et le temps, ainsi que le manque de données à grande échelle associant texte et vidéo. Les approches précédentes étendent des modèles pré-entraînés de génération d'images à partir de texte en ajoutant des modules de convolution/attention temporelle 1D pour la génération de vidéos. Cependant, ces approches négligent l'importance d'une modélisation conjointe de l'espace et du temps, entraînant inévitablement des distorsions temporelles et des désalignements entre les textes et les vidéos. Dans cet article, nous proposons une nouvelle approche qui renforce l'interaction entre les perceptions spatiales et temporelles. En particulier, nous utilisons un mécanisme d'attention croisée alternée dans des fenêtres 3D qui alterne le rôle de "requête" entre les blocs spatiaux et temporels, permettant ainsi un renforcement mutuel. Pour libérer pleinement les capacités du modèle en matière de génération de vidéos de haute qualité, nous avons constitué un vaste ensemble de données vidéo appelé HD-VG-130M. Ce dataset comprend 130 millions de paires texte-vidéo provenant de domaines ouverts, garantissant des caractéristiques haute définition, au format large et sans filigrane. Les métriques objectives et les études utilisateurs démontrent la supériorité de notre approche en termes de qualité par image, de corrélation temporelle et d'alignement texte-vidéo, avec des marges significatives.
Le Transformer pré-entraîné génératif (GPT) a démontré son grand succès dans le traitement du langage naturel, et les techniques associées ont été adaptées à la modélisation moléculaire. Considérant que le texte constitue l'enregistrement le plus important pour les découvertes scientifiques, nous proposons dans cet article MolXPT, un modèle de langage unifié pour le texte et les molécules, pré-entraîné sur des SMILES (une représentation séquentielle des molécules) encapsulés dans du texte. En bref, nous détectons les noms de molécules dans chaque séquence et les remplaçons par les SMILES correspondants. De cette manière, les SMILES peuvent tirer parti des informations provenant du texte environnant, et vice versa. Les séquences encapsulées ainsi obtenues, les séquences textuelles provenant de PubMed et les séquences SMILES de PubChem sont toutes introduites dans un modèle de langage pour le pré-entraînement. Les résultats expérimentaux montrent que MolXPT surpasse les modèles de référence pour la prédiction des propriétés moléculaires sur MoleculeNet, obtient des performances comparables au meilleur modèle en traduction texte-molécule tout en utilisant moins de la moitié de ses paramètres, et permet la génération de molécules en zero-shot sans ajustement fin.
Malgré des progrès considérables dans la génération d'images de haute qualité grâce aux modèles de diffusion, la synthèse d'une séquence de frames animées à la fois photoréalistes et temporellement cohérentes en est encore à ses balbutiements. Bien que des ensembles de données à l'échelle du milliard soient disponibles pour la génération d'images, la collecte de données vidéo similaires à la même échelle reste un défi. De plus, l'entraînement d'un modèle de diffusion vidéo est beaucoup plus coûteux en termes de calcul que son équivalent pour les images. Dans ce travail, nous explorons le fine-tuning d'un modèle de diffusion d'images pré-entraîné avec des données vidéo comme solution pratique pour la tâche de synthèse vidéo. Nous constatons qu'une extension naïve du bruit d'image au bruit vidéo dans la diffusion vidéo conduit à des performances sous-optimales. Notre conception soigneusement élaborée du bruit vidéo permet d'obtenir des performances nettement supérieures. Une validation expérimentale approfondie montre que notre modèle, Preserve Your Own Correlation (PYoCo), atteint des résultats SOTA en génération zéro-shot de texte à vidéo sur les benchmarks UCF-101 et MSR-VTT. Il atteint également une qualité de génération vidéo SOTA sur le benchmark à petite échelle UCF-101 avec un modèle 10 fois plus petit, en utilisant significativement moins de calcul que l'état de l'art précédent.