papers.description
À l'ère de l'apprentissage multimodal avancé, les modèles de langage multimodal de grande envergure (MLLMs) tels que GPT-4V ont réalisé des progrès remarquables dans le rapprochement des éléments linguistiques et visuels. Cependant, leur nature propriétaire et leurs exigences computationnelles considérables posent des défis notables pour une utilisation et des modifications universelles. C'est là qu'interviennent les MLLMs open-source comme LLaVA et MiniGPT-4, qui présentent des réalisations révolutionnaires dans diverses tâches. Malgré ces accomplissements, l'efficacité computationnelle reste un problème non résolu, car ces modèles, comme LLaVA-v1.5-13B, nécessitent des ressources substantielles. Pour répondre à ces problèmes, nous introduisons TinyGPT-V, un modèle de nouvelle génération alliant des performances impressionnantes à une capacité computationnelle courante. Il se distingue en nécessitant seulement un GPU de 24 Go pour l'entraînement et un GPU de 8 Go ou un CPU pour l'inférence. Basé sur Phi-2, TinyGPT-V associe une architecture linguistique efficace à des modules de vision pré-entraînés issus de BLIP-2 ou CLIP. Les 2,8 milliards de paramètres de TinyGPT-V peuvent subir un processus de quantification unique, adapté au déploiement local et aux tâches d'inférence sur divers appareils de 8 Go. Notre travail favorise de nouveaux développements dans la conception de MLLMs économiques, efficaces et performants, élargissant leur applicabilité dans un large éventail de scénarios réels. De plus, cet article propose un nouveau paradigme de modèle de langage multimodal de grande envergure via des architectures légères. Notre code et nos poids d'entraînement sont disponibles à l'adresse suivante : https://github.com/DLYuanGod/TinyGPT-V et https://huggingface.co/Tyrannosaurus/TinyGPT-V respectivement.
Nous présentons Unified-IO 2, le premier modèle multimodal autorégressif capable de comprendre et de générer des images, du texte, de l'audio et des actions. Pour unifier les différentes modalités, nous tokenisons les entrées et sorties — images, texte, audio, actions, boîtes englobantes, etc. — dans un espace sémantique partagé, puis les traitons avec un unique modèle transformeur encodeur-décodeur. Étant donné que l'entraînement avec des modalités aussi diverses est complexe, nous proposons diverses améliorations architecturales pour stabiliser l'entraînement du modèle. Nous entraînons notre modèle à partir de zéro sur un large corpus de pré-entraînement multimodal provenant de sources variées, avec un objectif de mélange multimodal de débruiteurs. Pour apprendre un ensemble étendu de compétences, telles que le suivi d'instructions multimodales, nous construisons et affinons un ensemble de 120 jeux de données avec des prompts et des augmentations. Avec un seul modèle unifié, Unified-IO 2 atteint des performances de pointe sur le benchmark GRIT et obtient des résultats solides sur plus de 35 benchmarks, incluant la génération et la compréhension d'images, la compréhension du langage naturel, la compréhension de vidéos et d'audio, ainsi que la manipulation robotique. Nous mettons tous nos modèles à disposition de la communauté de recherche.
Les corpus de grande échelle et de haute qualité constituent la pierre angulaire de la construction de modèles de base. Dans ce travail, nous présentons MathPile, un corpus diversifié et de haute qualité centré sur les mathématiques, comprenant environ 9,5 milliards de tokens. Tout au long de sa création, nous avons adhéré au principe du « moins est plus », en croyant fermement à la suprématie de la qualité des données sur la quantité, même lors de la phase de pré-entraînement. Nos efforts méticuleux de collecte et de traitement des données ont inclus une suite complexe de prétraitement, préfiltrage, identification de la langue, nettoyage, filtrage et déduplication, garantissant ainsi la haute qualité de notre corpus. De plus, nous avons effectué une détection de contamination des données sur les ensembles de tests de référence en aval pour éliminer les doublons. Nous espérons que notre MathPile pourra contribuer à améliorer les capacités de raisonnement mathématique des modèles de langage. Nous prévoyons de rendre open-source différentes versions de \mathpile ainsi que les scripts utilisés pour leur traitement, afin de faciliter les développements futurs dans ce domaine.
Nous présentons MobileVLM, un modèle multimodal vision-langage (MMVLM) performant conçu pour fonctionner sur des appareils mobiles. Il s'agit d'une combinaison de multiples architectures et techniques orientées vers les mobiles, comprenant un ensemble de modèles linguistiques de 1,4 milliard et 2,7 milliards de paramètres, entraînés à partir de zéro, un modèle de vision multimodal pré-entraîné à la manière de CLIP, et une interaction intermodale via un projecteur efficace. Nous évaluons MobileVLM sur plusieurs benchmarks typiques des modèles vision-langage. Nos modèles démontrent des performances comparables à celles de modèles beaucoup plus volumineux. Plus important encore, nous mesurons la vitesse d'inférence sur un processeur Qualcomm Snapdragon 888 et un GPU NVIDIA Jetson Orin, obtenant des performances de pointe de 21,5 et 65,3 tokens par seconde, respectivement. Notre code sera disponible à l'adresse suivante : https://github.com/Meituan-AutoML/MobileVLM.
Plusieurs approches de segmentation d'images non supervisées ont été proposées, éliminant ainsi le besoin de masques de segmentation annotés manuellement de manière dense. Les modèles actuels traitent séparément soit la segmentation sémantique (par exemple, STEGO), soit la segmentation d'instances indépendante des classes (par exemple, CutLER), mais pas les deux simultanément (c'est-à-dire la segmentation panoptique). Nous proposons un modèle de segmentation universelle non supervisée (U2Seg) capable d'exécuter diverses tâches de segmentation d'images — segmentation d'instances, sémantique et panoptique — en utilisant un cadre unifié novateur. U2Seg génère des étiquettes sémantiques pseudo pour ces tâches de segmentation en exploitant des modèles auto-supervisés suivis d'un clustering ; chaque cluster représente l'appartenance sémantique et/ou d'instance différente des pixels. Nous auto-entraînons ensuite le modèle sur ces étiquettes sémantiques pseudo, obtenant ainsi des gains de performance substantiels par rapport aux méthodes spécialisées adaptées à chaque tâche : une augmentation de +2,6 AP^{box} par rapport à CutLER dans la segmentation d'instances non supervisée sur COCO et une augmentation de +7,0 PixelAcc (par rapport à STEGO) dans la segmentation sémantique non supervisée sur COCOStuff. De plus, notre méthode établit une nouvelle référence pour la segmentation panoptique non supervisée, qui n'avait pas été explorée auparavant. U2Seg est également un modèle pré-entraîné robuste pour la segmentation en faible régime de données, surpassant CutLER de +5,0 AP^{mask} lorsqu'il est entraîné avec un faible volume de données, par exemple seulement 1 % des étiquettes de COCO. Nous espérons que notre méthode simple mais efficace pourra inspirer davantage de recherches sur la segmentation universelle d'images non supervisée.
Des progrès remarquables ont été réalisés récemment dans la génération de contenu 4D. Cependant, les méthodes existantes souffrent d'un temps d'optimisation long, d'un manque de contrôlabilité du mouvement et d'un niveau de détail insuffisant. Dans cet article, nous présentons DreamGaussian4D, un cadre de génération 4D efficace basé sur la représentation par projection gaussienne 4D. Notre idée clé est que la modélisation explicite des transformations spatiales dans la projection gaussienne la rend plus adaptée au contexte de génération 4D par rapport aux représentations implicites. DreamGaussian4D réduit le temps d'optimisation de plusieurs heures à seulement quelques minutes, permet un contrôle flexible du mouvement 3D généré, et produit des maillages animés qui peuvent être rendus efficacement dans des moteurs 3D.
Nous avons assisté à des progrès significatifs dans la vision 3D basée sur l'apprentissage profond, allant de l'apprentissage de représentations 3D basé sur les champs de radiance neuronaux (NeRF) aux applications dans la synthèse de nouvelles vues (NVS). Cependant, les ensembles de données existants au niveau scénique pour la vision 3D basée sur l'apprentissage profond, limités soit à des environnements synthétiques, soit à une sélection restreinte de scènes du monde réel, sont tout à fait insuffisants. Cette insuffisance non seulement entrave une évaluation complète des méthodes existantes, mais limite également ce qui pourrait être exploré dans l'analyse 3D basée sur l'apprentissage profond. Pour combler cette lacune critique, nous présentons DL3DV-10K, un ensemble de données scénique à grande échelle, comprenant 51,2 millions d'images issues de 10 510 vidéos capturées dans 65 types de lieux d'intérêt (POI), couvrant à la fois des scènes délimitées et non délimitées, avec différents niveaux de réflexion, de transparence et d'éclairage. Nous avons réalisé une évaluation complète des méthodes récentes de NVS sur DL3DV-10K, ce qui a révélé des insights précieux pour les recherches futures en NVS. De plus, nous avons obtenu des résultats encourageants dans une étude pilote visant à apprendre un NeRF généralisable à partir de DL3DV-10K, ce qui manifeste la nécessité d'un ensemble de données scénique à grande échelle pour ouvrir la voie vers un modèle de base pour l'apprentissage de représentations 3D. Notre ensemble de données DL3DV-10K, les résultats d'évaluation et les modèles seront accessibles publiquement à l'adresse https://dl3dv-10k.github.io/DL3DV-10K/.
NeRF a considérablement fait progresser la reconstruction de scènes 3D, capturant des détails complexes dans divers environnements. Les méthodes existantes ont réussi à exploiter la cuisson des champs de radiance pour faciliter le rendu en temps réel de petites scènes. Cependant, lorsqu'elles sont appliquées à des scènes à grande échelle, ces techniques rencontrent des défis majeurs, peinant à offrir une expérience fluide en temps réel en raison de ressources limitées en calcul, mémoire et bande passante. Dans cet article, nous proposons City-on-Web, qui représente l'ensemble de la scène en la partitionnant en blocs gérables, chacun avec son propre niveau de détail, garantissant une haute fidélité, une gestion efficace de la mémoire et un rendu rapide. Parallèlement, nous concevons soigneusement le processus d'entraînement et d'inférence pour que le résultat final du rendu sur le web soit cohérent avec l'entraînement. Grâce à notre nouvelle représentation et à notre processus d'entraînement/inférence minutieusement conçu, nous sommes les premiers à réaliser le rendu en temps réel de scènes à grande échelle dans des environnements à ressources limitées. Les résultats expérimentaux approfondis démontrent que notre méthode facilite le rendu en temps réel de scènes à grande échelle sur une plateforme web, atteignant 32 FPS à une résolution de 1080P avec une carte graphique RTX 3060, tout en atteignant une qualité proche des méthodes de pointe. Page du projet : https://ustc3dv.github.io/City-on-Web/
Dans le domaine en évolution rapide de la génération de contenu numérique, l'accent s'est déplacé des modèles texte-à-image (T2I) vers des modèles de diffusion vidéo plus avancés, notamment texte-à-vidéo (T2V) et image-à-vidéo (I2V). Cet article aborde le défi complexe posé par I2V : convertir des images statiques en séquences vidéo dynamiques et réalistes tout en préservant la fidélité de l'image originale. Les méthodes traditionnelles impliquent généralement l'intégration d'images entières dans les processus de diffusion ou l'utilisation d'encodeurs pré-entraînés pour l'attention croisée. Cependant, ces approches nécessitent souvent de modifier les poids fondamentaux des modèles T2I, limitant ainsi leur réutilisabilité. Nous introduisons une solution novatrice, nommée I2V-Adapter, conçue pour surmonter ces limitations. Notre approche préserve l'intégrité structurelle des modèles T2I et leurs modules de mouvement inhérents. L'I2V-Adapter fonctionne en traitant les images vidéo bruitées en parallèle avec l'image d'entrée, en utilisant un module d'adaptation léger. Ce module agit comme un pont, reliant efficacement l'entrée au mécanisme d'auto-attention du modèle, préservant ainsi les détails spatiaux sans nécessiter de modifications structurelles au modèle T2I. De plus, I2V-Adapter ne nécessite qu'une fraction des paramètres des modèles conventionnels et assure la compatibilité avec les modèles T2I et les outils de contrôle existants, développés par la communauté. Nos résultats expérimentaux démontrent la capacité d'I2V-Adapter à produire des vidéos de haute qualité. Cette performance, associée à sa polyvalence et à son besoin réduit en paramètres entraînables, représente une avancée significative dans le domaine de la génération vidéo pilotée par l'IA, en particulier pour les applications créatives.
La génération d'animations pour des personnages basés sur la physique avec un contrôle intuitif est depuis longtemps une tâche souhaitable, offrant de nombreuses applications. Cependant, produire des animations simulées physiquement qui reflètent des instructions humaines de haut niveau reste un problème complexe en raison de la richesse des environnements physiques et de la diversité du langage humain. Dans cet article, nous présentons InsActor, un cadre génératif structuré qui exploite les avancées récentes des modèles de mouvement humain basés sur la diffusion pour produire des animations pilotées par des instructions pour des personnages basés sur la physique. Notre cadre permet à InsActor de capturer les relations complexes entre les instructions humaines de haut niveau et les mouvements des personnages en utilisant des politiques de diffusion pour une planification de mouvement conditionnée de manière flexible. Pour surmonter les états invalides et les transitions d'état impossibles dans les mouvements planifiés, InsActor découvre des compétences de bas niveau et mappe les plans à des séquences de compétences latentes dans un espace latent compact. Des expériences approfondies démontrent qu'InsActor obtient des résultats de pointe sur diverses tâches, notamment la génération de mouvement pilotée par des instructions et le guidage vers des points de passage piloté par des instructions. En particulier, la capacité d'InsActor à générer des animations simulées physiquement à l'aide d'instructions humaines de haut niveau en fait un outil précieux, notamment pour exécuter des tâches à long horizon avec un ensemble riche d'instructions.
La synthèse de nouvelles vues pour des scènes dynamiques constitue un problème fascinant mais complexe. Malgré les avancées récentes, atteindre simultanément des résultats photoréalistes en haute résolution, un rendu en temps réel et un stockage compact reste une tâche ardue. Pour relever ces défis, nous proposons le "Spacetime Gaussian Feature Splatting" comme nouvelle représentation de scènes dynamiques, composée de trois éléments clés. Premièrement, nous formulons des "Spacetime Gaussians" expressifs en enrichissant des Gaussiennes 3D avec une opacité temporelle et un mouvement/rotation paramétrique. Cela permet aux Spacetime Gaussians de capturer à la fois le contenu statique, dynamique et transitoire d'une scène. Deuxièmement, nous introduisons le rendu par projection de caractéristiques ("splatted feature rendering"), qui remplace les harmoniques sphériques par des caractéristiques neuronales. Ces caractéristiques facilitent la modélisation de l'apparence dépendante de la vue et du temps tout en conservant une taille réduite. Troisièmement, nous exploitons l'erreur d'entraînement et une profondeur approximative pour échantillonner de nouvelles Gaussiennes dans les zones difficiles à converger avec les pipelines existants. Les expériences menées sur plusieurs ensembles de données réels établis démontrent que notre méthode atteint une qualité et une vitesse de rendu de pointe, tout en conservant un stockage compact. À une résolution de 8K, notre modèle version légère peut effectuer un rendu à 60 FPS sur une carte graphique Nvidia RTX 4090.
Les modèles de langage de pointe deviennent de plus en plus volumineux dans le but d'atteindre les performances les plus élevées sur de grands corpus de données textuelles disponibles. Cependant, la taille considérable des architectures Transformer rend difficile le déploiement des modèles dans des contraintes computationnelles, environnementales ou spécifiques aux appareils. Nous explorons la compression pilotée par les données de modèles pré-entraînés existants comme alternative à l'entraînement de modèles plus petits à partir de zéro. Pour ce faire, nous mettons à l'échelle les approximations de courbure factorisées par Kronecker du paysage de la fonction de perte cible pour les grands modèles de langage. Ce faisant, nous pouvons calculer à la fois l'allocation dynamique des structures qui peuvent être supprimées ainsi que les mises à jour des poids restants qui tiennent compte de la suppression. Nous fournissons un cadre général pour l'élagage non structuré, semi-structuré et structuré, et améliorons les mises à jour des poids pour capturer davantage de corrélations entre les poids, tout en restant efficace sur le plan computationnel. Expérimentalement, notre méthode peut élaguer des lignes et des colonnes d'une gamme de modèles OPT et de Llamav2-7B de 20 % à 30 %, avec une perte de performance négligeable, et atteindre des résultats de pointe dans l'élagage non structuré et semi-structuré des grands modèles de langage.
La reconstruction 3D à partir d'une seule image est un problème mal posé, et les méthodes de reconstruction neuronales actuelles qui l'abordent via des modèles de diffusion reposent encore sur une optimisation spécifique à la scène, limitant ainsi leur capacité de généralisation. Pour surmonter les limitations des approches existantes en matière de généralisation et de cohérence, nous introduisons une nouvelle technique de rendu neuronal. Notre approche utilise la fonction de distance signée comme représentation de surface et intègre des connaissances généralisables via des volumes d'encodage géométrique et des HyperRéseaux. Plus précisément, notre méthode construit des volumes d'encodage neuronaux à partir de vues multiples générées. Nous ajustons les poids du réseau de fonction de distance signée en fonction d'une image d'entrée au moment du test, permettant ainsi l'adaptation du modèle à de nouvelles scènes de manière directe via des HyperRéseaux. Pour atténuer les artefacts provenant des vues synthétisées, nous proposons l'utilisation d'un module de transformation volumétrique pour améliorer l'agrégation des caractéristiques d'image au lieu de traiter chaque point de vue séparément. Grâce à notre méthode, baptisée Hyper-VolTran, nous évitons le goulot d'étranglement de l'optimisation spécifique à la scène et maintenons la cohérence entre les images générées à partir de multiples points de vue. Nos expériences démontrent les avantages de notre approche proposée, avec des résultats cohérents et une génération rapide.
Les primitives graphiques neuronales sont plus rapides et atteignent une qualité supérieure lorsque leurs réseaux neuronaux sont augmentés par des structures de données spatiales contenant des caractéristiques entraînables organisées en grille. Cependant, les grilles de caractéristiques existantes ont soit une empreinte mémoire importante (grilles denses ou factorisées, arbres et tables de hachage), soit des performances lentes (apprentissage d'index et quantification vectorielle). Dans cet article, nous montrons qu'une table de hachage avec sondes apprises ne présente aucun de ces inconvénients, offrant ainsi une combinaison favorable de taille et de vitesse. L'inférence est plus rapide que les tables de hachage sans sondes pour une qualité égale, tandis que l'entraînement est seulement 1,2 à 2,6 fois plus lent, surpassant significativement les approches précédentes d'apprentissage d'index. Nous parvenons à cette formulation en intégrant toutes les grilles de caractéristiques dans un cadre commun : chacune correspond à une fonction de recherche qui indexe une table de vecteurs de caractéristiques. Dans ce cadre, les fonctions de recherche des structures de données existantes peuvent être combinées par des opérations arithmétiques simples sur leurs indices, aboutissant à une compression et une vitesse Pareto optimales.
Les modèles de diffusion à grande échelle actuels représentent un bond en avant considérable dans la synthèse d'images conditionnelles, capables d'interpréter des indices variés tels que le texte, les poses humaines et les contours. Cependant, leur dépendance à des ressources computationnelles substantielles et à une collecte de données extensive reste un goulot d'étranglement. Par ailleurs, l'intégration de modèles de diffusion existants, chacun spécialisé pour différents contrôles et opérant dans des espaces latents uniques, pose un défi en raison de résolutions d'images incompatibles et de structures d'encodage d'espaces latents divergentes, entravant leur utilisation conjointe. Pour répondre à ces contraintes, nous présentons "PanGu-Draw", un nouveau modèle de diffusion latente conçu pour une synthèse texte-image économe en ressources, capable de s'adapter habilement à plusieurs signaux de contrôle. Nous proposons d'abord une stratégie de formation efficace en ressources appelée "Time-Decoupling Training Strategy", qui divise le modèle monolithique texte-image en générateurs de structure et de texture. Chaque générateur est formé selon un régime qui maximise l'utilisation des données et l'efficacité computationnelle, réduisant la préparation des données de 48% et les ressources de formation de 51%. Ensuite, nous introduisons "Coop-Diffusion", un algorithme qui permet l'utilisation coopérative de divers modèles de diffusion pré-entraînés avec différents espaces latents et résolutions prédéfinies dans un processus de débruitage unifié. Cela permet une synthèse d'images multi-contrôles à des résolutions arbitraires sans nécessiter de données supplémentaires ou de réentraînement. Les validations empiriques de PanGu-Draw montrent sa capacité exceptionnelle dans la génération d'images texte-image et multi-contrôles, suggérant une direction prometteuse pour l'efficacité future de la formation des modèles et la polyvalence de la génération. Le plus grand modèle T2I PanGu-Draw de 5B est publié sur la plateforme Ascend. Page du projet : https://pangu-draw.github.io
Les récents progrès dans la génération d'images guidée par un sujet ont conduit à la génération zero-shot, mais la sélection précise et la focalisation sur les représentations cruciales du sujet restent des défis. Pour y remédier, nous introduisons le SSR-Encoder, une architecture novatrice conçue pour capturer de manière sélective n'importe quel sujet à partir d'une ou plusieurs images de référence. Il répond à diverses modalités de requêtes, y compris le texte et les masques, sans nécessiter de fine-tuning au moment du test. Le SSR-Encoder combine un Token-to-Patch Aligner qui aligne les entrées de requête avec les patches d'image et un Detail-Preserving Subject Encoder pour extraire et préserver les caractéristiques fines des sujets, générant ainsi des embeddings de sujet. Ces embeddings, utilisés conjointement avec les embeddings de texte originaux, conditionnent le processus de génération. Caractérisé par sa généralisabilité et son efficacité, le SSR-Encoder s'adapte à une gamme de modèles personnalisés et de modules de contrôle. Renforcé par la Embedding Consistency Regularization Loss pour un entraînement amélioré, nos expériences approfondies démontrent son efficacité dans la génération d'images polyvalentes et de haute qualité, indiquant sa large applicabilité. Page du projet : https://ssr-encoder.github.io
L'adaptation de domaine et la génération de portraits 3D guidés par texte trouvent de nombreuses applications dans divers domaines. Cependant, en raison du manque de données d'entraînement et des défis liés à la gestion de la grande variété de géométries et d'apparences, les méthodes existantes pour ces tâches souffrent de problèmes tels que l'inflexibilité, l'instabilité et une faible fidélité. Dans cet article, nous proposons un nouveau cadre, DiffusionGAN3D, qui améliore l'adaptation de domaine 3D et la génération guidées par texte en combinant des GAN 3D et des modèles de diffusion. Plus précisément, nous intégrons des modèles génératifs 3D pré-entraînés (par exemple, EG3D) et des modèles de diffusion texte-à-image. Les premiers fournissent une base solide pour la génération stable et de haute qualité d'avatars à partir de texte. Les modèles de diffusion, quant à eux, offrent des a priori puissants et guident le réglage fin du générateur 3D avec des directions informatives pour réaliser une adaptation de domaine flexible et efficace guidée par texte. Pour améliorer la diversité dans l'adaptation de domaine et la capacité de génération dans la tâche texte-à-avatar, nous introduisons respectivement la perte de distance relative et un triplan spécifique et apprenable. En outre, nous concevons un module de raffinement progressif de la texture pour améliorer la qualité de la texture pour les deux tâches mentionnées ci-dessus. Des expériences approfondies démontrent que le cadre proposé obtient d'excellents résultats à la fois dans l'adaptation de domaine et dans la tâche texte-à-avatar, surpassant les méthodes existantes en termes de qualité et d'efficacité de génération. La page d'accueil du projet est disponible à l'adresse https://younglbw.github.io/DiffusionGAN3D-homepage/.
Les modèles de génération d'images à partir de texte sont puissants mais difficiles à utiliser. Les utilisateurs élaborent des instructions spécifiques pour obtenir de meilleures images, bien que celles-ci puissent être répétitives. Cet article propose un cadre d'Expansion de Prompt qui aide les utilisateurs à générer des images de haute qualité et diversifiées avec moins d'effort. Le modèle d'Expansion de Prompt prend une requête textuelle en entrée et produit un ensemble de prompts textuels étendus, optimisés de manière à ce que, lorsqu'ils sont transmis à un modèle de génération d'images à partir de texte, ils génèrent une plus grande variété d'images attrayantes. Nous menons une étude d'évaluation humaine qui montre que les images générées via l'Expansion de Prompt sont plus esthétiques et diversifiées que celles générées par les méthodes de référence. Globalement, cet article présente une approche novatrice et efficace pour améliorer l'expérience de génération d'images à partir de texte.
La puissance générative inhérente des modèles de diffusion par débruitage les rend particulièrement adaptés aux tâches de restauration d'images, où l'objectif est de trouver l'image de haute qualité optimale dans l'espace génératif qui ressemble étroitement à l'image d'entrée. Nous proposons une méthode pour adapter un modèle de diffusion pré-entraîné à la restauration d'images en ajoutant simplement du bruit à l'image d'entrée à restaurer, puis en la débruitant. Notre méthode repose sur l'observation que l'espace d'un modèle génératif doit être contraint. Nous imposons cette contrainte en affinant le modèle génératif avec un ensemble d'images d'ancrage qui capturent les caractéristiques de l'image d'entrée. Avec cet espace contraint, nous pouvons ensuite exploiter la stratégie d'échantillonnage utilisée pour la génération afin de réaliser la restauration d'images. Nous évaluons notre méthode par rapport aux approches précédentes et montrons des performances supérieures sur plusieurs ensembles de données de restauration du monde réel en préservant l'identité et la qualité de l'image. Nous démontrons également une application importante et pratique dans la restauration personnalisée, où nous utilisons un album personnel comme images d'ancrage pour contraindre l'espace génératif. Cette approche nous permet de produire des résultats qui préservent avec précision les détails haute fréquence, ce que les travaux précédents ne parviennent pas à faire. Page web du projet : https://gen2res.github.io.