Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'édition d'images basée sur le glissement a récemment gagné en popularité pour son interactivité et sa précision. Cependant, malgré la capacité des modèles texte-vers-image à générer des échantillons en une seconde, l'édition par glissement accuse encore du retard en raison du défi de refléter avec précision l'interaction de l'utilisateur tout en maintenant le contenu de l'image. Certaines approches existantes reposent sur une optimisation intensive par image ou des méthodes basées sur des directives complexes, nécessitant des entrées supplémentaires telles que des masques pour les régions mobiles et des instructions textuelles, compromettant ainsi l'interactivité du processus d'édition. Nous présentons InstantDrag, un pipeline sans optimisation qui améliore l'interactivité et la vitesse, ne nécessitant qu'une image et une instruction de glissement en tant qu'entrée. InstantDrag se compose de deux réseaux soigneusement conçus : un générateur de flux optique conditionné par le glissement (FlowGen) et un modèle de diffusion conditionné par le flux optique (FlowDiffusion). InstantDrag apprend la dynamique du mouvement pour l'édition d'images basée sur le glissement dans des ensembles de données vidéo du monde réel en décomposant la tâche en génération de mouvement et génération d'image conditionnée par le mouvement. Nous démontrons la capacité d'InstantDrag à réaliser des éditions rapides et photoréalistes sans masques ni instructions textuelles à travers des expériences sur des ensembles de données vidéo faciales et des scènes générales. Ces résultats mettent en évidence l'efficacité de notre approche dans la gestion de l'édition d'images basée sur le glissement, en faisant une solution prometteuse pour des applications interactives en temps réel.
Animer divers dessins de personnages est une tâche engageante de création de contenu visuel. Étant donné un seul dessin de personnage, les méthodes d'animation existantes sont limitées aux mouvements 2D plats et manquent donc d'effets 3D. Une solution alternative consiste à reconstruire un modèle 3D à partir d'un dessin de personnage en tant que proxy, puis à retargetter des données de mouvement 3D dessus. Cependant, les méthodes existantes d'image vers 3D ne fonctionnaient pas bien pour les dessins de personnages amateurs en termes d'apparence et de géométrie. Nous observons que les lignes de contour, couramment présentes dans les dessins de personnages, introduiraient une ambiguïté significative dans la synthèse de texture en raison de leur dépendance à la vue. De plus, les régions fines représentées par des contours à une seule ligne sont difficiles à reconstruire (par exemple, les membres minces d'un bonhomme bâton) en raison de leurs structures délicates. Pour résoudre ces problèmes, nous proposons un système novateur, DrawingSpinUp, pour produire des animations 3D plausibles et insuffler de la vie dans les dessins de personnages, leur permettant de tourner librement, de sauter, voire même d'effectuer une danse hip-hop. Pour améliorer l'apparence, nous adoptons une stratégie de suppression puis de restauration pour d'abord éliminer les lignes de contour dépendantes de la vue, puis les rendre après le retargeting du personnage reconstruit. Pour affiner la géométrie, nous développons un algorithme de déformation d'amincissement basé sur un squelette pour affiner les structures minces représentées par les contours à une seule ligne. Les évaluations expérimentales et une étude utilisateur perceptuelle montrent que notre méthode proposée surpasse les méthodes d'animation 2D et 3D existantes et génère des animations 3D de haute qualité à partir d'un seul dessin de personnage. Veuillez vous référer à notre page de projet (https://lordliang.github.io/DrawingSpinUp) pour le code et les animations générées.
La détection à vocabulaire ouvert (DVO) vise à détecter des objets au-delà d'un ensemble prédéfini de catégories. En tant que modèle novateur intégrant la série YOLO dans la DVO, YOLO-World est bien adapté aux scénarios privilégiant la vitesse et l'efficacité. Cependant, ses performances sont entravées par son mécanisme de fusion de caractéristiques au niveau du cou, ce qui entraîne une complexité quadratique et des champs récepteurs guidés limités. Pour remédier à ces limitations, nous présentons Mamba-YOLO-World, un nouveau modèle DVO basé sur YOLO qui utilise le réseau d'agrégation de chemins MambaFusion (MambaFusion-PAN) proposé comme architecture au niveau du cou. Plus précisément, nous introduisons un mécanisme innovant de fusion de caractéristiques basé sur un modèle d'espace d'états comprenant un algorithme de balayage sélectif parallèle guidé et un algorithme de balayage sélectif sériel avec une complexité linéaire et des champs récepteurs guidés globalement. Il exploite des séquences d'entrée multimodales et des états cachés de mamba pour guider le processus de balayage sélectif. Les expériences démontrent que notre modèle surpasse le YOLO-World d'origine sur les référentiels COCO et LVIS, à la fois dans des configurations de zéro-shot et de fine-tuning, tout en conservant des paramètres et des FLOPs comparables. De plus, il dépasse les méthodes DVO étatiques existantes avec moins de paramètres et de FLOPs.
Les champs de luminance de relighting sont sévèrement sous-contraints pour les données multi-vues, qui sont le plus souvent capturées sous une seule condition d'éclairage ; C'est particulièrement difficile pour les scènes complètes contenant de multiples objets. Nous introduisons une méthode pour créer des champs de luminance de relighting utilisables à partir de ces données à éclairage unique en exploitant des connaissances a priori extraites de modèles de diffusion d'images 2D. Nous affinons d'abord un modèle de diffusion 2D sur un ensemble de données multi-éclairages conditionné par la direction de la lumière, ce qui nous permet de transformer une capture à éclairage unique en un ensemble de données à éclairages multiples réaliste - mais potentiellement incohérent - à partir de directions de lumière définies directement. Nous utilisons ces données augmentées pour créer un champ de luminance de relighting représenté par des éclats gaussiens 3D. Pour permettre un contrôle direct de la direction de la lumière pour l'éclairage basse fréquence, nous représentons l'apparence avec un perceptron multicouche paramétré sur la direction de la lumière. Pour garantir la cohérence multi-vues et surmonter les inexactitudes, nous optimisons un vecteur de caractéristiques auxiliaires par image. Nous présentons des résultats sur des données multi-vues synthétiques et réelles sous un éclairage unique, démontrant que notre méthode exploite avec succès les connaissances a priori du modèle de diffusion 2D pour permettre un relighting 3D réaliste pour des scènes complètes. Site du projet https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/
La vidéo volumétrique représente une avancée transformative dans les médias visuels, permettant aux utilisateurs de naviguer librement dans des expériences virtuelles immersives et réduisant l'écart entre les mondes numérique et réel. Cependant, la nécessité d'une intervention manuelle extensive pour stabiliser les séquences de maillage et la génération d'actifs excessivement volumineux dans les flux de travail existants entravent une adoption plus large. Dans cet article, nous présentons une nouvelle approche basée sur les Gaussiennes, appelée DualGS, pour la lecture en temps réel et haute fidélité de performances humaines complexes avec d'excellents taux de compression. Notre idée clé dans DualGS est de représenter séparément le mouvement et l'apparence en utilisant les Gaussiennes de peau et d'articulations correspondantes. Un tel désenchevêtrement explicite peut réduire significativement la redondance de mouvement et améliorer la cohérence temporelle. Nous commençons par initialiser le DualGS et ancrer les Gaussiennes de peau aux Gaussiennes d'articulations au premier cadre. Ensuite, nous utilisons une stratégie d'entraînement grossier à fin pour la modélisation des performances humaines image par image. Cela inclut une phase d'alignement grossier pour la prédiction globale du mouvement ainsi qu'une optimisation fine pour un suivi robuste et un rendu haute fidélité. Pour intégrer la vidéo volumétrique de manière transparente dans les environnements de réalité virtuelle, nous comprimons efficacement le mouvement en utilisant un codage par entropie et l'apparence en utilisant une compression de codec couplée à un codebook persistant. Notre approche atteint un taux de compression allant jusqu'à 120 fois, nécessitant seulement environ 350 Ko de stockage par cadre. Nous démontrons l'efficacité de notre représentation à travers des expériences photoréalistes en vision libre sur des casques de réalité virtuelle, permettant aux utilisateurs de regarder de manière immersive des musiciens en performance et de ressentir le rythme des notes au bout des doigts des interprètes.
La restauration audio est devenue de plus en plus importante dans la société moderne, non seulement en raison de la demande d'expériences auditives de haute qualité rendues possibles par des dispositifs de lecture avancés, mais aussi parce que les capacités croissantes des modèles audio génératifs nécessitent une audio haute fidélité. Typiquement, la restauration audio est définie comme une tâche de prédire un audio non déformé à partir d'une entrée endommagée, souvent entraînée en utilisant un cadre GAN pour équilibrer la perception et la distorsion. Comme la dégradation audio est principalement concentrée dans les plages de fréquences moyennes et élevées, en particulier en raison des codecs, un défi clé réside dans la conception d'un générateur capable de préserver les informations de basse fréquence tout en reconstruisant de manière précise un contenu audio de qualité moyenne et élevée. Inspiré par les récents progrès dans la séparation musicale à haut taux d'échantillonnage, l'amélioration de la parole et les modèles de codec audio, nous proposons Apollo, un modèle génératif conçu pour la restauration audio à haut taux d'échantillonnage. Apollo utilise un module explicite de division de bande de fréquence pour modéliser les relations entre différentes bandes de fréquences, permettant une audio restaurée plus cohérente et de meilleure qualité. Évalué sur les ensembles de données MUSDB18-HQ et MoisesDB, Apollo surpasse systématiquement les modèles SR-GAN existants à travers divers débits et genres musicaux, se distinguant particulièrement dans des scénarios complexes impliquant des mélanges de plusieurs instruments et voix. Apollo améliore significativement la qualité de la restauration musicale tout en maintenant une efficacité computationnelle. Le code source d'Apollo est publiquement disponible sur https://github.com/JusperLee/Apollo.
Les récentes avancées dans les modèles génératifs ont révolutionné la génération et l'édition d'images, rendant ces tâches accessibles aux non-experts. Cet article se concentre sur l'édition locale d'images, en particulier sur la tâche d'ajout de nouveau contenu à une zone vaguement spécifiée. Les méthodes existantes nécessitent souvent un masque précis ou une description détaillée de l'emplacement, ce qui peut être fastidieux et sujet aux erreurs. Nous proposons Click2Mask, une approche novatrice qui simplifie le processus d'édition locale en ne nécessitant qu'un seul point de référence (en plus de la description du contenu). Un masque est dynamiquement étendu autour de ce point lors d'un processus de diffusion latente mélangée (BLD), guidé par une perte sémantique basée sur CLIP masqué. Click2Mask surmonte les limitations des méthodes basées sur la segmentation et dépendantes du fine-tuning, offrant une solution plus conviviale et contextuellement précise. Nos expériences démontrent que Click2Mask réduit non seulement les efforts de l'utilisateur, mais fournit également des résultats de manipulation d'images locaux compétitifs ou supérieurs par rapport aux méthodes de pointe, selon à la fois le jugement humain et les mesures automatiques. Les contributions clés comprennent la simplification de l'entrée utilisateur, la capacité d'ajouter librement des objets sans contrainte par des segments existants, et le potentiel d'intégration de notre approche de masque dynamique dans d'autres méthodes d'édition.