Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous introduisons la diffusion lumineuse, une méthode novatrice pour améliorer l'éclairage dans les portraits, adoucissant les ombres dures et les reflets spéculaires tout en préservant l'illumination globale de la scène. Inspirée par les diffuseurs et les écrans utilisés par les photographes professionnels, notre méthode adoucit l'éclairage à partir d'une seule photo de portrait. Les approches précédentes de rééclairage de portraits se concentrent sur la modification de l'ensemble de l'environnement lumineux, la suppression des ombres (en ignorant les reflets spéculaires intenses) ou la suppression totale des ombrages. En revanche, nous proposons une méthode basée sur l'apprentissage qui nous permet de contrôler le degré de diffusion lumineuse et de l'appliquer à des portraits pris en conditions réelles. De plus, nous concevons une méthode pour générer synthétiquement des ombres externes plausibles avec des effets de diffusion sous-cutanée tout en respectant la forme du visage du sujet. Enfin, nous montrons comment notre approche peut augmenter la robustesse des applications de vision de haut niveau, telles que l'estimation de l'albédo, l'estimation de la géométrie et la segmentation sémantique.
Bien que l'évolution rapide récente des réseaux de neurones génératifs 3D ait grandement amélioré la génération de formes 3D, il reste difficile pour les utilisateurs ordinaires de créer des formes 3D et de contrôler la géométrie locale des formes générées. Pour relever ces défis, nous proposons un cadre de génération 3D basé sur la diffusion -- la diffusion SDF à attention locale, pour modéliser des formes 3D plausibles via une entrée d'image de croquis 2D. Notre méthode repose sur un modèle de diffusion en deux étapes. La première étape, appelée diffusion d'occupation, vise à générer un champ d'occupation à basse résolution pour approximer la coque de la forme. La deuxième étape, appelée diffusion SDF, synthétise un champ de distance signée à haute résolution dans les voxels occupés déterminés par la première étape pour extraire une géométrie fine. Notre modèle est renforcé par un mécanisme d'attention locale conscient de la vue pour la génération de formes conditionnée par l'image, qui tire parti des caractéristiques des patchs d'image 2D pour guider l'apprentissage des caractéristiques des voxels 3D, améliorant ainsi considérablement la contrôlabilité locale et la généralisabilité du modèle. À travers des expériences approfondies dans des tâches de génération de formes 3D conditionnées par des croquis et par des catégories, nous validons et démontrons la capacité de notre méthode à fournir des formes 3D plausibles et diversifiées, ainsi que sa contrôlabilité et sa généralisabilité supérieures par rapport aux travaux existants. Notre code et nos modèles entraînés sont disponibles à l'adresse suivante : https://zhengxinyang.github.io/projects/LAS-Diffusion.html
Les grands modèles de langage (LLM) ont démontré des capacités linguistiques remarquables. GPT-4, basé sur des LLM avancés, présente des capacités multimodales extraordinaires qui dépassent celles des modèles visuels-langage précédents. Nous attribuons cela à l'utilisation de LLM plus avancés par rapport aux modèles multimodaux antérieurs. Malheureusement, l'architecture du modèle et les stratégies d'entraînement de GPT-4 restent inconnues. Pour doter les LLM de capacités multimodales, nous proposons X-LLM, qui convertit les multimodalities (images, parole, vidéos) en langues étrangères à l'aide d'interfaces X2L et les intègre dans un grand modèle de langage (ChatGLM). Plus précisément, X-LLM aligne plusieurs encodeurs monomodaux figés et un LLM figé à l'aide d'interfaces X2L, où « X » désigne les multimodalities telles que l'image, la parole et les vidéos, et « L » désigne les langues. L'entraînement de X-LLM se déroule en trois étapes : (1) Conversion des informations multimodales : la première étape entraîne chaque interface X2L à s'aligner avec son encodeur monomodal respectif pour convertir les informations multimodales en langues. (2) Alignement des représentations X2L avec le LLM : les encodeurs monomodaux sont alignés avec le LLM via les interfaces X2L de manière indépendante. (3) Intégration des multimodalities : tous les encodeurs monomodaux sont alignés avec le LLM via les interfaces X2L pour intégrer les capacités multimodales dans le LLM. Nos expériences montrent que X-LLM démontre des capacités impressionnantes de dialogue multimodal, reproduisant parfois les comportements de GPT-4 multimodal sur des images/instructions inédites, et obtient un score relatif de 84,5 % par rapport à GPT-4 sur un ensemble de données synthétiques de suivi d'instructions multimodales. Nous avons également effectué des tests quantitatifs sur l'utilisation de LLM pour la reconnaissance automatique de la parole (ASR) et l'ASR multimodal, dans l'espoir de promouvoir l'ère de la reconnaissance vocale basée sur les LLM.
Le raisonnement compositionnel est une caractéristique essentielle de l'intelligence visuelle humaine ; pourtant, malgré la taille des grands modèles vision-langage, ceux-ci peinent à représenter des compositions simples en combinant des objets avec leurs attributs. Pour mesurer ce manque de capacité compositionnelle, nous concevons Cola, un benchmark de recherche d'images à partir de texte pour Composer des Objets Localisés avec des Attributs. En utilisant Cola comme banc d'essai, nous explorons des architectures de modélisation pour adapter des modèles vision-langage pré-entraînés à raisonner de manière compositionnelle sur plusieurs attributs associés à plusieurs objets. Nous explorons 6 stratégies de fine-tuning sur 2 modèles vision-langage fondamentaux, en utilisant 3 jeux de données de fine-tuning et 2 benchmarks de test (Cola et CREPE). Étonnamment, notre stratégie de fine-tuning optimale améliore un modèle CLIP de 151 millions de paramètres, qui encode disjointement l'image et le langage lors du pré-entraînement, à performer aussi bien qu'un modèle FLAVA de 241 millions de paramètres, qui utilise un encodeur transformer multimodal pendant le pré-entraînement pour traiter à la fois les modalités visuelles et linguistiques. Cette stratégie de fine-tuning optimale est un adaptateur multimodal léger qui traite conjointement les caractéristiques de l'image et du langage générées par le modèle pré-entraîné. Nous montrons que cela fonctionne mieux que les stratégies courantes telles que l'ajustement par prompt/fine-tuning, ou le réglage d'un nombre comparable de couches unimodales.
Les modèles de diffusion sont devenus un pilier essentiel des modèles de base dans les domaines visuels. L'une de leurs applications critiques est de résoudre universellement différentes tâches inverses en aval via un seul a priori de diffusion sans réentraînement pour chaque tâche. La plupart des tâches inverses peuvent être formulées comme l'inférence d'une distribution a posteriori sur les données (par exemple, une image complète) étant donné une mesure (par exemple, une image masquée). Cependant, cela est difficile dans les modèles de diffusion car la nature non linéaire et itérative du processus de diffusion rend l'a posteriori intraitable. Pour faire face à ce défi, nous proposons une approche variationnelle qui, par conception, cherche à approximer la véritable distribution a posteriori. Nous montrons que notre approche conduit naturellement à une régularisation par le processus de diffusion de débruitage (RED-Diff) où les débruitages à différents pas de temps imposent simultanément différentes contraintes structurelles sur l'image. Pour évaluer la contribution des débruitages à différents pas de temps, nous proposons un mécanisme de pondération basé sur le rapport signal-sur-bruit (SNR). Notre approche offre une nouvelle perspective variationnelle pour résoudre les problèmes inverses avec des modèles de diffusion, nous permettant de formuler l'échantillonnage comme une optimisation stochastique, où l'on peut simplement appliquer des solveurs prêts à l'emploi avec des itérations légères. Nos expériences pour des tâches de restauration d'image telles que l'inpainting et la super-résolution démontrent les forces de notre méthode par rapport aux modèles de diffusion basés sur l'échantillonnage de pointe.
Les générateurs modernes produisent des vidéos de têtes parlantes avec un niveau impressionnant de photoréalisme, ouvrant la voie à de nouvelles expériences utilisateur telles que la visioconférence avec des contraintes de bande passante réduites. Cependant, leur adoption en toute sécurité nécessite un mécanisme pour vérifier si la vidéo générée est digne de confiance. Par exemple, pour la visioconférence, il est essentiel d'identifier les cas où un portrait vidéo synthétique utilise l'apparence d'une personne sans son consentement. Nous nommons cette tâche l'**empreinte d'avatar**. Nous proposons de l'aborder en exploitant les signatures de mouvement faciales uniques à chaque individu. Plus précisément, nous apprenons un espace d'embedding dans lequel les signatures de mouvement d'une même identité sont regroupées et éloignées de celles des autres identités, indépendamment de l'apparence dans la vidéo synthétique. Les algorithmes d'empreinte d'avatar seront cruciaux à mesure que les générateurs de têtes parlantes deviendront plus omniprésents, et pourtant aucun jeu de données à grande échelle n'existe pour cette nouvelle tâche. Par conséquent, nous contribuons avec un vaste ensemble de données de personnes délivrant des monologues courts, à la fois scriptés et improvisés, accompagnés de vidéos synthétiques dans lesquelles nous générons des vidéos d'une personne en utilisant l'apparence faciale d'une autre. Page du projet : https://research.nvidia.com/labs/nxp/avatar-fingerprinting/.
Les pages web ont constitué une ressource riche et évolutive pour les tâches de vision-langage et de langage pur. Cependant, seuls des fragments de pages web sont conservés : des paires image-légende, des articles textuels longs ou du HTML brut, jamais tous ensemble. Par conséquent, les tâches liées aux pages web ont reçu peu d'attention, et les données structurées image-texte sont restées sous-utilisées. Pour étudier la compréhension multimodale des pages web, nous introduisons la suite Wikipedia Webpage (WikiWeb2M) comprenant 2 millions de pages. Nous vérifions son utilité sur trois tâches génératives : la génération de descriptions de pages, la synthèse de sections et la génération de légendes d'images contextuelles. Nous concevons un nouveau mécanisme d'attention appelé Prefix Global, qui sélectionne le contenu image et texte le plus pertinent comme tokens globaux pour prendre en compte le reste de la page comme contexte. En utilisant la structure de la page pour séparer ces tokens, il surpasse l'attention complète avec une complexité computationnelle réduite. Les expériences montrent que les nouvelles annotations de WikiWeb2M améliorent les performances des tâches par rapport aux données des travaux précédents. Nous incluons également des ablations sur la longueur des séquences, les caractéristiques d'entrée et la taille du modèle.
Nous présentons une méthode d'apprentissage profond pour le contrôle composite et orienté tâche des mouvements de personnages simulés physiquement. Contrairement aux approches existantes basées sur les données utilisant l'apprentissage par renforcement pour imiter des mouvements corporels complets, nous apprenons des mouvements découplés pour des parties spécifiques du corps à partir de multiples mouvements de référence simultanément et directement, en exploitant l'utilisation de plusieurs discriminateurs dans un cadre similaire aux GAN. Dans ce processus, aucun travail manuel n'est nécessaire pour produire des mouvements de référence composites pour l'apprentissage. Au lieu de cela, la politique de contrôle explore par elle-même comment les mouvements composites peuvent être combinés automatiquement. Nous prenons également en compte plusieurs récompenses spécifiques aux tâches et entraînons une politique de contrôle unique à objectifs multiples. À cette fin, nous proposons un nouveau cadre pour l'apprentissage multi-objectif qui équilibre de manière adaptative l'apprentissage de mouvements disparates provenant de multiples sources et de multiples objectifs de contrôle orientés vers un but. De plus, comme les mouvements composites sont généralement des augmentations de comportements plus simples, nous introduisons une méthode efficace en termes d'échantillons pour entraîner des politiques de contrôle composites de manière incrémentielle, où nous réutilisons une politique pré-entraînée comme méta-politique et entraînons une politique coopérative qui adapte la méta-politique pour de nouvelles tâches composites. Nous démontrons l'applicabilité de notre approche sur une variété de tâches multi-objectifs complexes impliquant à la fois l'imitation de mouvements composites et le contrôle orienté vers plusieurs buts.