Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons StreamDiffusion, un pipeline de diffusion en temps réel conçu pour la génération interactive d'images. Les modèles de diffusion existants sont habiles à créer des images à partir de prompts textuels ou visuels, mais ils peinent souvent à répondre aux exigences des interactions en temps réel. Cette limitation devient particulièrement évidente dans des scénarios impliquant des entrées continues, tels que le Metaverse, le streaming vidéo en direct et la diffusion, où un débit élevé est impératif. Pour résoudre ce problème, nous proposons une approche novatrice qui transforme le processus de débruîtage séquentiel original en un processus de débruîtage par lots. Stream Batch élimine l'approche traditionnelle d'attente et d'interaction, permettant ainsi des flux fluides et à haut débit. Pour gérer la disparité de fréquence entre l'entrée des données et le débit du modèle, nous concevons une nouvelle file d'attente entrée-sortie pour paralléliser le processus de streaming. De plus, le pipeline de diffusion existant utilise le guidage sans classifieur (CFG), qui nécessite des calculs supplémentaires sur le U-Net. Pour atténuer ces calculs redondants, nous proposons un nouvel algorithme de guidage résiduel sans classifieur (RCFG) qui réduit le nombre d'étapes de débruîtage conditionnel négatif à une seule, voire zéro. Par ailleurs, nous introduisons un filtre de similarité stochastique (SSF) pour optimiser la consommation d'énergie. Notre méthode Stream Batch permet une accélération d'environ 1,5x par rapport à la méthode de débruîtage séquentiel à différents niveaux de débruîtage. Le RCFG proposé permet des vitesses jusqu'à 2,05x supérieures à celles du CFG conventionnel. En combinant les stratégies proposées et les outils d'accélération matures existants, la génération d'image à image atteint jusqu'à 91,07 ips sur une RTX4090, améliorant le débit de l'AutoPipeline développé par Diffusers de plus de 59,56x. En outre, notre StreamDiffusion proposé réduit également significativement la consommation d'énergie de 2,39x sur une RTX3060 et de 1,99x sur une RTX4090, respectivement.
Nous présentons VideoPoet, un modèle de langage capable de synthétiser des vidéos de haute qualité, accompagnées d'une bande-son correspondante, à partir d'une grande variété de signaux de conditionnement. VideoPoet utilise une architecture de transformeur décodeur uniquement qui traite des entrées multimodales, incluant des images, des vidéos, du texte et de l'audio. Le protocole d'entraînement suit celui des modèles de langage de grande taille (LLMs), consistant en deux étapes : le pré-entraînement et l'adaptation spécifique à la tâche. Durant le pré-entraînement, VideoPoet intègre un mélange d'objectifs génératifs multimodaux dans un cadre de transformeur autorégressif. Le LLM pré-entraîné sert de fondation pouvant être adaptée pour une gamme de tâches de génération vidéo. Nous présentons des résultats empiriques démontrant les capacités de pointe du modèle en génération de vidéos en zero-shot, mettant particulièrement en avant la capacité de VideoPoet à générer des mouvements de haute fidélité. Page du projet : http://sites.research.google/videopoet/
Cet article présente PowerInfer, un moteur d'inférence rapide pour les grands modèles de langage (LLM) sur un ordinateur personnel (PC) équipé d'un seul GPU grand public. Le concept clé sous-jacent à la conception de PowerInfer est l'exploitation de la forte localité inhérente à l'inférence des LLM, caractérisée par une distribution en loi de puissance dans l'activation des neurones. Cette distribution indique qu'un petit sous-ensemble de neurones, appelés neurones chauds, sont activés de manière constante pour différentes entrées, tandis que la majorité, les neurones froids, varient en fonction des entrées spécifiques. PowerInfer exploite cette observation pour concevoir un moteur d'inférence hybride GPU-CPU : les neurones chauds sont préchargés sur le GPU pour un accès rapide, tandis que les neurones froids sont calculés sur le CPU, réduisant ainsi significativement les besoins en mémoire GPU et les transferts de données CPU-GPU. PowerInfer intègre en outre des prédicteurs adaptatifs et des opérateurs creux sensibles aux neurones, optimisant l'efficacité de l'activation des neurones et de la parcimonie computationnelle. Les évaluations montrent que PowerInfer atteint un taux moyen de génération de tokens de 13,20 tokens/s, avec un pic à 29,08 tokens/s, pour divers LLM (y compris OPT-175B) sur un seul GPU NVIDIA RTX 4090, soit seulement 18 % de moins que celui obtenu par un GPU serveur haut de gamme A100. Cela surpasse significativement llama.cpp jusqu'à 11,69 fois tout en conservant la précision du modèle.
La capacité humaine à résoudre facilement des tâches multimodales en contexte (c'est-à-dire avec seulement quelques démonstrations ou des instructions simples) est ce que les systèmes multimodaux actuels ont largement du mal à imiter. Dans ce travail, nous démontrons que les capacités d'apprentissage en contexte, indépendantes de la tâche, des grands modèles multimodaux peuvent être considérablement améliorées par une mise à l'échelle efficace. Nous présentons Emu2, un modèle génératif multimodal doté de 37 milliards de paramètres, entraîné sur des séquences multimodales à grande échelle avec un objectif autorégressif unifié. Emu2 montre de solides capacités d'apprentissage en contexte multimodal, parvenant même à résoudre des tâches nécessitant un raisonnement à la volée, comme l'invite visuelle et la génération basée sur des objets. Le modèle établit un nouveau record sur plusieurs tâches de compréhension multimodale en contexte de few-shot. Lorsqu'il est ajusté pour suivre des instructions spécifiques, Emu2 atteint de nouveaux états de l'art sur des tâches difficiles telles que les benchmarks de question-réponse pour les grands modèles multimodaux et la génération ouverte basée sur des sujets. Ces réalisations démontrent qu'Emu2 peut servir de modèle de base et d'interface polyvalente pour une large gamme de tâches multimodales. Le code et les modèles sont disponibles publiquement pour faciliter les recherches futures.
La génération de visages parlants émotionnels à partir d'une seule image portrait reste un défi majeur. La réalisation simultanée d'une expression émotionnelle parlante et d'une synchronisation labiale précise est particulièrement difficile, car l'expressivité est souvent compromise au profit de la précision de la synchronisation labiale. Comme largement adopté par de nombreux travaux antérieurs, le réseau LSTM échoue souvent à capturer les subtilités et les variations des expressions émotionnelles. Pour relever ces défis, nous introduisons DREAM-Talk, un framework audio-guidé en deux étapes basé sur la diffusion, conçu pour générer simultanément des expressions diverses et une synchronisation labiale précise. Dans la première étape, nous proposons EmoDiff, un module de diffusion novateur qui génère des expressions émotionnelles et des poses de tête hautement dynamiques en fonction de l'audio et du style émotionnel de référence. Étant donné la forte corrélation entre le mouvement des lèvres et l'audio, nous affinons ensuite la dynamique avec une précision accrue de la synchronisation labiale en utilisant les caractéristiques audio et le style émotionnel. À cette fin, nous déployons un module de rendu vidéo-à-vidéo pour transférer les expressions et les mouvements labiaux de notre avatar 3D proxy à un portrait arbitraire. À la fois quantitativement et qualitativement, DREAM-Talk surpasse les méthodes de pointe en termes d'expressivité, de précision de la synchronisation labiale et de qualité perceptuelle.
Les modèles basés sur la diffusion ont démontré des capacités impressionnantes pour la génération d'images à partir de texte et sont prometteurs pour des applications personnalisées de génération pilotée par un sujet, qui nécessitent la création de concepts personnalisés à partir d'une ou de quelques images de référence. Cependant, les méthodes existantes basées sur le fine-tuning échouent à équilibrer le compromis entre l'apprentissage du sujet et le maintien des capacités de génération des modèles pré-entraînés. De plus, d'autres méthodes utilisant des encodeurs d'images supplémentaires ont tendance à perdre des détails importants du sujet en raison de la compression lors de l'encodage. Pour relever ces défis, nous proposons DreamTurner, une méthode novatrice qui injecte les informations de référence de manière grossière à fine pour réaliser la génération d'images pilotée par un sujet de manière plus efficace. DreamTurner introduit un encodeur de sujet pour préserver grossièrement l'identité du sujet, où les caractéristiques générales compressées du sujet sont introduites via une couche d'attention avant l'attention croisée visuo-textuelle. Nous modifions ensuite les couches d'auto-attention dans les modèles pré-entraînés de génération d'images à partir de texte en couches d'auto-attention sujet pour affiner les détails du sujet cible. L'image générée interroge les caractéristiques détaillées à la fois de l'image de référence et d'elle-même dans l'auto-attention sujet. Il est important de souligner que l'auto-attention sujet est une méthode efficace, élégante et sans entraînement pour maintenir les caractéristiques détaillées des sujets personnalisés et peut servir de solution plug-and-play lors de l'inférence. Enfin, avec un fine-tuning supplémentaire piloté par le sujet, DreamTurner atteint des performances remarquables dans la génération d'images pilotée par un sujet, qui peut être contrôlée par un texte ou d'autres conditions telles que la pose. Pour plus de détails, veuillez visiter la page du projet à l'adresse https://dreamtuner-diffusion.github.io/.
Bien que les méthodes d'estimation de la profondeur monoculaire aient réalisé des progrès significatifs sur les benchmarks standards, l'estimation métrique de la profondeur en zero-shot reste un problème non résolu. Les défis incluent la modélisation conjointe des scènes intérieures et extérieures, qui présentent souvent des distributions significativement différentes de RGB et de profondeur, ainsi que l'ambiguïté de l'échelle de profondeur due aux intrinsèques de caméra inconnues. Des travaux récents ont proposé des architectures multi-têtes spécialisées pour modéliser conjointement les scènes intérieures et extérieures. En revanche, nous préconisons un modèle de diffusion générique et agnostique à la tâche, avec plusieurs avancées telles qu'une paramétrisation de la profondeur en échelle logarithmique pour permettre une modélisation conjointe des scènes intérieures et extérieures, un conditionnement sur le champ de vision (FOV) pour gérer l'ambiguïté d'échelle, et une augmentation synthétique du FOV pendant l'entraînement pour généraliser au-delà des intrinsèques de caméra limitées dans les ensembles de données d'entraînement. De plus, en utilisant un mélange d'entraînement plus diversifié que ce qui est courant, ainsi qu'une paramétrisation efficace de la diffusion, notre méthode, DMD (Diffusion for Metric Depth), réalise une réduction de 25 % de l'erreur relative (REL) sur les ensembles de données intérieures en zero-shot et de 33 % sur les ensembles de données extérieures en zero-shot par rapport à l'état de l'art actuel, en utilisant seulement un petit nombre d'étapes de débruitage. Pour un aperçu, voir https://diffusion-vision.github.io/dmd.
Dans cet article, nous présentons Fairy, une adaptation minimaliste mais robuste des modèles de diffusion pour l'édition d'images, les optimisant pour des applications d'édition vidéo. Notre approche repose sur le concept d'attention inter-images basée sur des ancres, un mécanisme qui propage implicitement les caractéristiques de diffusion entre les images, garantissant une cohérence temporelle supérieure et une synthèse de haute fidélité. Fairy ne se contente pas de pallier les limitations des modèles précédents, notamment en termes de mémoire et de vitesse de traitement. Il améliore également la cohérence temporelle grâce à une stratégie unique d'augmentation de données. Cette stratégie rend le modèle équivariant aux transformations affines dans les images source et cible. Remarquablement efficace, Fairy génère des vidéos de 120 images à une résolution de 512x384 (4 secondes à 30 images par seconde) en seulement 14 secondes, surpassant les travaux antérieurs d'au moins 44 fois. Une étude utilisateur approfondie, impliquant 1000 échantillons générés, confirme que notre approche offre une qualité supérieure, surpassant nettement les méthodes établies.
Les modèles de diffusion sont devenus le paradigme de facto pour la génération de vidéos. Cependant, leur dépendance à des données à l'échelle du web de qualité variable produit souvent des résultats visuellement peu attrayants et mal alignés avec les prompts textuels. Pour résoudre ce problème, nous proposons InstructVideo, une méthode visant à guider les modèles de diffusion texte-à-vidéo grâce à un feedback humain via un fine-tuning par récompense. InstructVideo repose sur deux éléments clés : 1) Pour réduire le coût du fine-tuning par récompense induit par la génération à travers la chaîne complète d'échantillonnage DDIM, nous reformulons ce fine-tuning comme un processus d'édition. En exploitant le processus de diffusion pour corrompre une vidéo échantillonnée, InstructVideo ne nécessite qu'une inférence partielle de la chaîne d'échantillonnage DDIM, réduisant ainsi le coût tout en améliorant l'efficacité du fine-tuning. 2) Pour pallier l'absence d'un modèle de récompense vidéo dédié aux préférences humaines, nous réutilisons des modèles de récompense d'image établis, tels que HPSv2. À cette fin, nous proposons le Segmental Video Reward, un mécanisme fournissant des signaux de récompense basés sur un échantillonnage segmenté et parcimonieux, ainsi que le Temporally Attenuated Reward, une méthode atténuant la dégradation de la modélisation temporelle lors du fine-tuning. Des expériences approfondies, tant qualitatives que quantitatives, valident la praticabilité et l'efficacité de l'utilisation de modèles de récompense d'image dans InstructVideo, améliorant significativement la qualité visuelle des vidéos générées sans compromettre les capacités de généralisation. Le code et les modèles seront rendus publics.
Nous présentons la Splatter Image, une approche ultra-rapide pour la reconstruction 3D d'objets à partir d'une seule vue, fonctionnant à 38 images par seconde (FPS). La Splatter Image s'appuie sur le Gaussian Splatting, une technique qui a récemment permis le rendu en temps réel, un apprentissage rapide et une excellente scalabilité pour la reconstruction multi-vues. Pour la première fois, nous appliquons le Gaussian Splatting dans un contexte de reconstruction monoscopique. Notre approche est basée sur l'apprentissage et, au moment du test, la reconstruction ne nécessite que l'évaluation en avant d'un réseau neuronal. L'innovation principale de la Splatter Image réside dans sa conception étonnamment simple : elle utilise un réseau image-à-image 2D pour mapper l'image d'entrée à une Gaussienne 3D par pixel. Les Gaussiennes résultantes prennent ainsi la forme d'une image, la Splatter Image. Nous étendons également la méthode pour incorporer plusieurs images en entrée, en ajoutant un mécanisme d'attention inter-vues. Grâce à la vitesse du moteur de rendu (588 FPS), nous pouvons utiliser un seul GPU pour l'entraînement tout en générant des images complètes à chaque itération afin d'optimiser des métriques perceptuelles comme le LPIPS. Sur des benchmarks standards, nous démontrons non seulement une reconstruction rapide, mais aussi de meilleurs résultats que des approches récentes et bien plus coûteuses en termes de PSNR, LPIPS et d'autres métriques.
Récemment, le modèle Segment Anything (SAM) a démontré une puissante capacité de segmentation et a suscité une grande attention dans le domaine de la vision par ordinateur. De nombreux travaux ultérieurs ont développé diverses applications basées sur le modèle SAM pré-entraîné, obtenant des performances impressionnantes sur des tâches de vision en aval. Cependant, SAM est composé d'architectures lourdes et nécessite une capacité de calcul massive, ce qui entrave son application sur des dispositifs périphériques à ressources limitées. Pour pallier cela, nous proposons dans cet article un cadre pour obtenir un modèle Segment Anything miniature (TinySAM) tout en conservant une forte performance en zero-shot. Nous proposons d'abord une méthode de distillation de connaissances en plusieurs étapes avec une stratégie d'échantillonnage de prompts difficiles en ligne pour distiller un modèle étudiant léger. Nous adaptons également la quantification post-entraînement à la tâche de segmentation promptable, réduisant ainsi davantage le coût computationnel. De plus, une stratégie hiérarchique de segmentation globale est proposée pour accélérer l'inférence globale par un facteur de 2, avec une dégradation de performance quasi nulle. Grâce à ces méthodes, notre TinySAM permet une réduction computationnelle de plusieurs ordres de grandeur et repousse les limites pour une tâche de segmentation efficiente. Des expériences approfondies sur diverses tâches de transfert zero-shot démontrent la performance significativement avantageuse de notre TinySAM par rapport aux méthodes concurrentes. Les modèles pré-entraînés et les codes seront disponibles à l'adresse https://github.com/xinghaochen/TinySAM et https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.
Ce travail présente un nouveau modèle Transformer appelé Cached Transformer, qui utilise un mécanisme d'attention Gated Recurrent Cached (GRC) pour étendre le mécanisme d'auto-attention avec un cache de mémoire différentiable de tokens. L'attention GRC permet de se concentrer à la fois sur les tokens passés et actuels, augmentant ainsi le champ réceptif de l'attention et permettant d'explorer les dépendances à long terme. En utilisant une unité de gating récurrente pour mettre à jour continuellement le cache, notre modèle réalise des avancées significatives dans six tâches de langage et de vision, notamment la modélisation du langage, la traduction automatique, les ListOPs, la classification d'images, la détection d'objets et la segmentation d'instances. De plus, notre approche surpasse les techniques précédentes basées sur la mémoire dans des tâches telles que la modélisation du langage et démontre la capacité à être appliquée à un plus large éventail de situations.
Pour atteindre une dextérité de niveau humain, les robots doivent déduire une conscience spatiale à partir d'une perception multimodale afin de raisonner sur les interactions de contact. Lors de la manipulation en main d'objets nouveaux, cette conscience spatiale implique d'estimer la pose et la forme de l'objet. L'état actuel de la perception en main repose principalement sur la vision et se limite au suivi d'objets connus a priori. De plus, l'occlusion visuelle des objets en main est inévitable pendant la manipulation, empêchant les systèmes actuels de dépasser les tâches sans occlusion. Nous combinons la vision et la perception tactile sur une main multifingérée pour estimer la pose et la forme d'un objet pendant la manipulation en main. Notre méthode, NeuralFeels, encode la géométrie de l'objet en apprenant un champ neuronal en ligne et le suit conjointement en optimisant un problème de graphe de pose. Nous étudions la perception multimodale en main en simulation et dans le monde réel, en interagissant avec différents objets via une politique pilotée par la proprioception. Nos expériences montrent des scores F de reconstruction finale de 81 % et des dérives de pose moyennes de 4,7 mm, réduites à 2,3 mm avec des modèles CAO connus. De plus, nous observons que sous une forte occlusion visuelle, nous pouvons obtenir jusqu'à 94 % d'amélioration dans le suivi par rapport aux méthodes basées uniquement sur la vision. Nos résultats démontrent que le toucher, au minimum, affine et, au mieux, désambigüise les estimations visuelles pendant la manipulation en main. Nous publions notre ensemble de données d'évaluation de 70 expériences, FeelSight, comme une étape vers l'établissement de références dans ce domaine. Notre représentation neuronale pilotée par la perception multimodale peut servir de colonne vertébrale perceptive pour faire progresser la dextérité des robots. Les vidéos sont disponibles sur notre site web de projet : https://suddhu.github.io/neural-feels/
Les modèles de diffusion guidés par texte ont révolutionné la génération d'images et de vidéos et ont également été utilisés avec succès pour la synthèse d'objets 3D basée sur l'optimisation. Ici, nous nous concentrons plutôt sur le domaine encore peu exploré du texte-à-4D et synthétisons des objets 3D dynamiques et animés en utilisant des méthodes de distillation de score avec une dimension temporelle supplémentaire. Par rapport aux travaux précédents, nous adoptons une approche novatrice basée sur la génération compositionnelle, et combinons des modèles de diffusion texte-à-image, texte-à-vidéo et multivues conscients de la 3D pour fournir un retour pendant l'optimisation d'objets 4D, assurant ainsi simultanément une cohérence temporelle, une apparence visuelle de haute qualité et une géométrie réaliste. Notre méthode, appelée Align Your Gaussians (AYG), exploite le splatting dynamique de Gaussiennes 3D avec des champs de déformation comme représentation 4D. Un élément crucial d'AYG est une nouvelle méthode pour régulariser la distribution des Gaussiennes 3D en mouvement, stabilisant ainsi l'optimisation et induisant le mouvement. Nous proposons également un mécanisme d'amplification du mouvement ainsi qu'un nouveau schéma de synthèse autorégressif pour générer et combiner plusieurs séquences 4D afin de prolonger la génération. Ces techniques nous permettent de synthétiser des scènes dynamiques vivantes, de surpasser qualitativement et quantitativement les travaux précédents et d'atteindre des performances de pointe en texte-à-4D. Grâce à la représentation 4D par Gaussiennes, différentes animations 4D peuvent être combinées de manière transparente, comme nous le démontrons. AYG ouvre des perspectives prometteuses pour l'animation, la simulation, la création de contenu numérique ainsi que la génération de données synthétiques.
Les récents progrès en intelligence artificielle générative ont considérablement amélioré l'édition d'images et de vidéos, en particulier dans le contexte du contrôle par prompts textuels. Les approches de pointe reposent principalement sur des modèles de diffusion pour accomplir ces tâches. Cependant, les exigences computationnelles des méthodes basées sur la diffusion sont substantielles, nécessitant souvent des jeux de données appariés à grande échelle pour l'entraînement, ce qui rend leur déploiement dans des applications pratiques difficile. Cette étude aborde ce défi en décomposant le processus d'édition vidéo basée sur le texte en deux étapes distinctes. Dans la première étape, nous exploitons un modèle de diffusion texte-à-image existant pour éditer simultanément quelques images clés sans ajustement supplémentaire. Dans la deuxième étape, nous introduisons un modèle efficace appelé MaskINT, basé sur des transformateurs génératifs masqués non autorégressifs et spécialisé dans l'interpolation d'images entre les images clés, bénéficiant de la guidance structurelle fournie par des images intermédiaires. Notre ensemble complet d'expériences illustre l'efficacité et l'efficience de MaskINT par rapport à d'autres méthodologies basées sur la diffusion. Cette recherche propose une solution pratique pour l'édition vidéo basée sur le texte et met en lumière le potentiel des transformateurs génératifs masqués non autorégressifs dans ce domaine.
Dans la recherche en IA, l'optimisation des modèles de langage de grande taille (LLMs) reste un défi majeur, crucial pour faire progresser les applications pratiques et la durabilité du domaine. S'appuyant sur les travaux fondateurs du laboratoire du professeur Song Han au MIT, cet article présente une nouvelle approche pour développer des Mini-GPTs via l'élagage contextuel. Notre méthodologie élimine stratégiquement des parties de l'architecture computationnelle des LLMs traditionnels, comme Phi-1.5, en se concentrant sur la conservation des fonctionnalités essentielles tout en réduisant considérablement la taille des modèles. Nous appliquons cette technique à divers ensembles de données complexes, incluant le droit américain, des questions-réponses médicales, des dialogues de Skyrim, des traductions anglais-taïwanais et des articles d'économie. Les résultats mettent en évidence l'efficacité et l'efficience de l'élagage contextuel, non seulement en tant que concept théorique, mais aussi comme outil pratique pour développer des LLMs spécifiques à un domaine et économes en ressources. L'élagage contextuel est une méthode prometteuse pour construire des LLMs spécifiques à un domaine, et cette recherche constitue une pierre angulaire pour les développements futurs avec davantage de puissance de calcul matériel, un réglage fin plus précis et une quantification améliorée.
Cet article présente une étude approfondie sur le rôle du guidage sans classifieur (Classifier-Free Guidance, CFG) dans les modèles de diffusion conditionnés par le texte, en se focalisant sur l'efficacité lors de l'inférence. Plus précisément, nous remettons en question le choix par défaut d'appliquer le CFG à toutes les étapes de diffusion et explorons plutôt des politiques de guidage plus efficaces. Nous formulons la découverte de ces politiques dans le cadre de la recherche d'architecture neuronale différentiable. Nos résultats suggèrent que les étapes de débruîtage proposées par le CFG s'alignent de plus en plus avec des étapes conditionnelles simples, ce qui rend l'évaluation supplémentaire du réseau neuronal par le CFG redondante, en particulier dans la seconde moitié du processus de débruîtage. Sur la base de cette observation, nous proposons le "Guidage Adaptatif" (Adaptive Guidance, AG), une variante efficace du CFG, qui omet de manière adaptative les évaluations du réseau lorsque le processus de débruîtage montre des signes de convergence. Nos expériences démontrent que AG préserve la qualité d'image du CFG tout en réduisant les calculs de 25 %. Ainsi, AG constitue une alternative prête à l'emploi à la distillation de guidage, atteignant 50 % des gains de vitesse de cette dernière tout en étant exempt de phase d'entraînement et en conservant la capacité à gérer les prompts négatifs. Enfin, nous mettons en évidence d'autres redondances du CFG dans la première moitié du processus de diffusion, montrant que des évaluations complètes de fonctions neuronales peuvent être remplacées par de simples transformations affines des estimations de scores passées. Cette méthode, appelée LinearAG, offre une inférence encore moins coûteuse au prix d'un écart par rapport au modèle de référence. Nos découvertes apportent des éclairages sur l'efficacité du processus de débruîtage conditionné, contribuant à un déploiement plus pratique et rapide des modèles de diffusion conditionnés par le texte.
Les représentations neuronales de scènes 3D ont montré un grand potentiel pour la reconstruction 3D à partir d'images 2D. Cependant, la reconstruction de captures du monde réel de scènes complexes reste un défi. Les méthodes génériques existantes de reconstruction 3D peinent souvent à représenter des détails géométriques fins et ne modélisent pas adéquatement les surfaces réfléchissantes des scènes à grande échelle. Les techniques qui se concentrent explicitement sur les surfaces réfléchissantes peuvent modéliser des réflexions complexes et détaillées en exploitant de meilleures paramétrisations des réflexions. Cependant, nous observons que ces méthodes ne sont souvent pas robustes dans des scénarios réels non bornés où des composants non réfléchissants ainsi que réfléchissants sont présents. Dans ce travail, nous proposons UniSDF, une méthode de reconstruction 3D à usage général capable de reconstruire des scènes complexes à grande échelle avec des réflexions. Nous étudions à la fois les techniques de paramétrisation de prédiction de couleur basées sur la vue et sur les réflexions, et constatons que le mélange explicite de ces représentations dans l'espace 3D permet une reconstruction de surfaces plus précises géométriquement, en particulier pour les surfaces réfléchissantes. Nous combinons en outre cette représentation avec une architecture de grille multi-résolution entraînée de manière grossière à fine, permettant des reconstructions plus rapides que les méthodes précédentes. Des expériences approfondies sur les ensembles de données au niveau des objets DTU, Shiny Blender ainsi que sur les ensembles de données non bornés Mip-NeRF 360 et Ref-NeRF real démontrent que notre méthode est capable de reconstruire de manière robuste des scènes complexes à grande échelle avec des détails fins et des surfaces réfléchissantes. Veuillez consulter notre page de projet à l'adresse https://fangjinhuawang.github.io/UniSDF.
Les champs de radiance neuronaux ont obtenu des performances remarquables dans la modélisation de l'apparence de scènes 3D. Cependant, les approches existantes peinent encore à reproduire l'apparence dépendante de la vue des surfaces brillantes, en particulier sous un éclairage complexe d'environnements intérieurs. Contrairement aux méthodes existantes, qui supposent généralement un éclairage distant comme une carte d'environnement, nous proposons un encodage directionnel gaussien apprenable pour mieux modéliser les effets dépendants de la vue dans des conditions d'éclairage de champ proche. De manière cruciale, notre nouvel encodage directionnel capture la nature spatialement variable de l'éclairage de champ proche et reproduit le comportement des cartes d'environnement préfiltrées. En conséquence, il permet l'évaluation efficace de la couleur spéculaire préconvoluée à n'importe quel emplacement 3D avec des coefficients de rugosité variables. Nous introduisons également un a priori géométrique basé sur les données qui aide à atténuer l'ambiguïté de radiance de forme dans la modélisation des réflexions. Nous démontrons que notre encodage directionnel gaussien et l'a priori géométrique améliorent significativement la modélisation des réflexions spéculaires complexes dans les champs de radiance neuronaux, ce qui permet de décomposer l'apparence en composants physiquement plus significatifs.
L'apprentissage de modèles prédictifs à partir d'observations en utilisant des réseaux de neurones profonds (DNN) représente une approche prometteuse pour de nombreux problèmes de planification et de contrôle dans le monde réel. Cependant, les DNN courants sont trop peu structurés pour une planification efficace, et les méthodes de contrôle actuelles reposent généralement sur un échantillonnage extensif ou une descente de gradient locale. Dans cet article, nous proposons un nouveau cadre pour l'apprentissage intégré de modèles et le contrôle prédictif, qui se prête à des algorithmes d'optimisation efficaces. Plus précisément, nous commençons avec un modèle neuronal ReLU des dynamiques du système et, avec des pertes minimales en précision de prédiction, nous le sparsifions progressivement en supprimant les neurones redondants. Ce processus discret de sparsification est approximé comme un problème continu, permettant une optimisation de bout en bout à la fois de l'architecture du modèle et des paramètres de poids. Le modèle sparsifié est ensuite utilisé par un contrôleur prédictif à variables mixtes, qui représente les activations des neurones comme des variables binaires et emploie des algorithmes efficaces de branchement et de bornage. Notre cadre est applicable à une grande variété de DNN, allant des perceptrons multicouches simples aux dynamiques complexes de réseaux de neurones graphiques. Il peut gérer efficacement des tâches impliquant des dynamiques de contact complexes, telles que le poussage d'objets, le tri d'objets compositionnels et la manipulation d'objets déformables. Les expériences numériques et matérielles montrent que, malgré la sparsification agressive, notre cadre peut offrir de meilleures performances en boucle fermée que les méthodes actuelles de pointe.
Les méthodes récentes de génération 3D à partir d'une seule image adoptent couramment l'échantillonnage par distillation de score (Score Distillation Sampling, SDS). Malgré des résultats impressionnants, elles présentent plusieurs lacunes, notamment une incohérence multi-vues, des textures sursaturées et trop lissées, ainsi qu'une vitesse de génération lente. Pour remédier à ces insuffisances, nous présentons Repaint123, qui vise à atténuer le biais multi-vues et la dégradation des textures, tout en accélérant le processus de génération. L'idée centrale est de combiner la puissante capacité de génération d'images du modèle de diffusion 2D avec la capacité d'alignement des textures de la stratégie de repainting pour produire des images multi-vues de haute qualité et cohérentes. Nous proposons en outre une force de repainting adaptative basée sur la visibilité pour les régions de chevauchement, afin d'améliorer la qualité des images générées lors du processus de repainting. Les images générées, de haute qualité et cohérentes en multi-vues, permettent l'utilisation d'une simple perte par erreur quadratique moyenne (Mean Square Error, MSE) pour une génération rapide de contenu 3D. Nous menons des expériences approfondies et démontrons que notre méthode possède une capacité supérieure à générer du contenu 3D de haute qualité avec une cohérence multi-vues et des textures fines en 2 minutes à partir de zéro. Le code est disponible à l'adresse https://github.com/junwuzhang19/repaint123.
Les ensembles de données d'imagerie biomédicale sont souvent de petite taille et biaisés, ce qui signifie que les performances réelles des modèles prédictifs peuvent être considérablement inférieures à celles attendues lors des tests internes. Ce travail propose d'utiliser l'édition générative d'images pour simuler des décalages de jeux de données et diagnostiquer les modes de défaillance des modèles de vision biomédicale ; cela peut être utilisé avant le déploiement pour évaluer la préparation, réduisant potentiellement les coûts et les risques pour les patients. Les méthodes d'édition existantes peuvent produire des modifications indésirables, avec des corrélations fallacieuses apprises en raison de la co-occurrence de maladies et d'interventions thérapeutiques, limitant ainsi leur applicabilité pratique. Pour remédier à cela, nous entraînons un modèle de diffusion texte-image sur plusieurs ensembles de radiographies thoraciques et introduisons une nouvelle méthode d'édition, RadEdit, qui utilise plusieurs masques, s'ils sont présents, pour contraindre les modifications et assurer la cohérence des images éditées. Nous considérons trois types de décalages de jeux de données : le décalage d'acquisition, le décalage de manifestation et le décalage de population, et démontrons que notre approche peut diagnostiquer les échecs et quantifier la robustesse des modèles sans collecte de données supplémentaires, complétant ainsi les outils plus qualitatifs pour l'IA explicable.