Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les a priori génératifs des modèles de diffusion à grande échelle pour la génération d'images à partir de texte permettent une large gamme de nouvelles applications de génération et d'édition sur des modalités visuelles diverses. Cependant, lors de l'adaptation de ces a priori à des modalités visuelles complexes, souvent représentées par plusieurs images (par exemple, une vidéo), il est difficile d'assurer la cohérence entre un ensemble d'images. Dans cet article, nous relevons ce défi avec une méthode novatrice, la Distillation Collaborative des Scores (CSD). CSD est basée sur la Descente de Gradient Variationnelle de Stein (SVGD). Plus précisément, nous proposons de considérer plusieurs échantillons comme des "particules" dans la mise à jour SVGD et de combiner leurs fonctions de score pour distiller les a priori génératifs sur un ensemble d'images de manière synchrone. Ainsi, CSD facilite l'intégration fluide d'informations à travers des images 2D, conduisant à une synthèse visuelle cohérente entre plusieurs échantillons. Nous démontrons l'efficacité de CSD dans une variété de tâches, englobant l'édition visuelle d'images panoramiques, de vidéos et de scènes 3D. Nos résultats soulignent la compétence de CSD en tant que méthode polyvalente pour améliorer la cohérence inter-échantillons, élargissant ainsi l'applicabilité des modèles de diffusion texte-image.
L'apprentissage automatique pour les équations différentielles ouvre la voie à des alternatives efficaces sur le plan computationnel aux solveurs numériques, avec des impacts potentiellement vastes en science et en ingénierie. Bien que les algorithmes actuels nécessitent généralement des données d'entraînement simulées adaptées à un contexte spécifique, on pourrait souhaiter apprendre des informations utiles à partir de sources hétérogènes, ou à partir d'observations de systèmes dynamiques réels qui sont bruitées ou incomplètes. Dans ce travail, nous apprenons des représentations polyvalentes d'équations aux dérivées partielles (EDP) à partir de données hétérogènes en mettant en œuvre des méthodes d'encastrement conjoint pour l'apprentissage auto-supervisé (SSL), un cadre d'apprentissage de représentations non supervisé qui a connu un succès notable en vision par ordinateur. Notre représentation surpasse les approches de référence pour des tâches invariantes, telles que la régression des coefficients d'une EDP, tout en améliorant les performances de pas de temps des solveurs neuronaux. Nous espérons que la méthodologie que nous proposons s'avérera utile dans le développement ultérieur de modèles de base polyvalents pour les EDP.
Nous présentons une nouvelle approche pour la génération d'actifs 3D statiques et articulés, centrée autour d'un auto-décodeur 3D. Le cadre de l'auto-décodeur 3D intègre les propriétés apprises à partir du jeu de données cible dans un espace latent, qui peut ensuite être décodé en une représentation volumétrique pour produire une apparence et une géométrie cohérentes selon la vue. Nous identifions ensuite l'espace latent volumétrique intermédiaire approprié et introduisons des opérations robustes de normalisation et dénormalisation pour apprendre une diffusion 3D à partir d'images 2D ou de vidéos monoculaires d'objets rigides ou articulés. Notre approche est suffisamment flexible pour utiliser soit une supervision de caméra existante, soit aucune information de caméra — apprenant plutôt celle-ci de manière efficace pendant l'entraînement. Nos évaluations démontrent que nos résultats de génération surpassent les alternatives de pointe sur divers jeux de données de référence et métriques, incluant des ensembles d'images multi-vues d'objets synthétiques, des vidéos réelles en conditions réelles de personnes en mouvement, et un grand ensemble de données de vidéos réelles d'objets statiques.
Étant donné un ensemble d'images calibrées d'une scène, nous présentons une approche qui produit une représentation 3D du monde simple, compacte et actionnable au moyen de primitives 3D. Alors que de nombreuses approches se concentrent sur la reconstruction de scènes 3D haute fidélité, nous nous focalisons sur la décomposition d'une scène en représentations 3D de niveau intermédiaire constituées d'un petit ensemble de primitives texturées. Ces représentations sont interprétables, faciles à manipuler et adaptées aux simulations basées sur la physique. De plus, contrairement aux méthodes existantes de décomposition en primitives qui s'appuient sur des données 3D en entrée, notre approche opère directement sur les images via un rendu différentiable. Plus précisément, nous modélisons les primitives sous forme de maillages superquadriques texturés et optimisons leurs paramètres à partir de zéro avec une fonction de perte basée sur le rendu d'images. Nous soulignons l'importance de modéliser la transparence pour chaque primitive, ce qui est crucial pour l'optimisation et permet également de gérer un nombre variable de primitives. Nous montrons que les primitives texturées résultantes reconstruisent fidèlement les images d'entrée et modélisent avec précision les points 3D visibles, tout en fournissant des complétions de forme amodale pour les régions d'objets non visibles. Nous comparons notre approche à l'état de l'art sur diverses scènes de DTU, et démontrons sa robustesse sur des captures réelles issues de BlendedMVS et Nerfstudio. Nous illustrons également comment nos résultats peuvent être utilisés pour éditer une scène sans effort ou effectuer des simulations physiques. Le code et les résultats vidéo sont disponibles à l'adresse https://www.tmonnier.com/DBW.
Le pré-entraînement vidéo-langage (VLP) est devenu de plus en plus important grâce à sa capacité à généraliser à diverses tâches de vision et de langage. Cependant, les frameworks existants de VLP égocentrique utilisent des encodeurs vidéo et langage séparés et n'apprennent les informations intermodales spécifiques à la tâche que lors du réglage fin, ce qui limite le développement d'un système unifié. Dans ce travail, nous introduisons la deuxième génération de pré-entraînement vidéo-langage égocentrique (EgoVLPv2), une amélioration significative par rapport à la génération précédente, en intégrant la fusion intermodale directement dans les backbones vidéo et langage. EgoVLPv2 apprend des représentations vidéo-texte solides pendant le pré-entraînement et réutilise les modules d'attention intermodale pour supporter différentes tâches en aval de manière flexible et efficace, réduisant ainsi les coûts de réglage fin. De plus, notre stratégie de fusion dans le backbone est plus légère et plus efficace en termes de calcul que l'empilement de couches supplémentaires spécifiques à la fusion. Des expériences approfondies sur un large éventail de tâches VL démontrent l'efficacité d'EgoVLPv2 en atteignant des performances de pointe cohérentes par rapport à des bases de référence solides pour toutes les tâches en aval. Notre page de projet est disponible à l'adresse suivante : https://shramanpramanick.github.io/EgoVLPv2/.
L'accès à des ressources numériques de haute qualité et diversifiées pour les humains articulés en 3D est crucial dans diverses applications, allant de la réalité virtuelle aux plateformes sociales. Les approches génératives, telles que les réseaux antagonistes génératifs (GANs) en 3D, remplacent rapidement les outils de création de contenu manuels fastidieux. Cependant, les frameworks existants de GANs 3D reposent généralement sur des représentations de scènes qui exploitent soit des maillages modèles, rapides mais de qualité limitée, soit des volumes, offrant une grande capacité mais lents à rendre, limitant ainsi la fidélité 3D dans les configurations de GANs. Dans ce travail, nous introduisons les volumes de surface superposés (LSVs) comme nouvelle représentation d'objets 3D pour les humains numériques articulés. Les LSVs représentent un corps humain en utilisant plusieurs couches de maillages texturés autour d'un modèle conventionnel. Ces couches sont rendues en utilisant la composition alpha avec une rasterisation différentiable rapide, et elles peuvent être interprétées comme une représentation volumétrique qui alloue sa capacité à une variété d'épaisseur finie autour du modèle. Contrairement aux modèles monocouches conventionnels qui peinent à représenter des détails fins hors surface comme les cheveux ou les accessoires, nos volumes de surface capturent naturellement de tels détails. Les LSVs peuvent être articulés et montrent une efficacité exceptionnelle dans les configurations de GANs, où un générateur 2D apprend à synthétiser les textures RGBA pour les couches individuelles. Entraîné sur des ensembles de données d'images 2D non structurées et à vue unique, notre LSV-GAN génère des humains numériques articulés en 3D de haute qualité et cohérents en vue, sans nécessiter de réseaux de suréchantillonnage 2D incohérents en vue.
Les travaux antérieurs ont établi l'entraînement au moment du test (Test-Time Training, TTT) comme un cadre général pour améliorer davantage un modèle déjà entraîné lors de son utilisation. Avant de faire une prédiction sur chaque instance de test, le modèle est entraîné sur cette même instance en utilisant une tâche auto-supervisée, telle que la reconstruction d'images avec des autoencodeurs masqués. Nous étendons le TTT au contexte de flux continu, où plusieurs instances de test - dans notre cas, des images vidéo - arrivent dans un ordre temporel. Notre extension est le TTT en ligne : le modèle actuel est initialisé à partir du modèle précédent, puis entraîné sur l'image courante et une petite fenêtre d'images immédiatement précédentes. Le TTT en ligne surpasse significativement le modèle fixe de référence pour quatre tâches, sur trois ensembles de données réels. L'amélioration relative est de 45 % et 66 % pour la segmentation par instance et panoptique. Étonnamment, le TTT en ligne surpasse également sa variante hors ligne, qui a accès à plus d'informations en s'entraînant sur toutes les images de la vidéo de test, indépendamment de l'ordre temporel. Cela diffère des résultats précédents obtenus avec des vidéos synthétiques. Nous conceptualisons la localité comme l'avantage du TTT en ligne par rapport au TTT hors ligne. Nous analysons le rôle de la localité à travers des ablations et une théorie basée sur le compromis biais-variance.