Articles de recherche en IA sélectionnés quotidiennement avec traductions
Le modèle Segment Anything (SAM) s'est imposé comme un puissant modèle de segmentation d'images en mode zero-shot, utilisant des invites interactives telles que des points pour générer des masques. Cet article présente SAM-PT, une méthode étendant les capacités de SAM au suivi et à la segmentation d'objets dans des vidéos dynamiques. SAM-PT exploite des techniques robustes de sélection et de propagation de points épars pour la génération de masques, démontrant qu'un suiveur de segmentation basé sur SAM peut offrir des performances zero-shot solides sur des benchmarks populaires de segmentation d'objets vidéo, notamment DAVIS, YouTube-VOS et MOSE. Par rapport aux stratégies traditionnelles de propagation de masques centrées sur les objets, nous utilisons de manière unique la propagation de points pour exploiter les informations de structure locale, indépendantes de la sémantique des objets. Nous mettons en avant les avantages du suivi basé sur les points grâce à une évaluation directe sur le benchmark zero-shot en monde ouvert des objets vidéo non identifiés (UVO). Pour améliorer davantage notre approche, nous utilisons le clustering K-Medoids pour l'initialisation des points et suivons à la fois les points positifs et négatifs pour distinguer clairement l'objet cible. Nous employons également plusieurs passes de décodage de masques pour affiner les masques et concevons une stratégie de ré-initialisation des points pour améliorer la précision du suivi. Notre code intègre différents suiveurs de points et benchmarks de segmentation vidéo et sera disponible à l'adresse https://github.com/SysCV/sam-pt.
Les récents modèles de diffusion guidés par texte à grande échelle offrent des capacités puissantes de génération d'images. Actuellement, un effort significatif est consacré à permettre la modification de ces images en utilisant uniquement le texte comme moyen d'offrir un éditing intuitif et polyvalent. Cependant, l'édition s'avère difficile pour ces modèles génératifs en raison de la nature inhérente des techniques d'édition, qui impliquent de préserver certains contenus de l'image originale. À l'inverse, dans les modèles basés sur le texte, même des modifications mineures de l'invite textuelle entraînent fréquemment un résultat entièrement distinct, rendant extrêmement difficile l'obtention d'une génération en une seule étape qui corresponde précisément à l'intention de l'utilisateur. De plus, pour éditer une image réelle à l'aide de ces outils de pointe, il faut d'abord inverser l'image dans le domaine du modèle pré-entraîné - ajoutant ainsi un autre facteur affectant la qualité de l'édition, ainsi que la latence. Dans ce rapport exploratoire, nous proposons LEDITS - une approche légère combinée pour l'édition d'images réelles, intégrant la technique d'inversion DDPM Edit Friendly avec le guidage sémantique, étendant ainsi le guidage sémantique à l'édition d'images réelles, tout en exploitant les capacités d'édition de l'inversion DDPM. Cette approche permet des modifications polyvalentes, à la fois subtiles et étendues, ainsi que des altérations de composition et de style, sans nécessiter d'optimisation ni d'extensions à l'architecture.
L'IA générative a réalisé des progrès significatifs en vision par ordinateur, notamment dans la synthèse d'images/vidéos conditionnée par des descriptions textuelles. Malgré ces avancées, des défis persistent, en particulier dans la génération de contenu centré sur l'humain, comme la synthèse de danse. Les méthodes existantes de synthèse de danse peinent à combler l'écart entre le contenu synthétisé et les scénarios de danse réels. Dans cet article, nous définissons un nouveau cadre de problème : la Génération de Danse Humaine Référencée, qui se concentre sur des scénarios de danse réels avec trois propriétés importantes : (i) Fidélité : la synthèse doit conserver l'apparence du sujet humain en premier plan et de l'arrière-plan de l'image de référence, et suivre précisément la pose cible ; (ii) Généralisabilité : le modèle doit pouvoir généraliser à des sujets humains, arrière-plans et poses non vus ; (iii) Compositionnalité : il doit permettre la composition de sujets, arrière-plans et poses vus/non vus provenant de différentes sources. Pour relever ces défis, nous proposons une nouvelle approche, DISCO, qui inclut une architecture de modèle innovante avec un contrôle désentrelacé pour améliorer la fidélité et la compositionnalité de la synthèse de danse, ainsi qu'un pré-entraînement efficace des attributs humains pour une meilleure généralisabilité à des humains non vus. Des résultats qualitatifs et quantitatifs approfondis démontrent que DISCO peut générer des images et vidéos de danse humaine de haute qualité avec des apparences variées et des mouvements flexibles. Le code, la démo, la vidéo et les visualisations sont disponibles à l'adresse : https://disco-dance.github.io/.
L'avènement des grands modèles de langage (LLMs) a révolutionné le traitement du langage naturel, permettant la génération de textes cohérents et pertinents sur le plan contextuel. Alors que les LLMs alimentent de plus en plus les agents conversationnels, la personnalité synthétisée intégrée dans ces modèles en raison de leur entraînement sur de vastes quantités de données générées par des humains attire l'attention. Étant donné que la personnalité est un facteur important déterminant l'efficacité de la communication, nous présentons une méthode complète pour administrer des tests psychométriques validés et quantifier, analyser et façonner les traits de personnalité manifestés dans les textes générés par des LLMs largement utilisés. Nous constatons que : 1) la personnalité simulée dans les sorties de certains LLMs (sous des configurations d'invite spécifiques) est fiable et valide ; 2) les preuves de fiabilité et de validité de la personnalité simulée par les LLMs sont plus solides pour les modèles plus volumineux et affinés par instruction ; et 3) la personnalité dans les sorties des LLMs peut être façonnée selon des dimensions souhaitées pour imiter des profils de personnalité spécifiques. Nous discutons également des applications potentielles et des implications éthiques de notre cadre de mesure et de façonnage, en particulier en ce qui concerne l'utilisation responsable des LLMs.
Alors que les récents progrès des modèles vision-langage ont révolutionné la compréhension multimodale, il reste incertain si ces modèles possèdent les capacités de comprendre les images générées. Comparées aux données réelles, les images synthétiques présentent une plus grande diversité tant en termes de contenu que de style, ce qui pose des difficultés significatives pour les modèles afin de les appréhender pleinement. Pour répondre à ce problème, nous présentons un jeu de données à grande échelle, JourneyDB, pour la compréhension visuelle multimodale des images générées. Notre jeu de données soigneusement sélectionné couvre 4 millions d'images générées diversifiées et de haute qualité, accompagnées des prompts textuels utilisés pour les produire. Nous concevons en outre 4 benchmarks pour quantifier la performance de la compréhension des images générées en termes d'interprétation du contenu et du style. Ces benchmarks incluent l'inversion de prompt, la récupération de style, la génération de légendes d'images et la réponse à des questions visuelles. Enfin, nous évaluons la performance des modèles multimodaux de pointe actuels lorsqu'ils sont appliqués à JourneyDB, et fournissons une analyse approfondie de leurs forces et limites dans la compréhension du contenu généré. Nous espérons que le jeu de données et les benchmarks proposés faciliteront la recherche dans le domaine de la compréhension du contenu généré. Le jeu de données sera disponible sur https://journeydb.github.io.
Cet article présente MVDiffusion, une méthode simple mais efficace de génération d'images multi-vues pour des scénarios où des correspondances pixel-à-pixel sont disponibles, telles que des recadrages perspectifs à partir de panoramas ou d'images multi-vues avec géométrie donnée (cartes de profondeur et poses). Contrairement aux modèles précédents qui reposent sur un déformation et un inpainting itératifs des images, MVDiffusion génère simultanément toutes les images avec une conscience globale, englobant une haute résolution et un contenu riche, résolvant efficacement l'accumulation d'erreurs prévalente dans les modèles antérieurs. MVDiffusion intègre spécifiquement un mécanisme d'attention sensible aux correspondances, permettant une interaction efficace entre les vues. Ce mécanisme soutient trois modules pivots : 1) un module de génération qui produit des images en basse résolution tout en maintenant une correspondance globale, 2) un module d'interpolation qui densifie la couverture spatiale entre les images, et 3) un module de super-résolution qui augmente la résolution pour obtenir des sorties en haute résolution. En termes d'imagerie panoramique, MVDiffusion peut générer des images photoréalistes en haute résolution jusqu'à 1024x1024 pixels. Pour la génération d'images multi-vues conditionnées par la géométrie, MVDiffusion démontre la première méthode capable de générer une carte texturée d'un maillage de scène. La page du projet est disponible à l'adresse https://mvdiffusion.github.io.
Les approches basées sur l'apprentissage pour la capture de mouvement monoculaire ont récemment montré des résultats prometteurs en apprenant à effectuer une régression de manière pilotée par les données. Cependant, en raison des défis liés à la collecte de données et à la conception des réseaux, il reste difficile pour les solutions existantes d'atteindre une capture en temps réel du corps entier tout en étant précises dans l'espace mondial. Dans ce travail, nous proposons un schéma d'apprentissage séquentiel de proxy à mouvement, accompagné d'un ensemble de données proxy comprenant des séquences de squelettes 2D et des mouvements rotationnels 3D dans l'espace mondial. Ces données proxy nous permettent de construire un réseau basé sur l'apprentissage avec une supervision précise du corps entier, tout en atténuant les problèmes de généralisation. Pour des prédictions plus précises et physiquement plausibles, un module de descente de mouvement neuronal conscient des contacts est proposé dans notre réseau, lui permettant de prendre en compte les contacts pied-sol et les désalignements de mouvement par rapport aux observations proxy. De plus, nous partageons les informations contextuelles corps-main dans notre réseau pour une récupération plus compatible des poses du poignet avec le modèle du corps entier. Avec la solution basée sur l'apprentissage proposée, nous démontrons le premier système de capture monoculaire en temps réel du corps entier avec des contacts pied-sol plausibles dans l'espace mondial. Plus de résultats vidéo sont disponibles sur notre page de projet : https://liuyebin.com/proxycap.
Les modèles de langage pré-entraînés (PLM) sont aujourd'hui le modèle principal pour le traitement du langage naturel. Malgré leurs performances impressionnantes en aval, il peut être difficile d'appliquer les PLM à de nouvelles langues, ce qui constitue un obstacle à l'accessibilité universelle de leurs capacités. Bien que des travaux antérieurs aient montré qu'il est possible de résoudre ce problème en apprenant une nouvelle couche d'embedding pour la nouvelle langue, cette approche est à la fois inefficace en termes de données et de calcul. Nous proposons d'utiliser un mécanisme d'oubli actif pendant le pré-entraînement, comme une méthode simple pour créer des PLM capables de s'adapter rapidement à de nouvelles langues. Concrètement, en réinitialisant la couche d'embedding tous les K mises à jour pendant le pré-entraînement, nous encourageons le PLM à améliorer sa capacité à apprendre de nouveaux embeddings en un nombre limité de mises à jour, similaire à un effet de méta-apprentissage. Les expériences avec RoBERTa montrent que les modèles pré-entraînés avec notre mécanisme d'oubli démontrent non seulement une convergence plus rapide pendant l'adaptation linguistique, mais surpassent également les modèles standards dans un régime de faible quantité de données, en particulier pour les langues éloignées de l'anglais.
Les grands modèles de langage montrent des résultats impressionnants sur les tâches NLP en few-shot. Cependant, ces modèles sont gourmands en mémoire et en calcul. Le méta-apprentissage permet d'exploiter des modèles plus petits pour la généralisation en few-shot de manière générale et indépendante de la tâche ; cependant, ces méthodes seules aboutissent à des modèles qui peuvent ne pas avoir une paramétrisation ou des connaissances suffisantes pour s'adapter rapidement à une grande variété de tâches. Pour surmonter ce problème, nous proposons un méta-apprentissage avec récupération de démonstrations, où nous utilisons un récupérateur de passages denses pour récupérer des démonstrations étiquetées sémantiquement similaires à chaque exemple, afin d'obtenir une supervision plus variée. En séparant les connaissances externes des paramètres du modèle, nous pouvons utiliser le méta-apprentissage pour entraîner des modèles paramétriquement efficaces qui généralisent bien sur une plus grande variété de tâches. Nous construisons un ensemble de méta-apprentissage à partir de UnifiedQA et CrossFit, et proposons une banque de démonstrations basée sur les tâches d'UnifiedQA. À notre connaissance, notre travail est le premier à combiner la récupération avec le méta-apprentissage, à utiliser des modèles DPR pour récupérer des démonstrations, et à exploiter des démonstrations provenant de nombreuses tâches simultanément, plutôt que d'échantillonner aléatoirement des démonstrations à partir de l'ensemble d'entraînement de la tâche cible. Notre approche surpasse une variété de méthodes ciblées, paramétriquement efficaces et augmentées par récupération, sur les tâches de question-réponse, d'inférence en langage naturel et de classification de texte (y compris SQuAD, QNLI et TREC). Notre approche peut être méta-entraînée et affinée rapidement sur un seul GPU.
Notre objectif est que les robots puissent suivre des instructions en langage naturel telles que "place la serviette à côté du micro-ondes". Cependant, obtenir de grandes quantités de données annotées, c'est-à-dire des données contenant des démonstrations de tâches étiquetées avec l'instruction linguistique, est prohibitif. En revanche, l'obtention de politiques répondant à des objectifs visuels est beaucoup plus simple, car tout essai autonome ou démonstration peut être rétrospectivement étiqueté avec son état final comme objectif. Dans ce travail, nous proposons une méthode qui exploite des politiques conditionnées à la fois par l'image et par l'objectif, en utilisant uniquement une petite quantité de données linguistiques. Les travaux précédents ont progressé dans ce domaine en utilisant des modèles vision-langage ou en entraînant conjointement des politiques conditionnées par le langage et l'objectif, mais jusqu'à présent, aucune de ces méthodes n'a été efficacement mise à l'échelle pour des tâches robotiques réelles sans une annotation humaine importante. Notre méthode atteint une performance robuste dans le monde réel en apprenant un embedding à partir des données annotées qui aligne le langage non pas sur l'image de l'objectif, mais plutôt sur le changement souhaité entre les images de départ et d'arrivée auquel correspond l'instruction. Nous entraînons ensuite une politique sur cet embedding : la politique bénéficie de toutes les données non annotées, mais l'embedding aligné fournit une interface pour que le langage puisse guider la politique. Nous démontrons le suivi d'instructions à travers une variété de tâches de manipulation dans différentes scènes, avec une généralisation à des instructions linguistiques en dehors des données annotées. Les vidéos et le code de notre approche sont disponibles sur notre site web : http://tiny.cc/grif.
La modélisation d'avatars 3D bénéficie à divers scénarios d'application tels que la réalité augmentée/réalité virtuelle (AR/VR), les jeux vidéo et le cinéma. Les visages des personnages apportent une diversité et une vivacité significatives en tant que composant essentiel des avatars. Cependant, la création de modèles 3D de visages de personnages nécessite généralement une charge de travail importante avec des outils commerciaux, même pour des artistes expérimentés. Divers outils existants basés sur des croquis ne parviennent pas à permettre aux amateurs de modéliser des formes faciales variées et des détails géométriques riches. Dans cet article, nous présentons SketchMetaFace - un système de croquis destiné aux utilisateurs amateurs pour modéliser des visages 3D haute fidélité en quelques minutes. Nous avons soigneusement conçu à la fois l'interface utilisateur et l'algorithme sous-jacent. Premièrement, des traits sensibles à la courbure sont adoptés pour mieux soutenir la contrôlabilité de la sculpture des détails faciaux. Deuxièmement, en considérant le problème clé de la cartographie d'un croquis 2D vers un modèle 3D, nous développons une nouvelle méthode basée sur l'apprentissage appelée "Modélisation de Maillage Guidée par Implicite et Profondeur" (IDGMM). Elle fusionne les avantages des représentations de maillage, implicite et de profondeur pour obtenir des résultats de haute qualité avec une grande efficacité. De plus, pour améliorer l'utilisabilité, nous proposons une conception d'interface de croquis 2D allant du grossier au fin et un outil de suggestion de traits basé sur les données. Des études utilisateurs démontrent la supériorité de notre système par rapport aux outils de modélisation existants en termes de facilité d'utilisation et de qualité visuelle des résultats. Les analyses expérimentales montrent également que l'IDGMM atteint un meilleur compromis entre précision et efficacité. SketchMetaFace est disponible à l'adresse suivante : https://zhongjinluo.github.io/SketchMetaFace/.