Articles de recherche en IA sélectionnés quotidiennement avec traductions
La détection de texte généré par les modèles de langage modernes de grande envergure est considérée comme difficile, car ces modèles, tout comme les humains, peuvent manifester une large gamme de comportements complexes. Cependant, nous constatons qu’un score basé sur la comparaison de deux modèles de langage étroitement liés est très précis pour distinguer le texte généré par l’humain de celui généré par la machine. Sur la base de ce mécanisme, nous proposons un nouveau détecteur de modèles de langage qui ne nécessite que des calculs simples utilisant une paire de modèles pré-entraînés. Cette méthode, appelée Binoculars, atteint une précision de pointe sans nécessiter de données d’entraînement. Elle est capable d’identifier le texte généré par une variété de modèles de langage modernes sans aucune modification spécifique à un modèle. Nous évaluons de manière exhaustive Binoculars sur plusieurs sources de texte et dans diverses situations. Sur une large gamme de types de documents, Binoculars détecte plus de 90 % des échantillons générés par ChatGPT (et d’autres modèles de langage) avec un taux de faux positifs de 0,01 %, bien qu’il n’ait pas été entraîné sur des données spécifiques à ChatGPT.
Des efforts considérables ont été déployés pour augmenter la compétence en jeu de rôle des modèles de langage à grande échelle (LLMs) open-source en imitant leurs homologues propriétaires. Néanmoins, nous postulons que les LLMs possèdent intrinsèquement des capacités de jeu de rôle, en raison de la connaissance approfondie des personnages et des dialogues potentiels intégrés dans leurs vastes corpus d’entraînement. Ainsi, dans cette étude, nous présentons Ditto, une méthode d’auto-alignement pour le jeu de rôle. Ditto exploite la connaissance des personnages, encourageant un LLM suivant des instructions à simuler des dialogues de jeu de rôle comme une variante de compréhension de lecture. Cette méthode crée un ensemble de données d’entraînement pour le jeu de rôle comprenant 4 000 personnages, dépassant de dix fois l’échelle des ensembles de données actuellement disponibles en termes de nombre de rôles. Par la suite, nous affinons le LLM en utilisant cet ensemble de données auto-généré pour améliorer ses capacités de jeu de rôle. Lors de l’évaluation de notre benchmark de jeu de rôle méticuleusement construit et reproductible, ainsi que du sous-ensemble de jeu de rôle de MT-Bench, Ditto, à différentes échelles de paramètres, maintient systématiquement une identité de rôle cohérente et fournit des connaissances spécifiques au rôle précises dans des conversations de jeu de rôle à plusieurs tours. Notamment, il surpasse toutes les bases de référence open-source en jeu de rôle, démontrant des niveaux de performance comparables à ceux des chatbots propriétaires avancés. De plus, nous présentons la première expérience d’alignement croisé-supervisé complète dans le domaine du jeu de rôle, révélant que les capacités intrinsèques des LLMs limitent la connaissance dans le jeu de rôle. Parallèlement, les styles de jeu de rôle peuvent être facilement acquis avec l’orientation de modèles plus petits. Nous rendons les ressources associées open-source à l’adresse https://github.com/OFA-Sys/Ditto.
Nous introduisons le méta-prompting, une technique d'échafaudage efficace conçue pour améliorer la fonctionnalité des modèles de langage (LM). Cette approche transforme un seul LM en un chef d'orchestre polyvalent, habile à gérer et intégrer plusieurs requêtes LM indépendantes. En utilisant des instructions de haut niveau, le méta-prompting guide le LM pour décomposer des tâches complexes en sous-tâches plus petites et plus gérables. Ces sous-tâches sont ensuite traitées par des instances distinctes "experts" du même LM, chacune opérant sous des instructions spécifiques et adaptées. Au cœur de ce processus se trouve le LM lui-même, dans son rôle de chef d'orchestre, qui assure une communication fluide et une intégration efficace des sorties de ces modèles experts. Il utilise également sa pensée critique inhérente et ses processus de vérification robustes pour affiner et authentifier le résultat final. Cette approche de prompt collaboratif permet à un seul LM d'agir simultanément comme un orchestrateur complet et un panel d'experts diversifiés, améliorant significativement ses performances sur une large gamme de tâches. La nature zero-shot et agnostique aux tâches du méta-prompting simplifie grandement l'interaction utilisateur en évitant le besoin d'instructions détaillées spécifiques à la tâche. De plus, notre recherche démontre l'intégration transparente d'outils externes, tels qu'un interpréteur Python, dans le cadre du méta-prompting, élargissant ainsi son applicabilité et son utilité. À travers des expérimentations rigoureuses avec GPT-4, nous établissons la supériorité du méta-prompting par rapport aux méthodes d'échafaudage conventionnelles : en moyenne sur toutes les tâches, y compris le Jeu de 24, Checkmate-in-One et les énigmes de programmation Python, le méta-prompting, augmenté d'une fonctionnalité d'interpréteur Python, surpasse le prompt standard de 17,1 %, le prompt expert (dynamique) de 17,3 % et le prompt multipersona de 15,2 %.
Les modèles de diffusion ont démontré des performances exceptionnelles dans la génération et l'édition d'images à partir de texte. Cependant, les méthodes existantes rencontrent souvent des difficultés lorsqu'elles traitent des prompts textuels complexes impliquant plusieurs objets avec de multiples attributs et relations. Dans cet article, nous proposons un tout nouveau cadre de génération/édition d'images à partir de texte sans apprentissage, nommé Recaption, Plan and Generate (RPG), qui exploite la puissante capacité de raisonnement en chaîne de pensée des modèles de langage multimodaux (MLLM) pour améliorer la compositionnalité des modèles de diffusion texte-image. Notre approche utilise le MLLM comme planificateur global pour décomposer le processus de génération d'images complexes en plusieurs tâches de génération plus simples au sein de sous-régions. Nous proposons une diffusion régionale complémentaire pour permettre une génération compositionnelle par région. De plus, nous intégrons la génération et l'édition d'images guidées par texte dans le cadre proposé RPG de manière en boucle fermée, améliorant ainsi la capacité de généralisation. Des expériences approfondies démontrent que notre RPG surpasse les modèles de diffusion texte-image de pointe, y compris DALL-E 3 et SDXL, en particulier dans la composition d'objets multi-catégories et l'alignement sémantique texte-image. Notamment, notre cadre RPG présente une large compatibilité avec diverses architectures MLLM (par exemple, MiniGPT-4) et backbones de diffusion (par exemple, ControlNet). Notre code est disponible à l'adresse : https://github.com/YangLing0818/RPG-DiffusionMaster
Les modèles de diffusion texte-image constituent une classe de modèles génératifs profonds qui ont démontré une capacité impressionnante à générer des images de haute qualité. Cependant, ces modèles sont susceptibles de présenter des biais implicites issus de paires texte-image à l'échelle du web, ce qui peut entraîner une modélisation inexacte d'aspects des images qui nous importent. Cela peut se traduire par des échantillons sous-optimaux, des biais dans le modèle, et des images qui ne correspondent pas à l'éthique et aux préférences humaines. Dans cet article, nous présentons un algorithme efficace et évolutif pour améliorer les modèles de diffusion en utilisant l'apprentissage par renforcement (RL) à travers un ensemble diversifié de fonctions de récompense, telles que les préférences humaines, la compositionnalité et l'équité, appliquées à des millions d'images. Nous montrons comment notre approche surpasse significativement les méthodes existantes pour aligner les modèles de diffusion sur les préférences humaines. Nous démontrons également comment cela améliore considérablement les modèles pré-entraînés de Stable Diffusion (SD), générant des échantillons préférés par les humains 80,3 % du temps par rapport à ceux du modèle SD de base, tout en améliorant à la fois la composition et la diversité des échantillons générés.
Comprendre et raisonner sur les relations spatiales est une capacité fondamentale pour le domaine de la Réponse à des Questions Visuelles (VQA) et de la robotique. Bien que les Modèles de Vision et Langage (VLM) aient démontré des performances remarquables sur certains benchmarks de VQA, ils manquent encore de capacités en raisonnement spatial 3D, comme la reconnaissance des relations quantitatives entre objets physiques, telles que les distances ou les différences de taille. Nous émettons l'hypothèse que la capacité limitée des VLMs en raisonnement spatial est due à l'absence de connaissances spatiales 3D dans les données d'entraînement, et nous visons à résoudre ce problème en entraînant les VLMs avec des données de raisonnement spatial à l'échelle d'Internet. À cette fin, nous présentons un système pour faciliter cette approche. Nous développons d'abord un cadre automatique de génération de données de VQA spatiale 3D, capable de produire jusqu'à 2 milliards d'exemples de VQA sur 10 millions d'images du monde réel. Nous étudions ensuite divers facteurs dans la recette d'entraînement, incluant la qualité des données, le pipeline d'entraînement et l'architecture des VLMs. Notre travail présente le premier ensemble de données de raisonnement spatial 3D à l'échelle d'Internet dans un espace métrique. En entraînant un VLM sur de telles données, nous améliorons significativement ses capacités en VQA spatiale, tant qualitative que quantitative. Enfin, nous démontrons que ce VLM ouvre de nouvelles applications en aval dans le raisonnement spatial en chaîne de pensée et en robotique, grâce à sa capacité d'estimation quantitative. Site du projet : https://spatial-vlm.github.io/
Alors que les capacités des grands modèles multimodaux (LMMs) continuent de progresser, l'évaluation de leurs performances devient un besoin croissant. De plus, il existe un déficit encore plus important dans l'évaluation des connaissances avancées et des capacités de raisonnement des LMMs dans des contextes non-anglophones, comme le chinois. Nous présentons CMMMU, un nouveau benchmark chinois de compréhension multimodale massive et multidisciplinaire, conçu pour évaluer les LMMs sur des tâches nécessitant des connaissances disciplinaires de niveau universitaire et un raisonnement approfondi dans un contexte chinois. CMMMU s'inspire et suit strictement le modèle d'annotation et d'analyse de MMMU. CMMMU comprend 12 000 questions multimodales collectées manuellement à partir d'examens universitaires, de quiz et de manuels, couvrant six disciplines principales : Art & Design, Commerce, Sciences, Santé & Médecine, Sciences Humaines & Sociales, et Technologie & Ingénierie, à l'instar de son homologue MMMU. Ces questions s'étendent sur 30 sujets et comprennent 39 types d'images hautement hétérogènes, tels que des graphiques, des diagrammes, des cartes, des tableaux, des partitions musicales et des structures chimiques. CMMMU se concentre sur la perception complexe et le raisonnement avec des connaissances spécifiques au domaine dans un contexte chinois. Nous évaluons 11 LLMs open-source et un GPT-4V(ision) propriétaire. Même GPT-4V n'atteint que des précisions de 42 %, indiquant un vaste espace d'amélioration. CMMMU stimulera la communauté à construire la prochaine génération de LMMs vers une intelligence artificielle experte et promouvra la démocratisation des LMMs en fournissant des contextes linguistiques diversifiés.
Les radiographies thoraciques (RX) constituent l'examen d'imagerie le plus fréquemment réalisé en pratique clinique. Les récents progrès dans le développement de modèles de base (FMs) vision-langage ouvrent la possibilité d'une interprétation automatisée des RX, ce qui pourrait aider les médecins dans la prise de décision clinique et améliorer les résultats pour les patients. Cependant, le développement de FMs capables d'interpréter avec précision les RX est complexe en raison (1) de la disponibilité limitée de jeux de données vision-langage à grande échelle dans le domaine des images médicales, (2) de l'absence d'encodeurs vision et langage capables de capturer les complexités des données médicales, et (3) du manque de cadres d'évaluation pour comparer les capacités des FMs en matière d'interprétation des RX. Dans ce travail, nous relevons ces défis en introduisant d'abord CheXinstruct, un jeu de données d'ajustement par instruction à grande échelle, constitué à partir de 28 jeux de données publics. Nous présentons ensuite CheXagent, un FM ajusté par instruction capable d'analyser et de résumer les RX. Pour construire CheXagent, nous concevons un grand modèle de langage (LLM) clinique pour l'analyse des rapports radiologiques, un encodeur visuel pour représenter les images RX, et un réseau pour relier les modalités vision et langage. Enfin, nous introduisons CheXbench, un nouveau benchmark conçu pour évaluer systématiquement les FMs sur 8 tâches d'interprétation des RX cliniquement pertinentes. Des évaluations quantitatives approfondies et des revues qualitatives menées par cinq radiologues experts démontrent que CheXagent surpasse les FMs généraux et médicaux précédemment développés sur les tâches de CheXbench. Par ailleurs, dans un effort pour améliorer la transparence du modèle, nous réalisons une évaluation d'équité prenant en compte les facteurs de sexe, race et âge afin de mettre en lumière les disparités potentielles de performance. Notre projet est disponible à l'adresse suivante : https://stanford-aimi.github.io/chexagent.html.
Nous présentons le Transformer de Diffusion en Sablier (HDiT), un modèle génératif d'images qui présente une mise à l'échelle linéaire avec le nombre de pixels, permettant un entraînement à haute résolution (par exemple 1024 × 1024) directement dans l'espace des pixels. S'appuyant sur l'architecture Transformer, connue pour sa capacité à s'adapter à des milliards de paramètres, il comble l'écart entre l'efficacité des U-Nets convolutifs et la scalabilité des Transformers. HDiT s'entraîne avec succès sans recourir aux techniques typiques d'entraînement à haute résolution telles que les architectures multirésolution, les autoencodeurs latents ou l'auto-conditionnement. Nous démontrons qu'HDiT rivalise avec les modèles existants sur ImageNet 256^2 et établit un nouvel état de l'art pour les modèles de diffusion sur FFHQ-1024^2.
Nous proposons Diffusion Inference-Time T-Optimization (DITTO), un cadre général pour contrôler des modèles de diffusion pré-entraînés de texte-à-musique au moment de l'inférence via l'optimisation des latents de bruit initial. Notre méthode peut être utilisée pour optimiser à travers toute fonction de perte différentiable de correspondance de caractéristiques afin d'obtenir une sortie cible (stylisée) et tire parti du gradient checkpointing pour une efficacité mémoire. Nous démontrons une gamme étonnamment large d'applications pour la génération musicale, incluant l'inpainting, l'outpainting, le bouclage ainsi que le contrôle de l'intensité, de la mélodie et de la structure musicale - le tout sans jamais affiner le modèle sous-jacent. Lorsque nous comparons notre approche à des méthodes connexes basées sur l'entraînement, le guidage et l'optimisation, nous constatons que DITTO atteint des performances de pointe sur presque toutes les tâches, surpassant notamment les approches comparables en termes de contrôlabilité, de qualité audio et d'efficacité computationnelle, ouvrant ainsi la voie à un contrôle de haute qualité, flexible et sans entraînement des modèles de diffusion. Des exemples sonores sont disponibles à l'adresse https://DITTO-Music.github.io/web/.
L'alignement des grands modèles de langage (LLMs) avec les préférences humaines grâce à l'apprentissage par renforcement (RLHF) peut entraîner un détournement de récompense, où les LLMs exploitent les failles du modèle de récompense (RM) pour atteindre des récompenses apparemment élevées sans satisfaire les objectifs sous-jacents. Nous identifions deux défis principaux lors de la conception des RM pour atténuer ce détournement : les décalages de distribution pendant le processus de RL et les incohérences dans les préférences humaines. Comme solution, nous proposons les Modèles de Récompense à Poids Moyennés (WARM), qui consistent d'abord à affiner plusieurs RM, puis à les moyenniser dans l'espace des poids. Cette stratégie repose sur l'observation que les poids affinés restent linéairement connectés en mode lorsqu'ils partagent le même pré-entraînement. En moyennisant les poids, WARM améliore l'efficacité par rapport à l'assemblage traditionnel des prédictions, tout en renforçant la fiabilité face aux décalages de distribution et la robustesse aux incohérences de préférences. Nos expériences sur des tâches de résumé, utilisant les méthodes best-of-N et RL, montrent que WARM améliore la qualité globale et l'alignement des prédictions des LLMs ; par exemple, une politique RL affinée avec WARM obtient un taux de victoire de 79,4 % contre une politique RL affinée avec un seul RM.
Les modèles de diffusion ont récemment suscité un intérêt croissant dans la recherche pour leurs remarquables capacités de transfert dans les tâches de segmentation sémantique. Cependant, la génération de masques de segmentation fine avec ces modèles nécessite souvent un entraînement supplémentaire sur des ensembles de données annotées, laissant incertaine la mesure dans laquelle les modèles de diffusion pré-entraînés comprennent seuls les relations sémantiques des images qu'ils génèrent. Pour répondre à cette question, nous exploitons les connaissances sémantiques extraites de Stable Diffusion (SD) et visons à développer un segmentateur d'images capable de générer des cartes de segmentation fine sans aucun entraînement supplémentaire. La principale difficulté réside dans le fait que les cartes de caractéristiques sémantiquement significatives existent généralement uniquement dans les couches spatialement de faible dimension, ce qui pose un défi pour extraire directement les relations sémantiques au niveau des pixels à partir de ces cartes. Pour surmonter ce problème, notre cadre identifie les correspondances sémantiques entre les pixels de l'image et les emplacements spatiaux des cartes de caractéristiques de faible dimension en exploitant le processus de génération de SD, et les utilise pour construire des cartes de segmentation à la résolution de l'image. Dans des expériences approfondies, les cartes de segmentation produites se révèlent bien délimitées et capturent des parties détaillées des images, indiquant l'existence de connaissances sémantiques précises au niveau des pixels dans les modèles de diffusion.
Des progrès significatifs ont été réalisés dans l'entraînement de grands modèles génératifs pour le langage naturel et les images. Cependant, l'avancement des modèles génératifs 3D est entravé par leurs importantes exigences en ressources pour l'entraînement, ainsi que par des représentations inefficaces, non compactes et moins expressives. Cet article présente Make-A-Shape, un nouveau modèle génératif 3D conçu pour un entraînement efficace à grande échelle, capable d'utiliser 10 millions de formes disponibles publiquement. Sur le plan technique, nous innovons d'abord en proposant une représentation par arbre de wavelets pour encoder de manière compacte les formes, en formulant un schéma de filtrage des coefficients de sous-bandes pour exploiter efficacement les relations entre coefficients. Nous rendons ensuite cette représentation générable par un modèle de diffusion en concevant un schéma de regroupement des coefficients de sous-bandes pour organiser la représentation dans une grille à basse résolution. De plus, nous dérivons une stratégie d'entraînement adaptative des sous-bandes pour entraîner notre modèle à apprendre efficacement à générer des coefficients de wavelets grossiers et détaillés. Enfin, nous étendons notre cadre pour qu'il puisse être contrôlé par des conditions d'entrée supplémentaires, lui permettant de générer des formes à partir de diverses modalités, par exemple des images mono/multi-vues, des nuages de points et des voxels à basse résolution. Dans notre ensemble étendu d'expériences, nous démontrons diverses applications, telles que la génération inconditionnelle, la complétion de formes et la génération conditionnelle sur une large gamme de modalités. Notre approche non seulement surpasse l'état de l'art en fournissant des résultats de haute qualité, mais génère également des formes de manière efficace en quelques secondes, atteignant souvent cet objectif en seulement 2 secondes pour la plupart des conditions.
Dans cette étude, nous présentons Orion-14B, une collection de grands modèles de langage multilingues comptant 14 milliards de paramètres. Nous utilisons une approche de planification des données pour entraîner un modèle de base sur un corpus diversifié de 2,5 billions de tokens, provenant de textes en anglais, chinois, japonais, coréen et d'autres langues. De plus, nous avons affiné une série de modèles adaptés à des applications conversationnelles et à d'autres cas d'utilisation spécifiques. Nos résultats d'évaluation montrent qu'Orion-14B atteint des performances de pointe sur un large éventail de tâches. Nous rendons la famille de modèles Orion-14B et son code associé accessibles au public via https://github.com/OrionStarAI/Orion, dans le but d'inspirer de futures recherches et applications pratiques dans le domaine.
Les récents progrès des modèles de langage (LM) ont démontré des performances impressionnantes en conversion vocale (VC) zero-shot. Cependant, les modèles de VC basés sur les LM existants appliquent généralement une conversion hors ligne des sémantiques sources aux caractéristiques acoustiques, nécessitant la totalité du discours source et limitant ainsi leur déploiement dans des applications en temps réel. Dans cet article, nous présentons StreamVoice, un nouveau modèle de streaming basé sur les LM pour la VC zero-shot, facilitant la conversion en temps réel à partir de prompts de locuteurs arbitraires et de discours source. Plus précisément, pour permettre une capacité de streaming, StreamVoice utilise un LM entièrement causal avec une prédiction acoustique indépendante du temps, tout en traitant alternativement les caractéristiques sémantiques et acoustiques à chaque étape de l'autorégression, ce qui élimine la dépendance à l'égard du discours source complet. Pour remédier à la dégradation potentielle des performances due au contexte incomplet dans le traitement en streaming, nous renforçons la conscience contextuelle du LM grâce à deux stratégies : 1) une prévision contextuelle guidée par un enseignant, utilisant un modèle enseignant pour résumer le contexte sémantique présent et futur pendant l'entraînement afin de guider la prévision du modèle pour le contexte manquant ; 2) une stratégie de masquage sémantique, favorisant la prédiction acoustique à partir des entrées sémantiques et acoustiques précédentes corrompues, améliorant ainsi la capacité d'apprentissage contextuel. Il est à noter que StreamVoice est le premier modèle de streaming zero-shot VC basé sur les LM sans aucune anticipation future. Les résultats expérimentaux démontrent la capacité de conversion en streaming de StreamVoice tout en maintenant des performances zero-shot comparables à celles des systèmes de VC non-streaming.
Des progrès remarquables ont été réalisés ces dernières années dans les domaines de la vision, du langage et de la robotique. Nous disposons désormais de modèles de vision capables de reconnaître des objets à partir de requêtes linguistiques, de systèmes de navigation pouvant contrôler efficacement des systèmes mobiles, et de modèles de préhension capables de manipuler une large gamme d'objets. Malgré ces avancées, les applications robotiques à usage général restent en retard, bien qu'elles reposent sur ces capacités fondamentales de reconnaissance, de navigation et de préhension. Dans cet article, nous adoptons une approche systémique pour développer un nouveau cadre robotique basé sur les connaissances ouvertes, appelé OK-Robot. En combinant des modèles vision-langage (VLMs) pour la détection d'objets, des primitives de navigation pour le déplacement et des primitives de préhension pour la manipulation d'objets, OK-Robot propose une solution intégrée pour les opérations de prise et dépose sans nécessiter d'apprentissage. Pour évaluer ses performances, nous avons testé OK-Robot dans 10 environnements domestiques réels. Les résultats montrent qu'OK-Robot atteint un taux de réussite de 58,5 % dans les tâches ouvertes de prise et dépose, établissant un nouvel état de l'art en manipulation mobile à vocabulaire ouvert (OVMM) avec une performance presque 1,8 fois supérieure aux travaux précédents. Dans des environnements plus propres et moins encombrés, la performance d'OK-Robot augmente à 82 %. Cependant, l'enseignement le plus important tiré d'OK-Robot est le rôle crucial des détails subtils lors de la combinaison de systèmes de connaissances ouvertes comme les VLMs avec des modules robotiques. Les vidéos de nos expériences sont disponibles sur notre site web : https://ok-robot.github.io
Les récentes avancées dans la génération d'avatars 3D ont suscité une attention considérable. Ces percées visent à produire des avatars animables plus réalistes, réduisant ainsi l'écart entre les expériences virtuelles et réelles. La plupart des travaux existants utilisent la perte de Score Distillation Sampling (SDS), combinée à un rendu différenciable et à une condition textuelle, pour guider un modèle de diffusion dans la génération d'avatars 3D. Cependant, la SDS génère souvent des résultats trop lissés avec peu de détails faciaux, manquant ainsi de diversité par rapport à l'échantillonnage ancestral. D'autre part, d'autres travaux génèrent des avatars 3D à partir d'une seule image, où les défis liés aux effets d'éclairage indésirables, aux perspectives de vue et à la qualité inférieure de l'image rendent difficile la reconstruction fiable des maillages 3D du visage avec des textures complètes alignées. Dans cet article, nous proposons une nouvelle approche de génération d'avatars 3D, appelée UltrAvatar, offrant une fidélité accrue de la géométrie et une qualité supérieure des textures de rendu basé sur la physique (PBR) sans éclairage indésirable. Pour ce faire, l'approche proposée présente un modèle d'extraction de couleur diffuse et un modèle de diffusion de textures guidé par l'authenticité. Le premier élimine les effets d'éclairage indésirables pour révéler les vraies couleurs diffuses, permettant ainsi aux avatars générés d'être rendus sous diverses conditions d'éclairage. Le second suit deux guidages basés sur le gradient pour générer des textures PBR afin de rendre des caractéristiques et des détails d'identité faciale diversifiés, mieux alignés avec la géométrie du maillage 3D. Nous démontrons l'efficacité et la robustesse de la méthode proposée, surpassant largement les méthodes de pointe dans les expériences.
Dans cet article, nous présentons Human-LRM, un modèle de reconstruction à grande échelle (Large Reconstruction Model) à une seule étape et à propagation directe, conçu pour prédire les champs de radiance neuronaux (Neural Radiance Fields, NeRF) humains à partir d'une seule image. Notre approche démontre une adaptabilité remarquable lors de l'entraînement en utilisant des ensembles de données étendus contenant des scans 3D et des captures multi-vues. De plus, pour améliorer l'applicabilité du modèle dans des scénarios en conditions réelles, notamment en présence d'occlusions, nous proposons une nouvelle stratégie qui distille la reconstruction multi-vues en une vue unique via un modèle de diffusion conditionnel à triplan. Cette extension générative aborde les variations inhérentes aux formes du corps humain lorsqu'elles sont observées sous un seul angle, et permet de reconstruire le corps humain entier à partir d'une image occluse. À travers des expériences approfondies, nous montrons que Human-LRM surpasse de manière significative les méthodes précédentes sur plusieurs benchmarks.
La simulation précise de la dynamique des objets du monde réel est essentielle pour diverses applications telles que la robotique, l'ingénierie, les graphiques et la conception. Pour mieux capturer des dynamiques réelles complexes telles que le contact et la friction, les simulateurs appris basés sur des réseaux de graphes ont récemment montré un grand potentiel. Cependant, l'application de ces simulateurs appris à des scènes réelles présente deux défis majeurs : premièrement, la mise à l'échelle des simulateurs appris pour gérer la complexité des scènes du monde réel, qui peuvent impliquer des centaines d'objets chacun avec des formes 3D complexes, et deuxièmement, la gestion des entrées provenant de la perception plutôt que des informations d'état 3D. Nous présentons ici une méthode qui réduit considérablement la mémoire nécessaire pour exécuter des simulateurs appris basés sur des graphes. Sur la base de ce modèle de simulation économe en mémoire, nous proposons ensuite une interface perceptuelle sous la forme de NeRFs modifiables, capables de convertir des scènes du monde réel en une représentation structurée pouvant être traitée par un simulateur de réseau de graphes. Nous montrons que notre méthode utilise nettement moins de mémoire que les simulateurs basés sur des graphes précédents tout en conservant leur précision, et que les simulateurs appris dans des environnements synthétiques peuvent être appliqués à des scènes du monde réel capturées sous plusieurs angles de caméra. Cela ouvre la voie à l'extension de l'application des simulateurs appris à des contextes où seule l'information perceptuelle est disponible au moment de l'inférence.
La réalité virtuelle (VR) promet des interactions sociales qui peuvent sembler plus immersives que d'autres médias. La clé de cela réside dans la capacité à animer avec précision un avatar photoréaliste à son image tout en portant un casque VR. Bien qu'un enregistrement de haute qualité d'avatars spécifiques à une personne à partir d'images de caméra montée sur casque (HMC) soit possible dans un contexte hors ligne, les performances des modèles génériques en temps réel sont considérablement dégradées. L'enregistrement en ligne est également difficile en raison des angles de vue obliques de la caméra et des différences de modalité. Dans ce travail, nous montrons d'abord que l'écart de domaine entre l'avatar et les images de la caméra du casque est l'une des principales sources de difficulté, où une architecture basée sur les transformateurs atteint une grande précision sur des données cohérentes en termes de domaine, mais se dégrade lorsque l'écart de domaine est réintroduit. En nous appuyant sur cette découverte, nous développons une conception de système qui découple le problème en deux parties : 1) un module de raffinement itératif qui prend des entrées dans le domaine, et 2) un module générique de transfert de style image-à-image guidé par l'avatar, conditionné par l'estimation actuelle de l'expression et de la pose de la tête. Ces deux modules se renforcent mutuellement, car le transfert de style d'image devient plus facile lorsque des exemples proches de la vérité terrain sont présentés, et une meilleure suppression de l'écart de domaine aide à l'enregistrement. Notre système produit des résultats de haute qualité de manière efficace, éliminant le besoin d'un enregistrement hors ligne coûteux pour générer des étiquettes personnalisées. Nous validons la précision et l'efficacité de notre approche grâce à des expériences approfondies sur un casque grand public, démontrant des améliorations significatives par rapport aux méthodes de régression directe ainsi qu'à l'enregistrement hors ligne.