Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de génération d'images à partir de texte à grande échelle, tels que Stable Diffusion, sont capables de produire des portraits photoréalistes de haute fidélité. Un domaine de recherche actif est consacré à la personnalisation de ces modèles, visant à synthétiser des sujets ou des styles spécifiques à l'aide d'ensembles d'images de référence fournis. Cependant, malgré les résultats plausibles obtenus par ces méthodes de personnalisation, les images générées manquent souvent de réalisme et ne sont pas encore au niveau requis pour une utilisation commerciale. Cela est particulièrement visible dans la génération de portraits, où tout artefact non naturel sur les visages humains est facilement détectable en raison de notre biais humain inhérent. Pour remédier à cela, nous présentons MagiCapture, une méthode de personnalisation permettant d'intégrer des concepts de sujet et de style pour générer des portraits haute résolution à partir de seulement quelques références de sujet et de style. Par exemple, à partir d'une poignée de selfies aléatoires, notre modèle affiné peut générer des portraits de haute qualité dans des styles spécifiques, tels que des photos d'identité ou de profil. Le principal défi de cette tâche réside dans l'absence de vérité terrain pour les concepts composés, ce qui entraîne une réduction de la qualité de la sortie finale et un décalage d'identité du sujet source. Pour résoudre ces problèmes, nous proposons une nouvelle fonction de perte de Recentrage de l'Attention, associée à des priors auxiliaires, qui facilitent tous deux un apprentissage robuste dans ce cadre d'apprentissage faiblement supervisé. Notre pipeline inclut également des étapes de post-traitement supplémentaires pour garantir la création de sorties hautement réalistes. MagiCapture surpasse les autres méthodes de référence dans les évaluations quantitatives et qualitatives et peut également être généralisé à d'autres objets non humains.
Nous explorons une nouvelle application des modèles de langage de grande taille à l'optimisation de code. Nous présentons un modèle transformeur de 7 milliards de paramètres, entraîné à partir de zéro pour optimiser l'assembleur LLVM en termes de taille de code. Le modèle prend en entrée un assembleur non optimisé et produit une liste d'options de compilation pour optimiser au mieux le programme. Pendant l'entraînement, nous demandons au modèle de prédire le nombre d'instructions avant et après optimisation, ainsi que le code optimisé lui-même. Ces tâches d'apprentissage auxiliaires améliorent significativement les performances d'optimisation du modèle et approfondissent sa compréhension. Nous évaluons notre approche sur un large ensemble de programmes de test. Notre méthode obtient une amélioration de 3,0 % dans la réduction du nombre d'instructions par rapport au compilateur, surpassant deux méthodes de référence de pointe qui nécessitent des milliers de compilations. De plus, le modèle démontre des capacités de raisonnement sur le code étonnamment solides, générant du code compilable 91 % du temps et reproduisant parfaitement la sortie du compilateur 70 % du temps.
Le problème de longue date de la synthèse de nouvelles vues trouve de nombreuses applications, notamment dans la diffusion sportive. La synthèse photoréaliste de nouvelles vues d'actions de football, en particulier, suscite un intérêt considérable dans l'industrie de la diffusion. Pourtant, seules quelques solutions industrielles ont été proposées, et encore moins atteignent une qualité proche de celle des diffusions pour les replays synthétiques. À l'exception de leur configuration de plusieurs caméras statiques autour du terrain de jeu, les meilleurs systèmes propriétaires ne divulguent quasiment aucune information sur leur fonctionnement interne. L'utilisation de plusieurs caméras statiques pour une telle tâche représente en effet un défi rarement abordé dans la littérature, en raison du manque de jeux de données publics : la reconstruction d'un environnement à grande échelle, principalement statique, avec des éléments petits et en mouvement rapide. Récemment, l'émergence des champs de radiance neuronaux a entraîné des progrès impressionnants dans de nombreuses applications de synthèse de nouvelles vues, exploitant les principes de l'apprentissage profond pour produire des résultats photoréalistes dans les contextes les plus difficiles. Dans ce travail, nous étudions la faisabilité de baser une solution à cette tâche sur des NeRFs dynamiques, c'est-à-dire des modèles neuronaux destinés à reconstruire du contenu dynamique général. Nous composons des environnements de football synthétiques et menons plusieurs expériences en les utilisant, identifiant les composants clés qui aident à reconstruire des scènes de football avec des NeRFs dynamiques. Nous montrons que, bien que cette approche ne puisse pas entièrement répondre aux exigences de qualité pour l'application cible, elle suggère des pistes prometteuses vers une solution automatisée et rentable. Nous rendons également notre jeu de données et notre code publics, dans le but d'encourager d'autres efforts de la communauté de recherche sur la tâche de synthèse de nouvelles vues pour des scènes de football dynamiques. Pour le code, les données et les résultats vidéo, veuillez consulter https://soccernerfs.isach.be.
L'amélioration de l'alignement des modèles de langage avec les préférences humaines reste un défi de recherche actif. Les approches précédentes ont principalement utilisé l'apprentissage par renforcement à partir de retours humains (RLHF) via des méthodes de RL en ligne telles que l'Optimisation de Politique Proximale (PPO). Récemment, des méthodes hors ligne comme le Calibrage de Vraisemblance de Séquence (SLiC) et l'Optimisation Directe des Préférences (DPO) ont émergé comme des alternatives attractives, offrant des améliorations en termes de stabilité et de scalabilité tout en maintenant des performances compétitives. SLiC affine sa fonction de perte en utilisant des paires de séquences échantillonnées à partir d'une politique fine-tunée supervisée (SFT), tandis que DPO optimise directement les modèles de langage sur la base de données de préférences, évitant ainsi le besoin d'un modèle de récompense séparé. Cependant, l'estimateur du maximum de vraisemblance (MLE) de la politique optimale cible nécessite des paires de préférences étiquetées échantillonnées à partir de cette politique. L'absence de modèle de récompense dans DPO limite sa capacité à échantillonner des paires de préférences à partir de la politique optimale, et SLiC est restreint à l'échantillonnage de paires de préférences uniquement à partir de la politique SFT. Pour pallier ces limitations, nous introduisons une nouvelle approche appelée Optimisation par Échantillonnage de Rejet Statistique (RSO) qui vise à obtenir des données de préférences à partir de la politique optimale cible en utilisant l'échantillonnage de rejet, permettant une estimation plus précise de la politique optimale. Nous proposons également un cadre unifié qui améliore les fonctions de perte utilisées dans SLiC et DPO du point de vue de la modélisation des préférences. À travers des expériences approfondies sur trois tâches diverses, nous démontrons que RSO surpasse systématiquement à la fois SLiC et DPO dans les évaluations effectuées par des modèles de langage à grande échelle (LLM) et des évaluateurs humains.
Les récents progrès dans les modèles de génération d'images à grande échelle à partir de texte ont permis des réalisations remarquables, trouvant diverses applications dans le domaine de l'art. Cependant, exprimer les caractéristiques uniques d'une œuvre d'art (par exemple, le coup de pinceau, la tonalité des couleurs ou la composition) uniquement avec des invites textuelles peut rencontrer des limitations en raison des contraintes inhérentes à la description verbale. Pour cela, nous introduisons DreamStyler, un nouveau cadre conçu pour la synthèse d'images artistiques, compétent à la fois dans la synthèse texte-image et le transfert de style. DreamStyler optimise un encodage textuel multi-étapes avec une invite textuelle contextuelle, aboutissant à une qualité d'image remarquable. De plus, avec des guides de contenu et de style, DreamStyler montre une flexibilité pour s'adapter à une gamme de références stylistiques. Les résultats expérimentaux démontrent sa performance supérieure dans plusieurs scénarios, suggérant son potentiel prometteur dans la création de produits artistiques.
Notre objectif est de créer un avatar facial 3D réaliste avec des cheveux et des accessoires en utilisant uniquement une description textuelle. Bien que ce défi ait suscité un intérêt considérable récemment, les méthodes existantes manquent soit de réalisme, produisent des formes irréalistes, ou ne permettent pas d'édition, comme des modifications de la coiffure. Nous soutenons que les méthodes actuelles sont limitées car elles emploient une approche de modélisation monolithique, utilisant une représentation unique pour la tête, le visage, les cheveux et les accessoires. Notre observation est que les cheveux et le visage, par exemple, ont des qualités structurelles très différentes qui bénéficient de représentations distinctes. En nous appuyant sur cette idée, nous générons des avatars avec un modèle compositionnel, dans lequel la tête, le visage et le haut du corps sont représentés par des maillages 3D traditionnels, et les cheveux, les vêtements et les accessoires par des champs de radiance neuronaux (NeRF). La représentation par maillage basée sur un modèle fournit une forte priorité géométrique pour la région du visage, améliorant le réalisme tout en permettant l'édition de l'apparence de la personne. En utilisant des NeRFs pour représenter les composants restants, notre méthode est capable de modéliser et de synthétiser des parties avec une géométrie et une apparence complexes, comme des cheveux bouclés et des écharpes duveteuses. Notre système novateur synthétise ces avatars compositionnels de haute qualité à partir de descriptions textuelles. Les résultats expérimentaux démontrent que notre méthode, Génération et Édition d'Avatars Compositionnels Guidée par Texte (TECA), produit des avatars plus réalistes que ceux des méthodes récentes tout en étant éditables grâce à leur nature compositionnelle. Par exemple, notre TECA permet le transfert fluide de caractéristiques compositionnelles comme les coiffures, les écharpes et autres accessoires entre avatars. Cette capacité soutient des applications telles que l'essayage virtuel.
Nous étudions l'inférence d'une représentation arborescente à partir d'une seule image pour l'ombrage des objets. Les travaux antérieurs utilisent généralement une représentation paramétrique ou mesurée pour modéliser l'ombrage, ce qui n'est ni interprétable ni facilement modifiable. Nous proposons d'utiliser la représentation par arbre d'ombrage, qui combine des nœuds d'ombrage de base et des méthodes de composition pour factoriser l'ombrage de la surface des objets. Cette représentation permet aux utilisateurs novices, peu familiers avec le processus physique d'ombrage, de modifier l'ombrage des objets de manière efficace et intuitive. Un défi majeur dans l'inférence de l'arbre d'ombrage est que le problème d'inférence implique à la fois la structure discrète de l'arbre et les paramètres continus des nœuds de l'arbre. Nous proposons une approche hybride pour résoudre ce problème. Nous introduisons un modèle d'inférence auto-régressif pour générer une estimation approximative de la structure de l'arbre et des paramètres des nœuds, puis nous affinons l'arbre d'ombrage inféré grâce à un algorithme d'optimisation. Nous présentons des expériences sur des images synthétiques, des réflectances capturées, des images réelles et des dessins vectoriels non réalistes, permettant des applications en aval telles que l'édition de matériaux, l'ombrage vectorisé et le rééclairage. Site web du projet : https://chen-geng.com/inv-shade-trees