Articles de recherche en IA sélectionnés quotidiennement avec traductions
Ce rapport présente une nouvelle famille de modèles multimodaux, Gemini, qui démontrent des capacités remarquables dans la compréhension d'images, d'audio, de vidéos et de texte. La famille Gemini se compose des tailles Ultra, Pro et Nano, adaptées à des applications allant des tâches de raisonnement complexe aux cas d'utilisation contraints par la mémoire sur appareil. L'évaluation sur un large éventail de benchmarks montre que notre modèle Gemini Ultra, le plus performant, repousse l'état de l'art dans 30 des 32 benchmarks étudiés, devenant notamment le premier modèle à atteindre des performances équivalentes à celles d'un expert humain sur le benchmark bien étudié MMLU, et améliorant l'état de l'art dans chacun des 20 benchmarks multimodaux examinés. Nous pensons que les nouvelles capacités des modèles Gemini en raisonnement intermodal et en compréhension du langage permettront une grande variété de cas d'utilisation, et nous discutons de notre approche pour les déployer de manière responsable auprès des utilisateurs.
Nous présentons VecFusion, une nouvelle architecture neuronale capable de générer des polices vectorielles avec des structures topologiques variées et des positions de points de contrôle précises. Notre approche repose sur un modèle de diffusion en cascade, composé d'un modèle de diffusion raster suivi d'un modèle de diffusion vectorielle. Le modèle raster génère des polices rasterisées en basse résolution accompagnées d'informations auxiliaires sur les points de contrôle, capturant ainsi le style global et la forme de la police, tandis que le modèle vectoriel synthétise des polices vectorielles conditionnées par les polices raster en basse résolution issues de la première étape. Pour synthétiser des courbes longues et complexes, notre modèle de diffusion vectorielle utilise une architecture de type transformer et une nouvelle représentation vectorielle qui permet de modéliser une géométrie vectorielle diversifiée et de prédire avec précision les points de contrôle. Nos expériences montrent que, contrairement aux modèles génératifs précédents pour les graphiques vectoriels, notre nouveau modèle de diffusion vectorielle en cascade produit des polices vectorielles de meilleure qualité, avec des structures complexes et des styles variés.
Les modèles de diffusion d'images ont été utilisés dans diverses tâches, telles que la génération d'images à partir de texte et la synthèse d'images contrôlable. Des recherches récentes ont introduit des méthodes de réglage qui apportent des ajustements subtils aux modèles originaux, obtenant des résultats prometteurs dans des adaptations spécifiques des modèles génératifs de diffusion de base. Plutôt que de modifier l'architecture principale du modèle de diffusion, nous explorons le rôle des connexions résiduelles (skip connections) dans l'U-Net et révélons que les caractéristiques hiérarchiques agrégeant des informations à longue distance entre l'encodeur et le décodeur ont un impact significatif sur le contenu et la qualité de la génération d'images. Sur la base de cette observation, nous proposons un cadre de réglage génératif efficace, baptisé SCEdit, qui intègre et modifie les connexions résiduelles à l'aide d'un module de réglage léger nommé SC-Tuner. De plus, le cadre proposé permet une extension directe à la synthèse d'images contrôlable en injectant différentes conditions avec le Controllable SC-Tuner, simplifiant et unifiant la conception du réseau pour des entrées multi-conditions. Notre SCEdit réduit considérablement les paramètres d'entraînement, l'utilisation de la mémoire et les coûts de calcul grâce à ses tuners légers, avec une propagation rétroactive ne passant que par les blocs du décodeur. Des expériences approfondies menées sur des tâches de génération d'images à partir de texte et de synthèse d'images contrôlable démontrent la supériorité de notre méthode en termes d'efficacité et de performance. Page du projet : https://scedit.github.io/
Les grands modèles de langage (LLMs) ont démontré une remarquable maîtrise des capacités de raisonnement et de génération de niveau humain, ce qui encourage des recherches approfondies sur leur application dans la résolution de problèmes mathématiques. Cependant, les travaux actuels se sont largement concentrés sur des problèmes mathématiques basés sur le texte, avec une investigation limitée des problèmes impliquant des informations géométriques. Pour combler cette lacune, nous visons à permettre aux LLMs de résoudre des problèmes géométriques en comprenant les entrées d'images. Nous analysons d'abord les limites des modèles de langage multimodaux actuels (MLLMs) dans ce domaine : ils peinent à comprendre avec précision les éléments géométriques de base et leurs relations. Pour surmonter ces défis, nous tirons parti des caractéristiques uniques des problèmes géométriques (telles que la forme logique géométrique unique et l'évolutivité géométrique) ainsi que de la capacité des LLMs textuels pour construire un ensemble de données géométriques multimodales enrichi basé sur des données existantes. L'ensemble de données augmenté, Geo170K, contient plus de 170 000 paires image-légende et question-réponse géométriques. En utilisant notre ensemble de données Geo170K construit, nous développons G-LLaVA, qui démontre une performance exceptionnelle dans la résolution de problèmes géométriques, surpassant significativement GPT-4-V sur le benchmark MathVista avec seulement 7 milliards de paramètres.
Les modèles récents de génération d'images à partir de texte (Text-to-Image, T2I), tels que Stable Diffusion et Imagen, ont réalisé des progrès significatifs dans la création d'images haute résolution basées sur des descriptions textuelles. Cependant, de nombreuses images générées souffrent encore de problèmes tels que des artefacts/implausibilités, un désalignement avec les descriptions textuelles et une faible qualité esthétique. Inspirés par le succès de l'apprentissage par renforcement avec retour humain (Reinforcement Learning with Human Feedback, RLHF) pour les grands modèles de langage, des travaux antérieurs ont collecté des scores fournis par des humains comme retour sur les images générées et ont entraîné un modèle de récompense pour améliorer la génération T2I. Dans cet article, nous enrichissons le signal de retour en (i) marquant les régions de l'image qui sont implausibles ou désalignées par rapport au texte, et (ii) en annotant les mots de l'invite textuelle qui sont mal représentés ou absents sur l'image. Nous collectons un tel retour humain détaillé sur 18 000 images générées et entraînons un transformateur multimodal pour prédire automatiquement ce retour détaillé. Nous montrons que le retour humain détaillé prédit peut être exploité pour améliorer la génération d'images, par exemple en sélectionnant des données d'entraînement de haute qualité pour affiner et améliorer les modèles génératifs, ou en créant des masques avec des cartes thermiques prédites pour corriger les régions problématiques. Notamment, les améliorations se généralisent à des modèles (Muse) au-delà de ceux utilisés pour générer les images sur lesquelles les données de retour humain ont été collectées (variantes de Stable Diffusion).
Le *Gaussian splatting* s’est imposé comme une représentation 3D puissante, combinant les avantages des représentations 3D explicites (maillages) et implicites (NeRF). Dans cet article, nous cherchons à exploiter le *Gaussian splatting* pour générer des avatars animables réalistes à partir de descriptions textuelles, en surmontant les limitations (par exemple, en termes de flexibilité et d’efficacité) imposées par les représentations basées sur des maillages ou des NeRF. Cependant, une application naïve du *Gaussian splatting* ne permet pas de générer des avatars animables de haute qualité et souffre d’instabilité lors de l’apprentissage ; elle ne parvient pas non plus à capturer les géométries fines des avatars et conduit souvent à des parties du corps dégénérées. Pour résoudre ces problèmes, nous proposons d’abord une représentation 3D de Gaussiennes basée sur des primitives, où les Gaussiennes sont définies à l’intérieur de primitives pilotées par la pose pour faciliter l’animation. Ensuite, pour stabiliser et amortir l’apprentissage de millions de Gaussiennes, nous proposons d’utiliser des champs implicites neuronaux pour prédire les attributs des Gaussiennes (par exemple, les couleurs). Enfin, pour capturer les géométries fines des avatars et extraire des maillages détaillés, nous proposons une nouvelle approche d’apprentissage de maillage implicite basée sur les SDF (*Signed Distance Fields*) pour les Gaussiennes 3D, qui régularise les géométries sous-jacentes et extrait des maillages texturés hautement détaillés. Notre méthode proposée, GAvatar, permet la génération à grande échelle d’avatars animables diversifiés en utilisant uniquement des invites textuelles. GAvatar surpasse significativement les méthodes existantes en termes de qualité d’apparence et de géométrie, et atteint un rendu extrêmement rapide (100 ips) à une résolution de 1K.
Récemment, la compréhension 3D est devenue populaire pour faciliter la prise de décision autonome par des agents. Cependant, les ensembles de données et méthodes 3D existants sont souvent limités à des tâches spécifiques. D’un autre côté, les progrès récents dans les modèles de langage de grande taille (LLMs) et les modèles de langage multimodaux (MLMs) ont démontré des performances exceptionnelles dans des tâches générales de langage et d’imagerie. Il est donc intéressant d’exploiter le potentiel des MLMs pour en faire des généralistes 3D capables de traiter un éventail plus large de tâches. Cependant, les recherches actuelles sur les MLMs se sont moins concentrées sur les tâches 3D en raison d’un manque de jeux de données à grande échelle pour l’exécution d’instructions en 3D. Dans ce travail, nous introduisons un ensemble de données complet pour l’exécution d’instructions en 3D, appelé M3DBench, qui possède les caractéristiques suivantes : 1) Il prend en charge des instructions multimodales générales combinant texte, images, objets 3D et autres invites visuelles. 2) Il unifie diverses tâches 3D aux niveaux régional et scénique, couvrant une variété de compétences fondamentales dans des environnements 3D réels. 3) Il s’agit d’un jeu de données à grande échelle pour l’exécution d’instructions en 3D, comprenant plus de 320 000 paires instruction-réponse. De plus, nous établissons un nouveau benchmark pour évaluer la performance des grands modèles dans la compréhension d’invites multimodales en 3D. Des expériences approfondies démontrent l’efficacité de notre jeu de données et de notre base de référence, soutenant des tâches générales centrées sur la 3D, ce qui peut inspirer des recherches futures.
L'engouement croissant pour les modèles de langage multi-modaux de grande taille (MLLMs), tels que GPT-4V(ision) d'OpenAI, marque une tendance significative tant dans le milieu académique que dans l'industrie. Ces modèles dotent les grands modèles de langage (LLMs) de puissantes capacités de compréhension visuelle, leur permettant de s'attaquer à diverses tâches multi-modales. Très récemment, Google a dévoilé Gemini, son MLLM le plus récent et le plus performant, conçu dès le départ pour la multi-modalité. Compte tenu de ses capacités de raisonnement supérieures, Gemini peut-il défier la position dominante de GPT-4V dans l'apprentissage multi-modal ? Dans cet article, nous présentons une exploration préliminaire de la compétence de compréhension visuelle de Gemini Pro, qui couvre de manière exhaustive quatre domaines : la perception fondamentale, la cognition avancée, les tâches visuelles complexes et diverses capacités expertes. Nous comparons Gemini Pro avec le GPT-4V, l'état de l'art, pour évaluer ses limites supérieures, ainsi qu'avec le dernier MLLM open-source, Sphinx, ce qui révèle l'écart entre les efforts manuels et les systèmes en boîte noire. Les échantillons qualitatifs indiquent que, bien que GPT-4V et Gemini présentent des styles et des préférences de réponse différents, ils peuvent montrer des capacités de raisonnement visuel comparables, tandis que Sphinx reste à la traîne en ce qui concerne la généralisation des domaines. Plus précisément, GPT-4V a tendance à élaborer des explications détaillées et des étapes intermédiaires, tandis que Gemini préfère fournir une réponse directe et concise. L'évaluation quantitative sur le benchmark populaire MME démontre également le potentiel de Gemini à devenir un sérieux challenger pour GPT-4V. Notre investigation précoce de Gemini met également en lumière certains problèmes communs aux MLLMs, indiquant qu'il reste encore un chemin considérable à parcourir pour atteindre l'intelligence artificielle générale. Notre projet de suivi des progrès des MLLM est disponible à l'adresse suivante : https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
La narration visuelle utilise souvent des images avec des rapports d'aspect non conventionnels, tels que les peintures en rouleau, les bandes dessinées et les panoramas, pour créer un récit expressif et captivant. Bien que l'IA générative ait connu un grand succès et démontré son potentiel pour transformer l'industrie créative, il reste un défi de générer un contenu cohérent et engageant avec des dimensions arbitraires et un style, un concept et une disposition contrôlables, éléments essentiels pour la narration visuelle. Pour surmonter les limites des méthodes précédentes, notamment la répétition du contenu, l'incohérence stylistique et le manque de contrôle, nous proposons MagicScroll, un cadre de génération d'images basé sur une diffusion progressive multicouche avec un nouveau processus de réduction du bruit sémantique. Ce modèle permet un contrôle précis de l'image générée au niveau des objets, des scènes et des arrière-plans, grâce à des conditions textuelles, visuelles et de mise en page. Nous établissons également le premier benchmark pour la génération d'images avec des rapports d'aspect non conventionnels dans le cadre de la narration visuelle, incluant des médiums comme les peintures, les bandes dessinées et les panoramas cinématographiques, avec des métriques personnalisées pour une évaluation systématique. Grâce à des études comparatives et d'ablation, MagicScroll démontre des résultats prometteurs en termes d'alignement avec le texte narratif, d'amélioration de la cohérence visuelle et d'engagement du public. Nous prévoyons de publier le code et le benchmark dans l'espoir d'une meilleure collaboration entre les chercheurs en IA et les praticiens créatifs impliqués dans la narration visuelle.
Les modèles de langage (LMs) rapportent couramment la perplexité sur des données monolithiques retenues lors de l'entraînement. Implicitement ou explicitement, ces données sont composées de domaines – des distributions variées de langage. Plutôt que de supposer que la perplexité sur une distribution s'étend à d'autres, l'Analyse de Perplexité pour l'Évaluation des Modèles de Langage (Paloma) mesure l'ajustement des LMs à 585 domaines de texte, allant de nytimes.com à r/depression sur Reddit. Nous invitons les soumissions à notre benchmark et organisons les résultats par comparabilité, basée sur le respect de directives telles que l'élimination de la contamination du benchmark lors du prétraitement. Les soumissions peuvent également enregistrer le nombre de paramètres et de tokens d'entraînement pour permettre des comparaisons d'efficacité Pareto en fonction de ces mesures de coût. Nous peuplons notre benchmark avec les résultats de 6 modèles de référence prétraités sur des corpus populaires. Dans des études de cas, nous démontrons des analyses possibles avec Paloma, comme le constat que le prétraitement sans données au-delà de Common Crawl conduit à un ajustement incohérent à de nombreux domaines.
Les approches récentes de modification d'images basées sur la diffusion ont démontré des capacités impressionnantes pour éditer des images à compositions simples. Cependant, l'édition localisée dans des scénarios complexes n'a pas été suffisamment étudiée dans la littérature, malgré une demande croissante dans le monde réel. Les méthodes existantes de réparation basées sur des masques ne parviennent pas à préserver la structure sous-jacente dans la région éditée. Par ailleurs, les méthodes sans masque basées sur l'attention présentent souvent des fuites d'édition et des désalignements dans des compositions plus complexes. Dans ce travail, nous développons MAG-Edit, une méthode d'optimisation au stade de l'inférence ne nécessitant pas d'entraînement, qui permet l'édition localisée d'images dans des scénarios complexes. En particulier, MAG-Edit optimise la caractéristique latente du bruit dans les modèles de diffusion en maximisant deux contraintes d'attention croisée basées sur un masque pour le token d'édition, ce qui améliore progressivement l'alignement local avec l'invite souhaitée. Des expériences quantitatives et qualitatives approfondies démontrent l'efficacité de notre méthode pour atteindre à la fois l'alignement textuel et la préservation de la structure lors de l'édition localisée dans des scénarios complexes.
Cet article explore la distillation des préférences pour les grands modèles de vision et de langage (LVLMs), afin d'améliorer leur capacité à générer des réponses utiles et fidèles ancrées dans le contexte visuel. Nous construisons d'abord un ensemble de données de feedback vision-langage (VLFeedback) en utilisant l'annotation par IA. Plus précisément, les réponses sont générées par des modèles échantillonnés parmi 12 LVLMs, conditionnées par des instructions multimodales provenant de divers ensembles de données. Nous utilisons GPT-4V pour évaluer les sorties générées en termes d'utilité, de fidélité visuelle et de considérations éthiques. Ensuite, la supervision des préférences est distillée dans Qwen-VL-Chat grâce à la méthode d'optimisation directe des préférences (DPO). Le modèle résultant, Silkie, obtient une amélioration relative de 6,9 % et 9,5 % sur le benchmark MME concernant respectivement les capacités de perception et de cognition. Silkie démontre également une réduction des hallucinations en établissant un nouveau score de pointe de 3,02 sur le benchmark MMHal-Bench. Une analyse approfondie montre que la DPO avec notre ensemble de données VLFeedback améliore principalement les capacités de perception fine et de cognition complexe des LVLMs, conduisant à des améliorations plus complètes par rapport aux ensembles de données de préférences annotées par des humains.
Les modèles de diffusion ont réalisé des avancées significatives dans la génération d'images de haute qualité, mais leur application à la génération de vidéos reste difficile en raison de la complexité du mouvement temporel. L'édition de vidéos en zero-shot propose une solution en utilisant des modèles de diffusion d'images pré-entraînés pour transformer des vidéos sources en de nouvelles vidéos. Cependant, les méthodes existantes peinent à maintenir une cohérence temporelle stricte et une consommation de mémoire efficace. Dans ce travail, nous proposons une nouvelle approche pour améliorer la cohérence temporelle dans les vidéos générées en fusionnant les tokens d'auto-attention entre les images. En alignant et en compressant les tokens redondants temporellement entre les images, notre méthode améliore la cohérence temporelle et réduit la consommation de mémoire dans les calculs d'auto-attention. La stratégie de fusion associe et aligne les tokens en fonction de la correspondance temporelle entre les images, facilitant ainsi une cohérence temporelle naturelle dans les images vidéo générées. Pour gérer la complexité du traitement vidéo, nous divisons les vidéos en segments et développons une fusion locale des tokens intra-segment et une fusion globale des tokens inter-segments, assurant à la fois la continuité à court terme de la vidéo et la cohérence du contenu à long terme. Notre approche d'édition vidéo étend de manière transparente les avancées de l'édition d'images à l'édition vidéo, produisant des résultats favorables en termes de cohérence temporelle par rapport aux méthodes de pointe.
Le décodage spéculatif améliore l'efficacité des grands modèles de langage (LLM) en exploitant un modèle de brouillon pour ébaucher des propositions qu'un modèle cible plus grand examine. Cependant, l'ébauche dans le décodage spéculatif implique une génération autoregressive lente et la production de tokens d'importance variable avec le même temps alloué. Ces deux inefficacités entraînent des performances sous-optimales. Pour résoudre ce problème, nous introduisons l'Ébauche Spéculative en Cascade (CS. Drafting), une nouvelle approche qui utilise deux types de cascades. La Cascade Verticale élimine la génération autoregressive des modèles neuronaux. La Cascade Horizontale permet une allocation efficace du temps dans l'ébauche, son optimalité étant soutenue par notre analyse théorique. En combinant les deux cascades, notre algorithme CS. Drafting a permis d'atteindre jusqu'à 72 % d'accélération supplémentaire par rapport au décodage spéculatif dans nos expériences, tout en conservant la même distribution de sortie.
Les grands modèles de langage (LLMs) sont de plus en plus utilisés pour des tâches de planification complexes en plusieurs étapes, où l'étape de récupération d'outils (TR) est cruciale pour obtenir des résultats réussis. Deux approches prédominantes pour la TR sont la récupération en une seule étape, qui utilise la requête complète, et la récupération séquentielle basée sur la décomposition de tâches (TD), où une requête complète est segmentée en sous-tâches atomiques discrètes. Alors que la récupération en une seule étape manque de flexibilité pour gérer la "dépendance inter-outils", l'approche TD nécessite de maintenir l'"alignement atomique sous-tâche-outil", car la boîte à outils peut évoluer dynamiquement. Pour répondre à ces limitations, nous introduisons le cadre Progressive Tool retrieval to Improve Planning (ProTIP). ProTIP est un cadre léger basé sur l'apprentissage contrastif qui effectue implicitement la TD sans nécessiter d'étiquettes explicites de sous-tâches, tout en maintenant l'atomicité sous-tâche-outil. Sur le jeu de données ToolBench, ProTIP surpasse l'approche basée sur la décomposition de tâches de ChatGPT avec une marge remarquable, atteignant une amélioration de 24 % en Recall@K=10 pour la TR et une amélioration de 41 % en précision des outils pour la génération de plans.
Le succès des grands modèles de langage a redéfini les paradigmes d'évaluation en traitement automatique du langage naturel (TALN). L'intérêt de la communauté s'est progressivement orienté vers la comparaison des modèles de TALN sur de nombreuses tâches, domaines et jeux de données, souvent à une échelle extrême. Cela impose de nouveaux défis techniques : les efforts de construction des jeux de données et des modèles ont été fragmentés, et leurs formats et interfaces sont incompatibles. Par conséquent, il est souvent nécessaire de consacrer des efforts considérables de (ré)implémentation pour réaliser des comparaisons équitables et contrôlées à grande échelle. Catwalk vise à résoudre ces problèmes. Catwalk propose une interface unifiée pour un large éventail de jeux de données et de modèles de TALN existants, allant de l'apprentissage supervisé canonique et du réglage fin, à des paradigmes plus modernes comme l'apprentissage en contexte. Ses abstractions soigneusement conçues permettent des extensions faciles à de nombreux autres cas. Catwalk réduit considérablement les obstacles à la réalisation d'expériences contrôlées à grande échelle. Par exemple, nous avons effectué le réglage fin et l'évaluation de plus de 64 modèles sur plus de 86 jeux de données avec une seule commande, sans écrire de code. Maintenu par l'équipe AllenNLP de l'Allen Institute for Artificial Intelligence (AI2), Catwalk est un projet open-source en cours : https://github.com/allenai/catwalk.
Les méthodes de distillation des connaissances ont récemment démontré leur potentiel pour accélérer la synthèse de modèles de diffusion à grande échelle en ne nécessitant qu'un nombre réduit d'étapes d'inférence. Bien que plusieurs méthodes de distillation puissantes aient été proposées récemment, la qualité globale des échantillons produits par les modèles étudiants reste généralement inférieure à celle des modèles enseignants, ce qui limite leur utilisation pratique. Dans ce travail, nous étudions la qualité relative des échantillons générés par un modèle de diffusion enseignant de texte-à-image et sa version étudiante distillée. Comme principal résultat empirique, nous découvrons qu'une portion notable des échantillons étudiants présente une fidélité supérieure à celle des échantillons enseignants, malgré la nature « approximative » du modèle étudiant. Sur la base de cette observation, nous proposons une collaboration adaptative entre les modèles de diffusion enseignant et étudiant pour une synthèse efficace de texte-à-image. Concrètement, le modèle distillé produit l'échantillon initial, puis un oracle décide si des améliorations supplémentaires sont nécessaires en utilisant le modèle enseignant plus lent. Des expériences approfondies montrent que la pipeline conçue surpasse les alternatives de pointe en synthèse de texte-à-image pour divers budgets d'inférence en termes de préférence humaine. De plus, l'approche proposée peut être naturellement utilisée dans des applications populaires telles que l'édition d'images guidée par texte et la génération contrôlée.
L'échantillonnage guidé sans apprentissage dans les modèles de diffusion exploite des réseaux pré-entraînés prêts à l'emploi, tels qu'un modèle d'évaluation esthétique, pour orienter le processus de génération. Les algorithmes actuels d'échantillonnage guidé sans apprentissage obtiennent la fonction d'énergie de guidage basée sur une estimation en une étape de l'image propre. Cependant, puisque les réseaux pré-entraînés prêts à l'emploi sont entraînés sur des images propres, la procédure d'estimation en une étape de l'image propre peut être imprécise, en particulier dans les premières étapes du processus de génération dans les modèles de diffusion. Cela entraîne un guidage inexact dans les premiers pas de temps. Pour surmonter ce problème, nous proposons le Symplectic Adjoint Guidance (SAG), qui calcule le gradient de guidage en deux étapes internes. Premièrement, SAG estime l'image propre via n appels de fonction, où n sert d'hyperparamètre flexible pouvant être ajusté pour répondre à des exigences spécifiques de qualité d'image. Deuxièmement, SAG utilise la méthode adjointe symplectique pour obtenir les gradients de manière précise et efficace en termes de besoins en mémoire. Des expériences approfondies démontrent que SAG génère des images de qualité supérieure par rapport aux méthodes de référence dans les tâches de génération guidée d'images et de vidéos.
Cet article présente un encodeur volumétrique 3D novateur conçu pour la génération de texte-à-3D. Pour augmenter les données d'entraînement du modèle de diffusion, un réseau léger est développé afin d'acquérir efficacement des volumes de caractéristiques à partir d'images multi-vues. Les volumes 3D sont ensuite entraînés sur un modèle de diffusion pour la génération de texte-à-3D en utilisant un réseau U-Net 3D. Cette recherche aborde également les défis liés aux légendes d'objets imprécises et aux volumes de caractéristiques de haute dimension. Le modèle proposé, entraîné sur le jeu de données public Objaverse, démontre des résultats prometteurs dans la production d'échantillons divers et reconnaissables à partir de prompts textuels. Notamment, il permet un contrôle plus fin des caractéristiques des parties d'objets grâce à des indices textuels, favorisant la créativité du modèle en combinant de manière fluide plusieurs concepts au sein d'un seul objet. Cette recherche contribue de manière significative aux progrès de la génération 3D en introduisant une méthodologie de représentation efficace, flexible et évolutive. Le code est disponible à l'adresse suivante : https://github.com/tzco/VolumeDiffusion.
Nous proposons une méthode pour la reconstruction dynamique de scènes en utilisant des Gaussiennes 3D déformables, spécifiquement adaptée aux vidéos monoculaires. En s'appuyant sur l'efficacité du lissage par Gaussiennes, notre approche étend cette représentation pour intégrer des éléments dynamiques via un ensemble déformable de Gaussiennes situées dans un espace canonique, ainsi qu'un champ de déformation dépendant du temps défini par un perceptron multicouche (MLP). De plus, en supposant que la plupart des scènes naturelles comportent de grandes régions statiques, nous permettons au MLP de concentrer sa capacité de représentation en incluant également un nuage de points Gaussien statique. Les nuages de points dynamiques et statiques concaténés forment l'entrée du rasteriseur de lissage par Gaussiennes, permettant un rendu en temps réel. Le pipeline différentiable est optimisé de bout en bout avec une fonction de perte de rendu auto-supervisée. Notre méthode obtient des résultats comparables aux méthodes de champs de radiance neuronaux dynamiques de pointe, tout en permettant une optimisation et un rendu beaucoup plus rapides. Site du projet : https://lynl7130.github.io/gaufre/index.html