Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de fondation, qui alimentent aujourd'hui la plupart des applications passionnantes en apprentissage profond, reposent presque universellement sur l'architecture Transformer et son module d'attention central. De nombreuses architectures à temps sous-quadratique, telles que l'attention linéaire, les convolutions à porte, les modèles récurrents et les modèles à espace d'état structuré (SSM), ont été développées pour remédier à l'inefficacité computationnelle des Transformers sur les longues séquences, mais elles n'ont pas égalé les performances de l'attention sur des modalités importantes comme le langage. Nous identifions qu'une faiblesse clé de ces modèles est leur incapacité à effectuer un raisonnement basé sur le contenu, et nous apportons plusieurs améliorations. Premièrement, simplement permettre aux paramètres du SSM d'être des fonctions de l'entrée résout leur faiblesse avec les modalités discrètes, permettant au modèle de propager ou d'oublier sélectivement l'information le long de la dimension de la longueur de la séquence en fonction du token actuel. Deuxièmement, bien que ce changement empêche l'utilisation de convolutions efficaces, nous concevons un algorithme parallèle optimisé pour le matériel en mode récurrent. Nous intégrons ces SSM sélectifs dans une architecture de réseau neuronal simplifiée de bout en bout sans attention ni même blocs MLP (Mamba). Mamba bénéficie d'une inférence rapide (un débit 5 fois supérieur à celui des Transformers) et d'une mise à l'échelle linéaire avec la longueur de la séquence, et ses performances s'améliorent sur des données réelles jusqu'à des séquences de longueur million. En tant que modèle de séquence général, Mamba atteint des performances de pointe sur plusieurs modalités telles que le langage, l'audio et la génomique. En modélisation du langage, notre modèle Mamba-3B surpasse les Transformers de même taille et égale les Transformers deux fois plus grands, à la fois en pré-entraînement et en évaluation en aval.
Nous présentons MoMask, un nouveau cadre de modélisation masquée pour la génération de mouvements humains 3D pilotée par texte. Dans MoMask, un schéma de quantification hiérarchique est utilisé pour représenter le mouvement humain sous forme de jetons de mouvement discrets multicouches avec des détails de haute fidélité. En partant de la couche de base, avec une séquence de jetons de mouvement obtenue par quantification vectorielle, les jetons résiduels d'ordres croissants sont dérivés et stockés aux couches suivantes de la hiérarchie. Cela est ensuite suivi par deux transformateurs bidirectionnels distincts. Pour les jetons de mouvement de la couche de base, un Transformeur Masqué est désigné pour prédire les jetons de mouvement masqués aléatoirement, conditionnés par l'entrée textuelle lors de la phase d'entraînement. Pendant la phase de génération (c'est-à-dire l'inférence), en partant d'une séquence vide, notre Transformeur Masqué remplit itérativement les jetons manquants ; par la suite, un Transformeur Résiduel apprend à prédire progressivement les jetons de la couche suivante en se basant sur les résultats de la couche actuelle. Des expériences approfondies démontrent que MoMask surpasse les méthodes de pointe dans la tâche de génération de mouvement à partir de texte, avec un FID de 0,045 (contre par exemple 0,141 pour T2M-GPT) sur le jeu de données HumanML3D, et 0,228 (contre 0,514) sur KIT-ML, respectivement. MoMask peut également être appliqué de manière transparente à des tâches connexes sans ajustement supplémentaire du modèle, comme l'inpainting temporel guidé par texte.
Nous présentons DREAM, un nouveau cadre d'entraînement représentant les modèles de Rectification de Diffusion et d'Estimation Adaptative, nécessitant des modifications de code minimales (seulement trois lignes) tout en améliorant significativement l'alignement entre l'entraînement et l'échantillonnage dans les modèles de diffusion. DREAM se compose de deux éléments : la rectification de diffusion, qui ajuste l'entraînement pour refléter le processus d'échantillonnage, et l'adaptation d'estimation, qui équilibre la perception par rapport à la distorsion. Lorsqu'il est appliqué à la super-résolution d'images (SR), DREAM navigue habilement le compromis entre la minimisation de la distorsion et la préservation d'une qualité d'image élevée. Les expériences démontrent la supériorité de DREAM par rapport aux méthodes standard de SR basées sur la diffusion, montrant une convergence d'entraînement 2 à 3 fois plus rapide et une réduction de 10 à 20 fois du nombre d'étapes d'échantillonnage nécessaires pour obtenir des résultats comparables ou supérieurs. Nous espérons que DREAM inspirera une reconsidération des paradigmes d'entraînement des modèles de diffusion.
Les modèles de langage multimodaux de grande taille (MLLMs) ont récemment démontré des capacités impressionnantes en compréhension, raisonnement et interaction multimodaux. Cependant, les MLLMs existants souffrent généralement de graves problèmes d'hallucination, générant des textes qui ne sont pas factuellement ancrés dans les images associées. Ce problème rend les MLLMs existants peu fiables et donc peu pratiques dans des applications réelles (en particulier à enjeux élevés). Pour relever ce défi, nous présentons RLHF-V, qui améliore la fiabilité des MLLMs grâce à un alignement comportemental basé sur des retours humains correctifs granulaires. Plus précisément, RLHF-V collecte les préférences humaines sous forme de corrections au niveau des segments pour les hallucinations, et effectue une optimisation dense des préférences directes sur ces retours humains. Des expériences approfondies sur cinq benchmarks, à la fois en évaluation automatique et humaine, montrent que RLHF-V permet des comportements MLLMs nettement plus fiables avec une efficacité prometteuse en termes de données et de calcul. Fait remarquable, en utilisant 1,4k échantillons de données annotées, RLHF-V réduit significativement le taux d'hallucination du MLLM de base de 34,8%, surpassant le LLaVA-RLHF concurrent entraîné sur 10k données annotées. Le modèle final atteint des performances de pointe en matière de fiabilité parmi les MLLMs open-source, et montre une meilleure robustesse que GPT-4V pour prévenir les hallucinations dues à une sur-généralisation. Nous mettons à disposition notre code, modèle et données à l'adresse https://github.com/RLHF-V/RLHF-V.
La synthèse de nouvelles vues à partir d'observations limitées reste une tâche importante et persistante. Cependant, l'efficacité élevée dans les méthodes existantes de synthèse de vues peu nombreuses basées sur NeRF est souvent compromise pour obtenir une représentation 3D précise. Pour relever ce défi, nous proposons un cadre de synthèse de vues peu nombreuses basé sur le lissage 3D par Gaussiennes, permettant une synthèse de vues en temps réel et photo-réaliste avec seulement trois vues d'entraînement. La méthode proposée, nommée FSGS, gère les points SfM initialisés de manière extrêmement sparse grâce à un processus de dépooling par Gaussiennes soigneusement conçu. Notre méthode distribue itérativement de nouvelles Gaussiennes autour des emplacements les plus représentatifs, comblant ainsi les détails locaux dans les zones vides. Nous intégrons également un estimateur de profondeur monoculaire pré-entraîné à grande échelle dans le processus d'optimisation des Gaussiennes, exploitant des vues augmentées en ligne pour guider l'optimisation géométrique vers une solution optimale. Partant de points spars observés à partir de points de vue d'entrée limités, notre FSGS peut s'étendre avec précision dans des régions non vues, couvrant complètement la scène et améliorant la qualité de rendu des nouvelles vues. Globalement, FSGS atteint des performances de pointe en termes de précision et d'efficacité de rendu sur divers ensembles de données, notamment LLFF, Mip-NeRF360 et Blender. Site web du projet : https://zehaozhu.github.io/FSGS/.
Les méthodes de rendu neuronal ont considérablement fait progresser le rendu photo-réaliste de scènes 3D dans diverses applications académiques et industrielles. La récente méthode de *3D Gaussian Splatting* a atteint une qualité et une vitesse de rendu de pointe, combinant les avantages des représentations basées sur des primitives et des représentations volumétriques. Cependant, elle conduit souvent à une redondance excessive de Gaussiennes qui tentent de s'adapter à chaque vue d'entraînement, négligeant la géométrie sous-jacente de la scène. Par conséquent, le modèle résultant devient moins robuste face à des changements de vue significatifs, des zones sans texture et des effets d'éclairage. Nous introduisons *Scaffold-GS*, qui utilise des points d'ancrage pour distribuer des Gaussiennes 3D locales et prédit leurs attributs à la volée en fonction de la direction de vue et de la distance dans le frustum visuel. Des stratégies de croissance et d'élagage des points d'ancrage sont développées en fonction de l'importance des Gaussiennes neuronales pour améliorer de manière fiable la couverture de la scène. Nous montrons que notre méthode réduit efficacement les Gaussiennes redondantes tout en offrant un rendu de haute qualité. Nous démontrons également une capacité accrue à s'adapter à des scènes avec différents niveaux de détail et des observations dépendantes de la vue, sans sacrifier la vitesse de rendu.
La synthèse de visages 3D guidée par texte a obtenu des résultats remarquables en exploitant les modèles de diffusion texte-à-image (T2I). Cependant, la plupart des travaux existants se concentrent uniquement sur la génération directe, négligeant l'édition, ce qui les empêche de synthétiser des visages 3D personnalisés grâce à des ajustements itératifs. Dans cet article, nous proposons un cadre unifié guidé par texte, allant de la génération à l'édition de visages. Dans l'étape de génération, nous proposons une génération découplée géométrie-texture pour atténuer la perte de détails géométriques causée par le couplage. De plus, ce découplage nous permet d'utiliser la géométrie générée comme condition pour la génération de texture, produisant des résultats fortement alignés entre géométrie et texture. Nous employons également un modèle de diffusion de texture affiné pour améliorer la qualité de la texture dans les espaces RGB et YUV. Dans l'étape d'édition, nous utilisons d'abord un modèle de diffusion pré-entraîné pour mettre à jour la géométrie ou la texture du visage en fonction des textes. Pour permettre une édition séquentielle, nous introduisons une régularisation de préservation de la cohérence dans le domaine UV, empêchant les modifications involontaires des attributs faciaux non pertinents. Par ailleurs, nous proposons une stratégie de pondération de cohérence auto-guidée pour améliorer l'efficacité de l'édition tout en préservant la cohérence. À travers des expériences approfondies, nous démontrons la supériorité de notre méthode dans la synthèse de visages. Page du projet : https://faceg2e.github.io/.
Les champs de radiance neuronaux (NeRFs) peuvent être considérablement accélérés grâce aux représentations par grilles spatiales. Cependant, ils ne raisonnent pas explicitement sur l'échelle, ce qui introduit des artefacts de crénelage lors de la reconstruction de scènes capturées à différentes distances de la caméra. Mip-NeRF et ses extensions proposent des moteurs de rendu sensibles à l'échelle qui projettent des frustums volumétriques plutôt que des échantillons ponctuels, mais ces approches reposent sur des encodages positionnels qui ne sont pas facilement compatibles avec les méthodes basées sur des grilles. Nous proposons une modification simple des modèles basés sur des grilles en entraînant des têtes de modèle à différentes résolutions de grille spatiale. Au moment du rendu, nous utilisons simplement des grilles plus grossières pour rendre des échantillons couvrant des volumes plus importants. Notre méthode peut être facilement appliquée aux méthodes NeRF accélérées existantes et améliore significativement la qualité du rendu (réduisant les taux d'erreur de 20 à 90 % sur des scènes synthétiques et réelles non bornées) tout en induisant une surcharge de performance minimale (car chaque tête de modèle est rapide à évaluer). Par rapport à Mip-NeRF, nous réduisons les taux d'erreur de 20 % tout en entraînant plus de 60 fois plus rapidement.
Récemment, la création automatique de contenu texte-à-3D a réalisé des progrès significatifs, grâce au développement de modèles de diffusion 2D pré-entraînés. Les méthodes existantes de texte-à-3D optimisent généralement la représentation 3D pour s'assurer que l'image rendue correspond bien au texte donné, tel qu'évalué par le modèle de diffusion 2D pré-entraîné. Néanmoins, un écart de domaine substantiel existe entre les images 2D et les assets 3D, principalement attribuable aux variations des attributs liés à la caméra et à la présence exclusive d'objets au premier plan. Par conséquent, l'utilisation directe de modèles de diffusion 2D pour optimiser les représentations 3D peut conduire à des résultats sous-optimaux. Pour résoudre ce problème, nous présentons X-Dreamer, une nouvelle approche pour la création de contenu texte-à-3D de haute qualité qui comble efficacement l'écart entre la synthèse texte-à-2D et texte-à-3D. Les composants clés de X-Dreamer sont deux conceptions innovantes : l'Adaptation de Bas Rang Guidée par la Caméra (CG-LoRA) et la Perte d'Alignement par Masque d'Attention (AMA). CG-LoRA intègre dynamiquement les informations de la caméra dans les modèles de diffusion pré-entraînés en utilisant une génération dépendante de la caméra pour les paramètres entraînables. Cette intégration améliore l'alignement entre les assets 3D générés et la perspective de la caméra. La perte AMA guide la carte d'attention du modèle de diffusion pré-entraîné en utilisant le masque binaire de l'objet 3D, priorisant la création de l'objet au premier plan. Ce module garantit que le modèle se concentre sur la génération d'objets au premier plan précis et détaillés. Des évaluations approfondies démontrent l'efficacité de notre méthode proposée par rapport aux approches existantes de texte-à-3D. Notre page web de projet : https://xmuxiaoma666.github.io/Projects/X-Dreamer .