Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Magic123, une approche en deux étapes allant du grossier au fin pour la génération de maillages 3D texturés de haute qualité à partir d'une seule image non posée en milieu naturel, en utilisant à la fois des connaissances a priori 2D et 3D. Dans la première étape, nous optimisons un champ de radiance neuronale pour produire une géométrie grossière. Dans la deuxième étape, nous adoptons une représentation de maillage différentiable économe en mémoire pour obtenir un maillage haute résolution avec une texture visuellement attrayante. Dans les deux étapes, le contenu 3D est appris grâce à une supervision par vue de référence et des vues nouvelles guidées par une combinaison de connaissances a priori issues de modèles de diffusion 2D et 3D. Nous introduisons un unique paramètre de compromis entre les connaissances a priori 2D et 3D pour contrôler l'exploration (plus imaginative) et l'exploitation (plus précise) de la géométrie générée. De plus, nous utilisons l'inversion textuelle et une régularisation de la profondeur monoculaire pour encourager une apparence cohérente entre les vues et pour prévenir les solutions dégénérées, respectivement. Magic123 démontre une amélioration significative par rapport aux techniques précédentes de conversion d'image en 3D, comme en témoignent des expériences approfondies sur des benchmarks synthétiques et des images réelles variées. Notre code, modèles et actifs 3D générés sont disponibles à l'adresse https://github.com/guochengqian/Magic123.
Les grands modèles de langage (LLMs) constituent un outil prometteur permettant aux robots d'exécuter des tâches de raisonnement complexe. Cependant, la fenêtre de contexte limitée des LLMs contemporains rend difficile le raisonnement sur de longues périodes temporelles. Les tâches incarnées, comme celles qu'un robot domestique pourrait être amené à réaliser, nécessitent généralement que le planificateur prenne en compte des informations acquises bien auparavant (par exemple, les propriétés des nombreux objets que le robot a précédemment rencontrés dans son environnement). Les tentatives de capturer l'état du monde en utilisant la représentation interne implicite d'un LLM sont compliquées par le manque d'informations pertinentes pour la tâche et l'environnement disponibles dans l'historique des actions du robot, tandis que les méthodes qui reposent sur la capacité à transmettre des informations via l'invite au LLM sont limitées par sa fenêtre de contexte restreinte. Dans cet article, nous proposons Statler, un cadre qui dote les LLMs d'une représentation explicite de l'état du monde sous forme de « mémoire » maintenue dans le temps. L'élément central de Statler est l'utilisation de deux instances de LLMs généraux — un lecteur de modèle du monde et un écrivain de modèle du monde — qui interagissent avec et maintiennent l'état du monde. En fournissant un accès à cette « mémoire » de l'état du monde, Statler améliore la capacité des LLMs existants à raisonner sur de plus longues périodes temporelles sans être contraints par la longueur du contexte. Nous évaluons l'efficacité de notre approche sur trois domaines simulés de manipulation sur table et un domaine de robot réel, et montrons qu'elle améliore l'état de l'art en matière de raisonnement robotique basé sur les LLMs. Site web du projet : https://statler-lm.github.io/
Les vision transformers (ViTs) ont profondément transformé le paysage de la vision par ordinateur et ont régulièrement démontré des performances supérieures dans les tâches visuelles par rapport aux réseaux de neurones convolutifs (CNNs). Bien que la question de savoir quel type de modèle est supérieur reste ouverte, chacun possède des biais inductifs uniques qui influencent leur apprentissage et leur capacité de généralisation. Par exemple, les ViTs présentent des propriétés intéressantes concernant la dépendance non locale des caractéristiques dans les couches initiales, ainsi que des mécanismes d'auto-attention qui améliorent la flexibilité d'apprentissage, leur permettant d'ignorer plus efficacement les informations hors contexte dans les images. Nous émettons l'hypothèse que cette capacité à ignorer les informations hors contexte (que nous nommons sélectivité de patch), tout en intégrant les informations dans le contexte de manière non locale dans les couches initiales, permet aux ViTs de mieux gérer les occlusions. Dans cette étude, notre objectif est de déterminer si nous pouvons permettre aux CNNs de simuler cette capacité de sélectivité de patch en intégrant efficacement ce biais inductif grâce à l'augmentation de données par Patch Mixing, qui consiste à insérer des patches d'une autre image dans une image d'entraînement et à interpoler les étiquettes entre les deux classes d'images. Plus précisément, nous utilisons le Patch Mixing pour entraîner des ViTs et des CNNs de pointe, en évaluant son impact sur leur capacité à ignorer les patches hors contexte et à gérer les occlusions naturelles. Nous constatons que les ViTs ne s'améliorent ni ne se détériorent lorsqu'ils sont entraînés avec le Patch Mixing, mais que les CNNs acquièrent de nouvelles capacités pour ignorer les informations hors contexte et améliorent leurs performances sur les benchmarks d'occlusion, ce qui nous amène à conclure que cette méthode d'entraînement permet de simuler dans les CNNs les capacités que les ViTs possèdent déjà. Nous mettrons à disposition notre implémentation de Patch Mixing et les jeux de données proposés pour un usage public. Page du projet : https://arielnlee.github.io/PatchMixing/
Dans la théorie de l'apprentissage profond, la matrice de covariance des représentations sert de proxy pour examiner la capacité d'entraînement du réseau. Motivés par le succès des Transformers, nous étudions la matrice de covariance d'un modèle d'attention modifié basé sur Softmax avec des connexions résiduelles dans la limite proportionnelle de profondeur et de largeur infinies. Nous montrons qu'à l'initialisation, la distribution limite peut être décrite par une équation différentielle stochastique (EDS) indexée par le rapport profondeur-sur-largeur. Pour atteindre une limite stochastique bien définie, le mécanisme d'attention du Transformer est modifié en centrant la sortie Softmax sur l'identité et en mettant à l'échelle les logits Softmax par un paramètre de température dépendant de la largeur. Nous examinons la stabilité du réseau à travers l'EDS correspondante, montrant comment l'échelle à la fois de la dérive et de la diffusion peut être élégamment contrôlée à l'aide des connexions résiduelles. L'existence d'une EDS stable implique que la structure de covariance est bien comportée, même pour des profondeurs et largeurs très importantes, évitant ainsi les problèmes notoires de dégénérescence de rang dans les modèles d'attention profonds. Enfin, nous montrons, à travers des simulations, que l'EDS fournit une description étonnamment précise du modèle de taille finie correspondant. Nous baptisons ces modifications architecturales le Transformer façonné.
Cet article présente un nouveau mécanisme pour faciliter l'entraînement des transformateurs à masques en vue d'une segmentation panoptique efficace, démocratisant ainsi son déploiement. Nous observons qu'en raison de sa grande complexité, l'objectif d'entraînement de la segmentation panoptique entraîne inévitablement une pénalisation beaucoup plus élevée des faux positifs. Cette perte déséquilibrée rend le processus d'entraînement des architectures basées sur des transformateurs à masques de bout en bout difficile, en particulier pour les modèles efficaces. Dans cet article, nous présentons ReMaX, qui introduit une relaxation des prédictions de masques et des prédictions de classes pendant l'entraînement pour la segmentation panoptique. Nous démontrons qu'avec ces techniques simples de relaxation pendant l'entraînement, notre modèle peut être amélioré de manière constante et significative sans aucun coût de calcul supplémentaire lors de l'inférence. En combinant notre méthode avec des architectures efficaces comme MobileNetV3-Small, notre méthode atteint de nouveaux résultats de pointe pour la segmentation panoptique efficace sur COCO, ADE20K et Cityscapes. Le code et les points de contrôle pré-entraînés seront disponibles à l'adresse suivante : https://github.com/google-research/deeplab2.