Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous proposons MVDream, un modèle de diffusion multi-vues capable de générer des images multi-vues géométriquement cohérentes à partir d'une invite textuelle donnée. En exploitant des modèles de diffusion d'images pré-entraînés sur des ensembles de données web à grande échelle et un ensemble de données multi-vues rendu à partir d'actifs 3D, le modèle de diffusion multi-vues résultant peut atteindre à la fois la généralisabilité de la diffusion 2D et la cohérence des données 3D. Un tel modèle peut ainsi être appliqué comme un a priori multi-vues pour la génération 3D via l'échantillonnage par distillation de score, où il améliore grandement la stabilité des méthodes existantes de relèvement 2D en résolvant le problème de cohérence 3D. Enfin, nous montrons que le modèle de diffusion multi-vues peut également être affiné dans un cadre à quelques exemples pour une génération 3D personnalisée, c'est-à-dire l'application DreamBooth3D, où la cohérence peut être maintenue après l'apprentissage de l'identité du sujet.
Les modèles de type Transformer pour les tâches de vision ont récemment démontré leur efficacité pour un large éventail d'applications en aval, telles que la segmentation et la détection. Des travaux antérieurs ont montré que les propriétés de segmentation émergent dans les vision transformers (ViTs) entraînés à l'aide de méthodes auto-supervisées comme DINO, mais pas dans ceux entraînés sur des tâches de classification supervisée. Dans cette étude, nous explorons si la segmentation émerge dans les modèles basés sur Transformer uniquement en raison de mécanismes d'apprentissage auto-supervisé complexes, ou si la même émergence peut être obtenue dans des conditions beaucoup plus larges grâce à une conception appropriée de l'architecture du modèle. À travers des résultats expérimentaux approfondis, nous démontrons qu'en utilisant une architecture de type Transformer transparente appelée CRATE, dont la conception modélise et recherche explicitement des structures de faible dimension dans la distribution des données, les propriétés de segmentation, à la fois au niveau global et des parties, émergent déjà avec une recette d'entraînement supervisé minimaliste. Une analyse plus fine couche par couche révèle que les propriétés émergentes corroborent fortement les fonctions mathématiques conçues du réseau transparent. Nos résultats suggèrent une voie pour concevoir des modèles de base transparents qui sont à la fois très performants et entièrement interprétables mathématiquement. Le code est disponible à l'adresse https://github.com/Ma-Lab-Berkeley/CRATE.
Stable Diffusion, un modèle génératif utilisé dans la synthèse d'images à partir de texte, rencontre fréquemment des problèmes de composition induits par la résolution lors de la génération d'images de tailles variées. Ce problème découle principalement du fait que le modèle est entraîné sur des paires d'images à échelle unique et leurs descriptions textuelles correspondantes. De plus, un entraînement direct sur des images de tailles illimitées est irréalisable, car cela nécessiterait un nombre immense de paires texte-image et entraînerait des coûts de calcul substantiels. Pour surmonter ces défis, nous proposons un pipeline en deux étapes nommé Any-Size-Diffusion (ASD), conçu pour générer efficacement des images bien composées de toute taille, tout en minimisant le besoin de ressources GPU à haute mémoire. Plus précisément, la première étape, appelée Any Ratio Adaptability Diffusion (ARAD), exploite un ensemble sélectionné d'images avec une gamme restreinte de ratios pour optimiser le modèle de diffusion conditionné par le texte, améliorant ainsi sa capacité à ajuster la composition pour s'adapter à diverses tailles d'images. Pour soutenir la création d'images à n'importe quelle taille souhaitée, nous introduisons en outre une technique appelée Fast Seamless Tiled Diffusion (FSTD) à l'étape suivante. Cette méthode permet un agrandissement rapide de la sortie ASD à n'importe quelle taille haute résolution, évitant les artefacts de jointure ou les surcharges de mémoire. Les résultats expérimentaux sur les benchmarks LAION-COCO et MM-CelebA-HQ démontrent que ASD peut produire des images bien structurées de tailles arbitraires, réduisant le temps d'inférence par 2x par rapport à l'algorithme de tuilage traditionnel.
Les modèles de langage pré-entraînés comme ChatGPT ont considérablement amélioré la génération de code. À mesure que ces modèles augmentent en taille, il devient de plus en plus nécessaire que leurs sorties puissent gérer des tâches plus complexes. De plus, en bioinformatique, la génération de programmes fonctionnels présente des défis supplémentaires notables en raison de la quantité de connaissances spécifiques au domaine, de la nécessité d'opérations de données complexes et des dépendances fonctionnelles complexes entre ces opérations. Nous présentons ici BioCoder, un benchmark développé pour évaluer les modèles pré-entraînés existants dans la génération de code bioinformatique. En ce qui concerne la génération de code de fonction, BioCoder couvre les dépendances potentielles de packages, les déclarations de classes et les variables globales. Il intègre 1026 fonctions et 1243 méthodes en Python et Java provenant de GitHub, ainsi que 253 exemples du projet Rosalind. BioCoder intègre un framework de fuzz-testing pour l'évaluation, et nous l'avons appliqué pour évaluer de nombreux modèles, notamment InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ et ChatGPT. Notre analyse détaillée de ces modèles met en évidence l'importance des connaissances spécifiques au domaine, de la génération pragmatique de code et de la compréhension contextuelle. Notre ensemble de données, benchmark, images Docker et scripts nécessaires pour les tests sont tous disponibles à l'adresse https://github.com/gersteinlab/biocoder.
Lorsque les programmeurs humains maîtrisent un langage de programmation, il leur est plus facile d'en apprendre un nouveau. Dans ce rapport, nous nous concentrons sur l'exploration de la possibilité que les langages de programmation puissent s'entraider pendant la phase de réglage fin par instruction des grands modèles de langage pour le code. Nous menons des expériences approfondies sur 8 langages de programmation populaires (Python, JavaScript, TypeScript, C, C++, Java, Go, HTML) avec StarCoder. Les résultats démontrent que les langages de programmation peuvent s'améliorer mutuellement de manière significative. Par exemple, CodeM-Python 15B, entraîné sur Python, est capable d'augmenter les performances de Java de 17,95% en pass@1 absolu sur HumanEval-X. Plus étonnamment, nous avons constaté que CodeM-HTML 7B, entraîné sur le corpus HTML, peut améliorer Java de 15,24% en pass@1 absolu. Nos données d'entraînement sont disponibles à l'adresse suivante : https://github.com/NL2Code/CodeM.
Nous abordons le problème de la cartographie active avec une représentation neuronale de scène apprise en continu, appelée Cartographie Neuronale Active. L'essentiel réside dans la recherche active de l'espace cible à explorer avec des mouvements efficaces de l'agent, minimisant ainsi l'incertitude de la carte en temps réel dans un environnement précédemment inconnu. Dans cet article, nous examinons l'espace des poids du champ neuronal appris en continu, et montrons empiriquement que la variabilité neuronale, c'est-à-dire la robustesse des prédictions face à des perturbations aléatoires des poids, peut être directement utilisée pour mesurer l'incertitude instantanée de la carte neuronale. Avec les informations géométriques continues héritées de la carte neuronale, l'agent peut être guidé pour trouver un chemin praticable afin d'acquérir progressivement des connaissances sur l'environnement. Nous présentons pour la première fois un système de cartographie active avec une représentation neuronale implicite basée sur les coordonnées pour la reconstruction de scène en ligne. Les expériences dans les environnements visuellement réalistes de Gibson et Matterport3D démontrent l'efficacité de la méthode proposée.
Développer des agents capables d'exécuter diverses tâches de manipulation à partir d'observations visuelles dans des environnements réels non structurés constitue un problème de longue date en robotique. Pour atteindre cet objectif, le robot doit avoir une compréhension approfondie de la structure 3D et de la sémantique de la scène. Dans ce travail, nous présentons GNFactor, un agent de clonage comportemental visuel pour la manipulation robotique multi-tâches utilisant des Champs de Caractéristiques Neurales Généralisables (Generalizable Neural feature Fields). GNFactor optimise conjointement un champ neural généralisable (GNF) en tant que module de reconstruction et un Perceiver Transformer en tant que module de prise de décision, en s'appuyant sur une représentation voxel 3D profonde partagée. Pour intégrer la sémantique en 3D, le module de reconstruction utilise un modèle de base vision-langage (par exemple, Stable Diffusion) pour distiller des informations sémantiques riches dans le voxel 3D profond. Nous évaluons GNFactor sur 3 tâches de robot réel et effectuons des ablations détaillées sur 10 tâches RLBench avec un nombre limité de démonstrations. Nous observons une amélioration substantielle de GNFactor par rapport aux méthodes actuelles de pointe dans des tâches vues et non vues, démontrant ainsi la forte capacité de généralisation de GNFactor. Notre site web de projet est https://yanjieze.com/GNFactor/.
Nous présentons Belebele, un ensemble de données de compréhension de lecture assistée par machine (MRC) à choix multiples couvrant 122 variantes linguistiques. En élargissant considérablement la couverture linguistique des benchmarks de compréhension du langage naturel (NLU), cet ensemble de données permet d'évaluer les modèles de texte dans des langues à ressources élevées, moyennes et faibles. Chaque question est basée sur un court passage de l'ensemble de données Flores-200 et propose quatre réponses à choix multiples. Les questions ont été soigneusement sélectionnées pour discriminer les modèles ayant différents niveaux de compréhension générale du langage. L'ensemble de données en anglais à lui seul s'avère suffisamment difficile pour mettre à l'épreuve les modèles de langage les plus avancés. Étant entièrement parallèle, cet ensemble de données permet une comparaison directe des performances des modèles dans toutes les langues. Nous utilisons cet ensemble de données pour évaluer les capacités des modèles de langage masqué multilingues (MLMs) et des grands modèles de langage (LLMs). Nous présentons des résultats détaillés et constatons que, malgré un transfert interlinguistique significatif dans les LLMs centrés sur l'anglais, des MLMs beaucoup plus petits pré-entraînés sur des données multilingues équilibrées comprennent encore bien plus de langues. Nous observons également qu'une taille de vocabulaire plus importante et une construction consciente du vocabulaire sont corrélées à de meilleures performances sur les langues à faibles ressources. Globalement, Belebele ouvre de nouvelles voies pour évaluer et analyser les capacités multilingues des systèmes de traitement du langage naturel (NLP).
L'interpolation vidéo centrée sur l'humain possède un grand potentiel pour améliorer les expériences de divertissement et trouver des applications commerciales dans l'industrie de l'analyse sportive, par exemple en synthétisant des vidéos au ralenti. Bien que plusieurs jeux de données de référence soient disponibles dans la communauté, aucun n'est dédié aux scénarios centrés sur l'humain. Pour combler cette lacune, nous introduisons SportsSloMo, un benchmark composé de plus de 130 000 clips vidéo et 1 million d'images vidéo haute résolution (≥720p) de vidéos sportives au ralenti extraites de YouTube. Nous avons réentraîné plusieurs méthodes de pointe sur notre benchmark, et les résultats montrent une diminution de leur précision par rapport à d'autres jeux de données. Cela met en évidence la difficulté de notre benchmark et suggère qu'il présente des défis importants même pour les méthodes les plus performantes, car les corps humains sont très déformables et les occlusions sont fréquentes dans les vidéos sportives. Pour améliorer la précision, nous introduisons deux termes de perte prenant en compte les connaissances a priori liées à l'humain, en ajoutant une supervision supplémentaire pour la segmentation panoptique et la détection des points clés humains, respectivement. Ces termes de perte sont indépendants du modèle et peuvent être facilement intégrés dans toute approche d'interpolation vidéo. Les résultats expérimentaux valident l'efficacité de nos termes de perte proposés, conduisant à une amélioration constante des performances sur 5 modèles existants, qui établissent des modèles de référence solides sur notre benchmark. Le jeu de données et le code sont disponibles à l'adresse suivante : https://neu-vi.github.io/SportsSlomo/.