Articles de recherche en IA sélectionnés quotidiennement avec traductions
Des progrès significatifs ont été réalisés grâce à l'utilisation de grands modèles vision-langage, tels que Stable Diffusion (SD), pour une variété de tâches en aval, incluant l'édition d'images, la correspondance d'images et la génération de formes 3D. Inspirés par ces avancées, nous explorons l'exploitation de ces modèles vision-langage étendus pour segmenter des images à n'importe quelle granularité souhaitée en utilisant aussi peu qu'un échantillon annoté, en proposant SLiMe. SLiMe formule ce problème comme une tâche d'optimisation. Plus précisément, étant donné une seule image d'entraînement et son masque de segmentation, nous extrayons d'abord des cartes d'attention, y compris notre nouvelle "carte d'auto-attention accumulée pondérée", à partir du prior de SD. Ensuite, en utilisant les cartes d'attention extraites, les embeddings textuels de Stable Diffusion sont optimisés de manière à ce que chacun d'eux apprenne une seule région segmentée de l'image d'entraînement. Ces embeddings appris mettent ensuite en évidence la région segmentée dans les cartes d'attention, qui peuvent alors être utilisées pour dériver la carte de segmentation. Cela permet à SLiMe de segmenter n'importe quelle image du monde réel lors de l'inférence avec la granularité de la région segmentée dans l'image d'entraînement, en utilisant un seul exemple. De plus, l'exploitation de données d'entraînement supplémentaires lorsqu'elles sont disponibles, c'est-à-dire en few-shot, améliore les performances de SLiMe. Nous avons mené un ensemble d'expériences riches en connaissances examinant divers facteurs de conception et avons montré que SLiMe surpasse les autres méthodes existantes de segmentation en one-shot et few-shot.
Les études précédentes ont généralement supposé que les grands modèles de langage étaient incapables d'effectuer avec précision des opérations arithmétiques, en particulier la multiplication de nombres à plus de 8 chiffres, ainsi que les opérations impliquant des nombres décimaux et des fractions, sans l'utilisation d'outils de calculatrice. Cet article vise à remettre en question cette idée reçue. Avec des données d'entraînement suffisantes, un modèle de langage de 2 milliards de paramètres peut effectuer avec précision des opérations arithmétiques multi-chiffres avec une exactitude proche de 100 %, sans fuite de données, surpassant ainsi significativement GPT-4 (dont la précision en multiplication multi-chiffres n'est que de 4,3 %). Nous démontrons également que notre modèle MathGLM, affiné à partir de GLM-10B sur un ensemble de données incluant des opérations arithmétiques multi-étapes et des problèmes mathématiques décrits en texte, atteint des performances similaires à celles de GPT-4 sur un ensemble de test de 5 000 échantillons de problèmes mathématiques en chinois.
Nous présentons CM3Leon (prononcé "Caméléon"), un modèle de langage multimodal basé sur des tokens, à décodeur unique et augmenté par recherche, capable de générer et de compléter à la fois du texte et des images. CM3Leon utilise l'architecture multimodale CM3, mais démontre en plus les avantages considérables d'une mise à l'échelle et d'un ajustement sur des données d'instructions plus diversifiées. Il s'agit du premier modèle multimodal entraîné selon une méthode adaptée des modèles de langage textuels uniquement, incluant une étape de pré-entraînement à grande échelle augmentée par recherche et une seconde étape de fine-tuning supervisé multitâche (SFT). C'est également un modèle à usage général qui peut effectuer à la fois la génération de texte à partir d'images et d'images à partir de texte, nous permettant d'introduire des méthodes de décodage contrastif autonomes produisant des résultats de haute qualité. Des expériences approfondies montrent que cette méthode est très efficace pour les modèles multimodaux. CM3Leon atteint des performances de pointe en génération d'images à partir de texte avec 5 fois moins de calcul d'entraînement que les méthodes comparables (FID zero-shot MS-COCO de 4,88). Après le SFT, CM3Leon peut également démontrer des niveaux de contrôlabilité sans précédent dans des tâches allant de l'édition d'images guidée par le langage à la génération et à la segmentation contrôlées par l'image.
Nous présentons Matcha-TTS, une nouvelle architecture encodeur-décodeur pour la modélisation acoustique rapide en synthèse vocale, entraînée à l'aide de l'appariement de flux conditionnel par transport optimal (OT-CFM). Cela aboutit à un décodeur basé sur des équations différentielles ordinaires (ODE) capable de produire une qualité de sortie élevée en moins d'étapes de synthèse que les modèles entraînés par appariement de score. Des choix de conception minutieux garantissent également que chaque étape de synthèse s'exécute rapidement. La méthode est probabiliste, non autorégressive et apprend à parler de manière autonome sans alignements externes. Comparé à des modèles de référence pré-entraînés performants, le système Matcha-TTS présente l'empreinte mémoire la plus faible, rivalise avec la vitesse des modèles les plus rapides sur des énoncés longs et obtient le score d'opinion moyen le plus élevé dans un test d'écoute. Veuillez consulter https://shivammehta25.github.io/Matcha-TTS/ pour des exemples audio, le code et les modèles pré-entraînés.
Les récents progrès dans les modèles vision-langage (VLMs) ont conduit à une amélioration des performances sur des tâches telles que la réponse à des questions visuelles et la génération de légendes d'images. Par conséquent, ces modèles sont désormais bien positionnés pour raisonner sur le monde physique, en particulier dans des domaines comme la manipulation robotique. Cependant, les VLMs actuels sont limités dans leur compréhension des concepts physiques (par exemple, matériau, fragilité) des objets courants, ce qui restreint leur utilité pour les tâches de manipulation robotique impliquant des interactions et un raisonnement physique sur de tels objets. Pour pallier cette limitation, nous proposons PhysObjects, un ensemble de données centré sur les objets contenant 36,9K annotations de concepts physiques issues du crowdsourcing et 417K annotations automatisées d'objets ménagers courants. Nous démontrons que l'affinage d'un VLM sur PhysObjects améliore sa compréhension des concepts physiques des objets, en capturant les préjugés humains de ces concepts à partir de l'apparence visuelle. Nous intégrons ce VLM ancré dans la physique dans un cadre interactif avec un planificateur robotique basé sur un grand modèle de langage, et montrons une amélioration des performances de planification sur des tâches nécessitant un raisonnement sur les concepts physiques des objets, par rapport aux bases de référence qui n'utilisent pas de VLMs ancrés dans la physique. Nous illustrons également les avantages de notre VLM ancré dans la physique sur un robot réel, où il améliore les taux de réussite des tâches. Nous publions notre ensemble de données et fournissons plus de détails et de visualisations de nos résultats sur https://iliad.stanford.edu/pg-vlm/.
Les champs neuronaux, une catégorie de réseaux de neurones entraînés à représenter des signaux à haute fréquence, ont suscité une attention considérable ces dernières années en raison de leurs performances impressionnantes dans la modélisation de données 3D complexes, notamment les grands champs de distance signée neuronale (SDF) ou les champs de radiance (NeRF) via un seul perceptron multicouche (MLP). Cependant, malgré la puissance et la simplicité de la représentation des signaux avec un MLP, ces méthodes rencontrent encore des difficultés pour modéliser des signaux temporels vastes et complexes en raison de la capacité limitée des MLP. Dans cet article, nous proposons une approche efficace pour surmonter cette limitation en intégrant des couches résiduelles temporelles dans les champs neuronaux, appelées ResFields, une nouvelle classe de réseaux spécifiquement conçue pour représenter efficacement des signaux temporels complexes. Nous menons une analyse approfondie des propriétés des ResFields et proposons une technique de factorisation matricielle pour réduire le nombre de paramètres entraînables et améliorer les capacités de généralisation. De manière cruciale, notre formulation s'intègre de manière transparente avec les techniques existantes et améliore systématiquement les résultats dans diverses tâches complexes : approximation de vidéos 2D, modélisation de formes dynamiques via des SDF temporels, et reconstruction de NeRF dynamiques. Enfin, nous démontrons l'utilité pratique des ResFields en mettant en évidence leur efficacité pour capturer des scènes 3D dynamiques à partir d'entrées sensorielles éparses d'un système de capture léger.
Les champs de radiance neuronaux (NeRFs) ont montré leur potentiel dans des applications telles que la synthèse de vues et l'estimation de profondeur, mais l'apprentissage à partir d'images multivues est confronté à des incertitudes inhérentes. Les méthodes actuelles pour les quantifier sont soit heuristiques, soit exigeantes en termes de calcul. Nous présentons BayesRays, un cadre post-hoc pour évaluer l'incertitude dans tout NeRF pré-entraîné sans modifier le processus d'apprentissage. Notre méthode établit un champ d'incertitude volumétrique en utilisant des perturbations spatiales et une approximation de Laplace bayésienne. Nous dérivons notre algorithme de manière statistique et démontrons ses performances supérieures sur des métriques clés et dans des applications. Des résultats supplémentaires sont disponibles à l'adresse : https://bayesrays.github.io.
La dextérité humaine est une caractéristique marquante du contrôle moteur. Nos mains peuvent rapidement synthétiser de nouveaux comportements malgré la complexité (multi-articulaire et multi-joints, avec 23 articulations contrôlées par plus de 40 muscles) des circuits sensorimoteurs musculo-squelettiques. Dans ce travail, nous nous inspirons de la manière dont la dextérité humaine s'appuie sur une diversité d'expériences antérieures, plutôt que d'être acquise à travers une seule tâche. Motivés par cette observation, nous nous sommes engagés à développer des agents capables de s'appuyer sur leur expérience passée pour acquérir rapidement de nouveaux comportements (auparavant inaccessibles). Plus précisément, notre approche exploite l'apprentissage multitâche pour capturer implicitement des a priori comportementaux indépendants de la tâche (MyoDex) pour une dextérité humaine, en utilisant un modèle de main humaine physiologiquement réaliste - MyoHand. Nous démontrons l'efficacité de MyoDex dans la généralisation en peu de données ainsi que dans le transfert positif vers un large répertoire de tâches de manipulation dextre non vues. Les agents utilisant MyoDex peuvent résoudre environ 3 fois plus de tâches, et 4 fois plus rapidement par rapport à une base de référence par distillation. Alors que les travaux antérieurs ont synthétisé des comportements de contrôle musculo-squelettique individuels, MyoDex est le premier a priori de manipulation généralisable qui catalyse l'apprentissage du contrôle physiologique dextre à travers une grande variété de comportements riches en contacts. Nous démontrons également l'efficacité de nos paradigmes au-delà du contrôle musculo-squelettique vers l'acquisition de la dextérité dans une main Adroit à 24 degrés de liberté. Site web : https://sites.google.com/view/myodex