Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLMs) sont utiles pour de nombreuses tâches de traitement du langage naturel (NLP) et deviennent plus performants avec l'augmentation de leur taille, les meilleurs modèles open-source dépassant les 50 milliards de paramètres. Cependant, l'utilisation de ces modèles de 50 milliards de paramètres et plus nécessite du matériel haut de gamme, les rendant inaccessibles à la plupart des chercheurs. Dans ce travail, nous étudions des méthodes pour l'inférence et le fine-tuning économiques des LLMs, en comparant des stratégies locales et distribuées. Nous observons qu'un modèle suffisamment grand (50 milliards de paramètres et plus) peut fonctionner efficacement même sur des dispositifs géodistribués dans un réseau de qualité grand public. Cela pourrait permettre d'exécuter des LLMs de manière efficace en regroupant les ressources de calcul inutilisées de plusieurs groupes de recherche et de volontaires. Nous abordons deux problèmes ouverts : (1) comment effectuer l'inférence et le fine-tuning de manière fiable si un dispositif peut se déconnecter brusquement et (2) comment partitionner les LLMs entre des dispositifs avec des matériels hétérogènes, pouvant rejoindre et quitter le système à volonté. Pour ce faire, nous développons des algorithmes d'inférence tolérants aux pannes et des protocoles d'équilibrage de charge qui assignent automatiquement les dispositifs pour maximiser le débit total du système. Nous présentons ces algorithmes dans Petals - un système décentralisé qui exécute Llama 2 (70 milliards de paramètres) et BLOOM (176 milliards de paramètres) sur Internet jusqu'à 10 fois plus rapidement que le déchargement pour la génération interactive. Nous évaluons les performances de notre système dans des conditions simulées et dans un environnement réel couvrant deux continents.
Les méthodes existantes de segmentation d'images à vocabulaire ouvert nécessitent une étape de fine-tuning sur des annotations de masques et/ou des ensembles de données image-texte. Les étiquettes de masques sont laborieuses à produire, ce qui limite le nombre de catégories dans les ensembles de données de segmentation. Par conséquent, la capacité de vocabulaire ouvert des modèles de langage visuel (VLM) pré-entraînés est fortement réduite après le fine-tuning. Cependant, sans fine-tuning, les VLM entraînés avec une supervision faible image-texte ont tendance à produire des prédictions de masque sous-optimales lorsqu'il y a des requêtes textuelles faisant référence à des concepts inexistants dans l'image. Pour atténuer ces problèmes, nous introduisons un nouveau cadre récurrent qui filtre progressivement les textes non pertinents et améliore la qualité des masques sans effort d'entraînement. L'unité récurrente est un segmenteur en deux étapes construit sur un VLM avec des poids figés. Ainsi, notre modèle conserve l'espace de vocabulaire étendu du VLM et renforce sa capacité de segmentation. Les résultats expérimentaux montrent que notre méthode surpasse non seulement les alternatives sans entraînement, mais aussi celles fine-tunées avec des millions d'échantillons de données supplémentaires, et établit de nouveaux records de pointe pour les tâches de segmentation sémantique zero-shot et de segmentation d'images référencées. Plus précisément, nous améliorons le record actuel de 28,8, 16,0 et 6,9 mIoU sur Pascal VOC, COCO Object et Pascal Context.
Les environnements simulés en 3D jouent un rôle crucial dans l'IA incarnée, mais leur création nécessite une expertise et un effort manuel considérable, limitant ainsi leur diversité et leur portée. Pour pallier cette limitation, nous présentons Holodeck, un système qui génère des environnements 3D en réponse à une requête utilisateur de manière entièrement automatisée. Holodeck peut générer des scènes variées, telles que des salles d'arcade, des spas et des musées, adapter les designs à différents styles, et capturer la sémantique de requêtes complexes comme "appartement pour un chercheur avec un chat" ou "bureau d'un professeur fan de Star Wars". Holodeck s'appuie sur un modèle de langage de grande envergure (GPT-4) pour acquérir des connaissances de bon sens sur l'apparence possible de la scène et utilise une vaste collection d'objets 3D provenant d'Objaverse pour peupler la scène avec des objets diversifiés. Pour relever le défi du positionnement correct des objets, nous incitons GPT-4 à générer des contraintes relationnelles spatiales entre les objets, puis nous optimisons la disposition pour satisfaire ces contraintes. Notre évaluation humaine à grande échelle montre que les annotateurs préfèrent Holodeck aux bases de référence procédurales conçues manuellement pour les scènes résidentielles, et que Holodeck peut produire des résultats de haute qualité pour divers types de scènes. Nous démontrons également une application passionnante de Holodeck dans l'IA incarnée, en entraînant des agents à naviguer dans des scènes nouvelles comme des salles de musique et des garderies sans données construites par l'homme, ce qui représente une avancée significative dans le développement d'agents incarnés à usage général.
Ce travail vise à améliorer l'efficacité des modèles de diffusion texte-image. Alors que les modèles de diffusion utilisent des opérations de débruitage basées sur UNet, coûteuses en calcul, à chaque étape de génération, nous identifions que toutes les opérations ne sont pas également pertinentes pour la qualité finale de la sortie. En particulier, nous observons que les couches UNet opérant sur des cartes de caractéristiques haute résolution sont relativement sensibles à de petites perturbations. En revanche, les cartes de caractéristiques basse résolution influencent la disposition sémantique de l'image finale et peuvent souvent être perturbées sans changement notable dans la sortie. Sur la base de cette observation, nous proposons Clockwork Diffusion, une méthode qui réutilise périodiquement les calculs des étapes de débruitage précédentes pour approximer les cartes de caractéristiques basse résolution à une ou plusieurs étapes ultérieures. Pour plusieurs modèles de référence, et pour la génération texte-image ainsi que l'édition d'images, nous démontrons que Clockwork conduit à des scores perceptuels comparables ou améliorés avec une complexité computationnelle drastiquement réduite. Par exemple, pour Stable Diffusion v1.5 avec 8 étapes DPM++, nous économisons 32% des FLOPs avec des changements négligeables en FID et CLIP.
Nous présentons FoundationPose, un modèle de fondation unifié pour l'estimation et le suivi de la pose 6D d'objets, prenant en charge à la fois les configurations basées sur un modèle et sans modèle. Notre approche peut être appliquée instantanément lors des tests à un nouvel objet sans nécessiter de réglage fin, à condition que son modèle CAO soit fourni ou qu'un petit nombre d'images de référence soient capturées. Nous comblons l'écart entre ces deux configurations grâce à une représentation implicite neuronale qui permet une synthèse efficace de nouvelles vues, tout en maintenant les modules d'estimation de pose invariants dans le même cadre unifié. Une forte généralisabilité est obtenue via un entraînement synthétique à grande échelle, soutenu par un grand modèle de langage (LLM), une nouvelle architecture basée sur les transformateurs et une formulation d'apprentissage contrastif. Une évaluation approfondie sur plusieurs ensembles de données publics impliquant des scénarios et des objets complexes montre que notre approche unifiée surpasse largement les méthodes existantes spécialisées pour chaque tâche. De plus, elle atteint même des résultats comparables aux méthodes au niveau de l'instance malgré des hypothèses réduites. Page du projet : https://nvlabs.github.io/FoundationPose/
Les grands modèles de langage (LLMs) rencontrent des difficultés à résoudre des problèmes mathématiques complexes qui nécessitent des capacités étendues pour analyser les énoncés, associer des connaissances du domaine, effectuer un raisonnement logique composé et intégrer les justifications intermédiaires. Aborder tous ces problèmes simultanément peut s'avérer ardu pour les LLMs, entraînant ainsi une confusion dans la génération. Dans ce travail, nous explorons le potentiel d'amélioration des LLMs grâce à des agents par une décomposition minutieuse et une modélisation du processus de raisonnement mathématique. Plus précisément, nous proposons une description formelle de la résolution mathématique et étendons les LLMs avec un cadre zéro-shot basé sur des agents nommé Planner-Reasoner-Executor-Reflector (PRER). Nous fournissons et implémentons également deux MathAgents qui définissent les formes logiques et les relations intrinsèques via un ensemble d'actions à différents niveaux de granularité et orientations : MathAgent-M adapte ses actions aux LLMs, tandis que MathAgent-H s'aligne sur le raisonnement humain. Les expériences sur miniF2F et MATH ont démontré l'efficacité de PRER et des MathAgents proposés, avec une augmentation de 12,3 % (de 53,9 % à 66,2 %) sur miniF2F, de 9,2 % (de 49,8 % à 59,0 %) sur MATH, et de 13,2 % (de 23,2 % à 35,4 %) pour les problèmes de niveau 5 de MATH par rapport à GPT-4. Les résultats analytiques supplémentaires offrent des perspectives plus approfondies sur l'exploitation des comportements des LLMs en tant qu'agents.
La découverte de la rationalité est définie comme la recherche d'un sous-ensemble des données d'entrée qui soutient de manière maximale la prédiction des tâches en aval. Dans le contexte de l'apprentissage automatique sur graphes, la rationalité du graphe est définie comme la localisation du sous-graphe critique dans la topologie du graphe donné, qui détermine fondamentalement les résultats de prédiction. Par opposition au sous-graphe de rationalité, le sous-graphe restant est appelé le sous-graphe environnemental. La rationalisation des graphes peut améliorer les performances du modèle, car la correspondance entre le graphe de rationalité et l'étiquette de prédiction est considérée comme invariante, par hypothèse. Pour garantir le pouvoir discriminant des sous-graphes de rationalité extraits, une technique clé appelée "intervention" est appliquée. L'idée centrale de l'intervention est que, face à tout changement des sous-graphes environnementaux, la sémantique du sous-graphe de rationalité reste invariante, ce qui garantit un résultat de prédiction correct. Cependant, la plupart, sinon la totalité, des travaux existants sur la rationalisation des données de graphes développent leurs stratégies d'intervention au niveau du graphe, ce qui est grossier. Dans cet article, nous proposons des stratégies d'intervention bien adaptées aux données de graphes. Notre idée est motivée par le développement des modèles Transformer, dont le module d'auto-attention fournit des interactions riches entre les nœuds d'entrée. Basé sur le module d'auto-attention, notre Transformer de graphe invariant (IGT) proposé peut réaliser une intervention fine, plus spécifiquement au niveau des nœuds et des nœuds virtuels. Nos expériences approfondies portent sur 7 ensembles de données réels, et l'IGT proposé montre des avantages significatifs en termes de performance par rapport à 13 méthodes de référence.
Les récents progrès en rendu neuronal ont montré que, bien que lents, les modèles compacts implicites peuvent apprendre les géométries d'une scène et les apparences dépendantes de la vue à partir de multiples angles. Pour maintenir une empreinte mémoire aussi réduite tout en obtenant des temps d'inférence plus rapides, des travaux récents ont adopté des réseaux "échantillonneurs" qui sélectionnent de manière adaptative un petit sous-ensemble de points le long de chaque rayon dans les champs de radiance neuronaux implicites. Bien que ces méthodes permettent une réduction jusqu'à 10 fois du temps de rendu, elles souffrent encore d'une dégradation de qualité considérable par rapport au NeRF classique. En revanche, nous proposons ProNeRF, qui offre un compromis optimal entre empreinte mémoire (similaire à NeRF), vitesse (plus rapide que HyperReel) et qualité (meilleure que K-Planes). ProNeRF est équipé d'un nouveau réseau d'échantillonnage sensible à la projection (PAS) ainsi que d'une nouvelle stratégie d'entraînement pour l'exploration et l'exploitation des rayons, permettant un échantillonnage fin et efficace des particules. Notre ProNeRF atteint des métriques de pointe, étant 15 à 23 fois plus rapide avec un PSNR supérieur de 0,65 dB par rapport à NeRF et offrant un PSNR supérieur de 0,95 dB par rapport à la meilleure méthode basée sur un échantillonneur publiée, HyperReel. Notre stratégie d'entraînement d'exploration et d'exploitation permet à ProNeRF d'apprendre les distributions de couleur et de densité des scènes complètes tout en apprenant un échantillonnage efficace des rayons concentré sur les régions de plus haute densité. Nous fournissons des résultats expérimentaux approfondis qui soutiennent l'efficacité de notre méthode sur les ensembles de données largement adoptés de vues frontales et 360, respectivement LLFF et Blender.