Articles de recherche en IA sélectionnés quotidiennement avec traductions
Ce travail présente une analyse de l'efficacité de l'utilisation de réseaux feed-forward peu profonds standards pour imiter le comportement du mécanisme d'attention dans le modèle Transformer original, une architecture de pointe pour les tâches de séquence à séquence. Nous remplaçons des éléments clés du mécanisme d'attention dans le Transformer par des réseaux feed-forward simples, entraînés en utilisant les composants originaux via la distillation de connaissances. Nos expériences, menées sur le jeu de données IWSLT2017, révèlent la capacité de ces "Transformers sans attention" à rivaliser avec les performances de l'architecture originale. Grâce à des études d'ablation rigoureuses et à des expérimentations avec différents types et tailles de réseaux de remplacement, nous offrons des insights qui soutiennent la viabilité de notre approche. Cela éclaire non seulement l'adaptabilité des réseaux feed-forward peu profonds dans l'émulation des mécanismes d'attention, mais souligne également leur potentiel à simplifier des architectures complexes pour les tâches de séquence à séquence.
Les modèles génératifs pour la synthèse d'objets 3D ont connu des avancées significatives grâce à l'intégration de connaissances a priori issues des modèles de diffusion 2D. Néanmoins, des défis persistent, notamment en ce qui concerne les incohérences géométriques multi-vues et les vitesses de génération lentes au sein des cadres existants de synthèse 3D. Cela peut être attribué à deux facteurs : premièrement, le manque de connaissances géométriques a priori abondantes dans l'optimisation, et deuxièmement, le problème d'enchevêtrement entre la géométrie et la texture dans les méthodes conventionnelles de génération 3D. En réponse, nous introduisons MetaDreamer, une approche d'optimisation en deux étapes qui exploite des connaissances a priori riches en 2D et 3D. Dans la première étape, nous nous concentrons sur l'optimisation de la représentation géométrique pour assurer la cohérence multi-vue et la précision des objets 3D. Dans la deuxième étape, nous affinons la géométrie et optimisons la texture, permettant ainsi d'obtenir un objet 3D plus raffiné. En exploitant respectivement les connaissances a priori 2D et 3D dans les deux étapes, nous atténuons efficacement l'interdépendance entre la géométrie et la texture. MetaDreamer établit des objectifs d'optimisation clairs pour chaque étape, ce qui permet de gagner un temps considérable dans le processus de génération 3D. En fin de compte, MetaDreamer peut générer des objets 3D de haute qualité à partir de prompts textuels en moins de 20 minutes, et à notre connaissance, il s'agit de la méthode de génération texte-à-3D la plus efficace. De plus, nous intégrons un contrôle par image dans le processus, améliorant ainsi la contrôlabilité de la génération 3D. Des preuves empiriques étendues confirment que notre méthode est non seulement très efficace, mais qu'elle atteint également un niveau de qualité qui se situe à l'avant-garde des techniques actuelles de génération 3D de pointe.
Dans ce travail, nous démontrons que les modèles génératifs texte-image peuvent être « inversés » pour évaluer leurs propres capacités de compréhension texte-image de manière entièrement automatisée. Notre méthode, appelée SelfEval, utilise le modèle génératif pour calculer la vraisemblance d'images réelles étant donné des prompts textuels, rendant ainsi le modèle génératif directement applicable à des tâches discriminatives. En utilisant SelfEval, nous réutilisons des jeux de données standard conçus pour évaluer les modèles discriminatifs multimodaux texte-image afin d'évaluer les modèles génératifs de manière fine : en mesurant leurs performances sur la liaison d'attributs, la reconnaissance de couleurs, le décompte, la reconnaissance de formes et la compréhension spatiale. À notre connaissance, SelfEval est la première métrique automatisée à montrer un degré élevé de concordance avec les évaluations humaines de référence pour mesurer la fidélité au texte, et ce sur plusieurs modèles et benchmarks. De plus, SelfEval nous permet d'évaluer les modèles génératifs sur des tâches complexes comme le score d'image Winoground, où ils démontrent des performances compétitives par rapport aux modèles discriminatifs. Nous mettons également en évidence les limites sévères des métriques automatisées standard telles que le CLIP-score pour mesurer la fidélité au texte sur des benchmarks comme DrawBench, et comment SelfEval contourne ces problèmes. Nous espérons que SelfEval permettra une évaluation automatisée facile et fiable pour les modèles de diffusion.
Bien que les transformeurs de vision (ViTs) offrent des performances évolutives, leurs coûts de calcul élevés (entraînement et inférence) compromettent leur position dans les applications industrielles. La quantification post-entraînement (PTQ), qui ajuste les ViTs avec un petit ensemble de données et les exécute dans un format à faible précision, résout bien le problème de coût mais entraîne malheureusement des baisses de performance plus importantes dans les cas de faible précision. Dans cet article, nous présentons I&S-ViT, une méthode novatrice qui régule la PTQ des ViTs de manière inclusive et stable. I&S-ViT identifie d'abord deux problèmes dans la PTQ des ViTs : (1) L'inefficacité de la quantification dans le quantificateur log2 couramment utilisé pour les activations post-Softmax ; (2) Un paysage de perte accidenté et amplifié dans la granularité de quantification grossière pour les activations post-LayerNorm. Ensuite, I&S-ViT résout ces problèmes en introduisant : (1) Un nouveau quantificateur shift-uniform-log2 (SULQ) qui intègre un mécanisme de décalage suivi d'une quantification uniforme pour obtenir à la fois une représentation inclusive du domaine et une approximation précise de la distribution ; (2) Une stratégie d'optimisation lisse en trois étapes (SOS) qui combine les avantages de la quantification par canal et par couche pour permettre un apprentissage stable. Des évaluations approfondies sur diverses tâches de vision confirment la supériorité d'I&S-ViT par rapport aux méthodes existantes de PTQ pour les ViTs, en particulier dans les scénarios de faible précision. Par exemple, I&S-ViT améliore les performances du ViT-B en 3 bits de manière impressionnante, avec une augmentation de 50,68 %.
Les grands modèles de langage (LLM) ont montré des améliorations considérables dans leurs capacités de raisonnement et de prise de décision, et peuvent engager des conversations naturelles avec les utilisateurs. De nombreux travaux récents cherchent à enrichir les assistants basés sur LLM avec des outils externes afin qu'ils puissent accéder à des informations privées ou actualisées et effectuer des actions au nom des utilisateurs. Pour mieux mesurer les performances de ces assistants, cet article présente ToolTalk, un benchmark composé d'intentions utilisateur complexes nécessitant une utilisation multi-étapes d'outils spécifiée à travers des dialogues. ToolTalk contient 28 outils regroupés en 7 plugins, et inclut une implémentation simulée complète de chaque outil, permettant une évaluation entièrement automatisée des assistants qui s'appuient sur des retours d'exécution. ToolTalk met également l'accent sur les outils qui affectent le monde extérieur plutôt que sur ceux uniquement destinés à référencer ou rechercher des informations. Nous évaluons GPT-3.5 et GPT-4 sur ToolTalk, obtenant des taux de réussite de 26 % et 50 % respectivement. Notre analyse des erreurs révèle trois catégories principales et suggère quelques pistes d'amélioration futures. Nous publions ToolTalk à l'adresse https://github.com/microsoft/ToolTalk.
Les politiques robotiques actuelles présentent des performances médiocres lorsqu'il s'agit de généraliser à des environnements nouveaux. Les retours correctifs humains constituent une forme de guidance cruciale pour permettre une telle généralisation. Cependant, s'adapter et apprendre à partir de corrections humaines en ligne est une entreprise non triviale : non seulement les robots doivent mémoriser les retours humains au fil du temps pour récupérer les bonnes informations dans de nouveaux contextes et réduire le taux d'intervention, mais ils doivent également être capables de répondre à des retours qui peuvent aller de corrections arbitraires concernant des préférences humaines de haut niveau à des ajustements de bas niveau des paramètres de compétences. Dans ce travail, nous présentons Distillation and Retrieval of Online Corrections (DROC), un système basé sur un modèle de langage de grande taille (LLM) capable de répondre à des formes arbitraires de retours langagiers, de distiller des connaissances généralisables à partir de corrections, et de récupérer des expériences passées pertinentes en se basant sur des similarités textuelles et visuelles pour améliorer les performances dans des contextes nouveaux. DROC est capable de répondre à une séquence de corrections langagières en ligne qui traitent des échecs à la fois dans les plans de tâches de haut niveau et dans les primitives de compétences de bas niveau. Nous démontrons que DROC distille efficacement les informations pertinentes à partir de la séquence de corrections en ligne dans une base de connaissances et récupère ces connaissances dans des contextes impliquant de nouvelles instances de tâches ou d'objets. DROC surpasse d'autres techniques qui génèrent directement du code robotique via des LLM en utilisant seulement la moitié du nombre total de corrections nécessaires lors du premier tour et nécessite peu ou pas de corrections après deux itérations. Nous présentons des résultats supplémentaires, des vidéos, des prompts et du code sur https://sites.google.com/stanford.edu/droc.