Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLM) et les modèles vision-langage (VLM) ont démontré leur excellence dans de multiples tâches, telles que le raisonnement de bon sens. Bien que ces modèles soient puissants, ils ne sont pas ancrés dans le monde physique en 3D, qui implique des concepts plus riches tels que les relations spatiales, les affordances, la physique, la disposition, etc. Dans ce travail, nous proposons d'injecter le monde 3D dans les grands modèles de langage et d'introduire une toute nouvelle famille de LLM 3D. Plus précisément, les LLM 3D peuvent prendre en entrée des nuages de points 3D et leurs caractéristiques, et effectuer un ensemble diversifié de tâches liées à la 3D, y compris la description, la description dense, la réponse à des questions en 3D, la décomposition de tâches, l'ancrage en 3D, le dialogue assisté par la 3D, la navigation, etc. En utilisant trois types de mécanismes d'invite que nous avons conçus, nous avons pu collecter plus de 300 000 données 3D-langage couvrant ces tâches. Pour entraîner efficacement les LLM 3D, nous utilisons d'abord un extracteur de caractéristiques 3D qui obtient des caractéristiques 3D à partir d'images multi-vues rendues. Ensuite, nous utilisons des VLM 2D comme base pour entraîner nos LLM 3D. En introduisant un mécanisme de localisation 3D, les LLM 3D peuvent mieux capturer les informations spatiales en 3D. Les expériences sur ScanQA montrent que notre modèle surpasse les meilleures méthodes de référence par une large marge (par exemple, le score BLEU-1 dépasse le meilleur score actuel de 9 %). De plus, les expériences sur nos ensembles de données internes pour la description 3D, la composition de tâches et le dialogue assisté par la 3D montrent que notre modèle surpasse les VLM 2D. Des exemples qualitatifs montrent également que notre modèle peut effectuer plus de tâches que les LLM et VLM existants. Page du projet : https://vis-www.cs.umass.edu/3dllm/.
Les grands modèles de langage pré-entraînés (LLMs) ont récemment démontré une meilleure généralisation et efficacité d'échantillonnage dans la navigation web autonome. Cependant, les performances sur les sites web réels restent limitées par (1) l'ouverture du domaine, (2) la longueur de contexte restreinte, et (3) le manque de biais inductif sur le HTML. Nous présentons WebAgent, un agent piloté par un LLM capable d'accomplir des tâches sur des sites web réels en suivant des instructions en langage naturel. WebAgent planifie en décomposant les instructions en sous-instructions canoniques, résume les longs documents HTML en extraits pertinents pour la tâche, et interagit avec les sites web via des programmes Python générés à partir de ceux-ci. Nous concevons WebAgent avec Flan-U-PaLM pour la génération de code ancré, et HTML-T5, de nouveaux LLMs pré-entraînés pour les longs documents HTML utilisant des mécanismes d'attention locale et globale ainsi qu'un mélange d'objectifs de débruitage à long terme, pour la planification et la synthèse. Nous démontrons empiriquement que notre approche améliore le taux de réussite sur un site web réel de plus de 50%, et que HTML-T5 est le meilleur modèle pour résoudre les tâches basées sur le HTML ; atteignant un taux de réussite 14,9% supérieur au précédent état de l'art sur le benchmark de navigation web MiniWoB et une meilleure précision dans l'évaluation hors ligne de la planification des tâches.
Une frontière peu explorée de la génération et de l'édition d'images est la tâche d'interpolation entre deux images d'entrée, une fonctionnalité absente de tous les pipelines de génération d'images actuellement déployés. Nous soutenons qu'une telle fonctionnalité peut élargir les applications créatives de ces modèles, et proposons une méthode d'interpolation en zero-shot utilisant des modèles de diffusion latente. Nous appliquons l'interpolation dans l'espace latent à une séquence de niveaux de bruit décroissants, puis effectuons un débruitage conditionné sur des embeddings textuels interpolés dérivés de l'inversion textuelle et (optionnellement) des poses de sujets. Pour une plus grande cohérence, ou pour spécifier des critères supplémentaires, nous pouvons générer plusieurs candidats et utiliser CLIP pour sélectionner l'image de la plus haute qualité. Nous obtenons des interpolations convaincantes à travers diverses poses de sujets, styles d'images et contenus d'images, et montrons que les métriques quantitatives standard telles que le FID sont insuffisantes pour mesurer la qualité d'une interpolation. Le code et les données sont disponibles à l'adresse https://clintonjwang.github.io/interpolation.
Les grands modèles de langage ont démontré une grande flexibilité, étant capables de résoudre un large éventail de tâches génératives, telles que la synthèse de résumés et la réponse à des questions ouvertes. Dans cet article, nous étendons les capacités des LLM en y attachant directement un petit encodeur audio, leur permettant ainsi d'effectuer de la reconnaissance vocale. En préfixant directement une séquence d'embeddings audio aux embeddings de tokens textuels, le LLM peut être converti en un système de reconnaissance vocale automatique (ASR) et être utilisé exactement de la même manière que sa version textuelle. Les expériences sur Multilingual LibriSpeech (MLS) montrent que l'intégration d'un encodeur Conformer dans le modèle LLaMA-7B open source lui permet de surpasser les modèles de référence monolingues de 18 % et d'effectuer de la reconnaissance vocale multilingue, bien que LLaMA ait été principalement entraîné sur du texte en anglais. De plus, nous menons des études d'ablation pour examiner si le LLM peut être entièrement gelé pendant l'entraînement afin de préserver ses capacités d'origine, en augmentant la taille de l'encodeur audio et en augmentant le pas de l'encodeur audio pour générer moins d'embeddings. Les résultats de ces études montrent que la reconnaissance vocale multilingue est possible même lorsque le LLM est gelé ou lorsque des pas de presque 1 seconde sont utilisés dans l'encodeur audio, ouvrant ainsi la possibilité pour les LLM de traiter des enregistrements audio de longue durée.
Avec ChatGPT comme représentant, de nombreuses entreprises ont commencé à proposer des services basés sur des modèles de Transformers de grande taille. Cependant, l'utilisation de tels services entraîne inévitablement la fuite des requêtes des utilisateurs vers le fournisseur du modèle. Des études précédentes ont exploré l'inférence sécurisée pour les modèles de Transformers en utilisant le calcul multipartite sécurisé (MPC), où les paramètres du modèle et les requêtes des clients restent confidentiels. Malgré cela, ces cadres restent limités en termes de performance du modèle, d'efficacité et de déploiement. Pour surmonter ces limitations, nous proposons le cadre PUMA, permettant une inférence rapide et sécurisée des modèles de Transformers. Notre cadre conçoit des approximations de haute qualité pour des fonctions coûteuses, telles que GeLU et Softmax, réduisant significativement le coût de l'inférence sécurisée tout en préservant la performance du modèle. De plus, nous concevons des procédures sécurisées pour l'Embedding et le LayerNorm qui implémentent fidèlement les fonctionnalités souhaitées sans compromettre l'architecture des Transformers. PUMA est environ 2 fois plus rapide que le cadre MPC de pointe MPCFORMER (ICLR 2023) et offre une précision similaire aux modèles en texte clair sans ajustement fin (ce que les travaux précédents n'ont pas réussi à atteindre). Par ailleurs, PUMA peut évaluer LLaMA-7B en environ 5 minutes pour générer 1 token. À notre connaissance, c'est la première fois qu'un modèle de cette taille de paramètres peut être évalué sous MPC. PUMA a été rendu open-source dans le dépôt Github de SecretFlow-SPU.
Alors que les grands modèles de langage (LLM) accomplissent des tâches de plus en plus complexes, il devient plus difficile de vérifier l'exactitude et la sécurité de leur comportement. Une approche pour résoudre ce problème consiste à inciter les LLM à externaliser leur raisonnement, par exemple en leur faisant générer un raisonnement étape par étape lorsqu'ils répondent à une question (Chaîne de Pensée ; CoT). Ce raisonnement peut nous permettre de vérifier le processus que les modèles utilisent pour accomplir des tâches. Cependant, cette approche repose sur l'hypothèse que le raisonnement exprimé reflète fidèlement le raisonnement réel du modèle, ce qui n'est pas toujours le cas. Pour améliorer la fidélité du raisonnement CoT, nous faisons en sorte que les modèles génèrent un raisonnement en décomposant les questions en sous-questions. Les méthodes basées sur la décomposition obtiennent de solides performances sur les tâches de question-réponse, approchant parfois celles de la CoT tout en améliorant la fidélité du raisonnement exprimé par le modèle selon plusieurs métriques récemment proposées. En forçant le modèle à répondre à des sous-questions plus simples dans des contextes distincts, nous augmentons considérablement la fidélité du raisonnement généré par le modèle par rapport à la CoT, tout en conservant une partie des gains de performance de la CoT. Nos résultats montrent qu'il est possible d'améliorer la fidélité du raisonnement généré par les modèles ; des améliorations continues pourraient conduire à un raisonnement qui nous permette de vérifier l'exactitude et la sécurité du comportement des LLM.
Les modèles de langage modernes capturent un vaste corpus de connaissances factuelles. Cependant, certains faits peuvent être incorrectement induits ou devenir obsolètes avec le temps, entraînant des générations factuellement erronées. Cela a conduit au développement de diverses méthodes d'édition permettant de mettre à jour les faits encodés par le modèle. L'évaluation de ces méthodes s'est principalement concentrée sur la vérification de la réussite de l'injection d'un fait individuel, et sur le fait que les prédictions similaires pour d'autres sujets n'ont pas changé. Nous soutenons ici qu'une telle évaluation est limitée, car l'injection d'un seul fait (par exemple, « Jack Depp est le fils de Johnny Depp ») introduit un « effet d'ondulation » sous la forme de faits supplémentaires que le modèle doit mettre à jour (par exemple, « Jack Depp est le frère de Lily-Rose Depp »). Pour résoudre ce problème, nous proposons un nouvel ensemble de critères d'évaluation qui prennent en compte les implications d'une édition sur les faits connexes. En utilisant ces critères, nous construisons ensuite un benchmark diagnostique de 5 000 éditions factuelles, capturant une variété de types d'effets d'ondulation. Nous évaluons les méthodes d'édition les plus prometteuses sur ce benchmark, montrant que les méthodes actuelles échouent à introduire des changements cohérents dans les connaissances du modèle. De plus, nous constatons qu'une simple baseline d'édition en contexte obtient les meilleurs scores sur notre benchmark, suggérant une direction de recherche prometteuse pour l'édition de modèles.
Nous proposons le Reinforcement Learning from Contrast Distillation (RLCD), une méthode pour aligner les modèles de langage afin qu'ils suivent des principes de langage naturel sans utiliser de feedback humain. RLCD entraîne un modèle de préférence en utilisant des paires de préférences simulées contenant à la fois un exemple de haute qualité et un exemple de basse qualité, générés à l'aide de prompts contrastés positifs et négatifs. Le modèle de préférence est ensuite utilisé pour améliorer un modèle de langage de base non aligné via l'apprentissage par renforcement. Empiriquement, RLCD surpasse les bases de référence RLAIF (Bai et al., 2022b) et la distillation contextuelle (Huang et al., 2022) sur trois tâches d'alignement diverses—l'innocuité, l'utilité et la génération de synopsis—et sur les échelles de modèles 7B et 30B pour la simulation de données de préférence.
Cet article remet en question le paradigme bien établi pour la construction de réseaux tout-à-tout pour l'entraînement de modèles de langage à grande échelle (LLMs). Nous démontrons que les LLMs présentent un schéma de communication unique où seuls de petits groupes de GPU nécessitent une communication tout-à-tout à haut débit entre eux pour atteindre des performances d'entraînement quasi optimales. Entre ces groupes de GPU, la communication est insignifiante, sporadique et homogène. Nous proposons une nouvelle architecture réseau qui s'aligne étroitement sur les besoins de communication des LLMs. Notre architecture partitionne le cluster en ensembles de GPU interconnectés par des liaisons tout-à-tout à haut débit non bloquantes, que nous appelons domaines HB. Entre les domaines HB, le réseau ne connecte que les GPU ayant des besoins de communication. Nous appelons cette connexion une liaison "rail-only" et montrons que notre architecture proposée réduit le coût du réseau jusqu'à 75 % par rapport aux réseaux Clos tout-à-tout de pointe, sans compromettre les performances de l'entraînement des LLMs.
L'apprentissage auto-supervisé des représentations visuelles s'est principalement concentré sur l'apprentissage de caractéristiques de contenu, qui ne capturent ni le mouvement ni la localisation des objets, et se focalisent sur l'identification et la différenciation des objets dans les images et les vidéos. D'autre part, l'estimation du flux optique est une tâche qui n'implique pas la compréhension du contenu des images sur lesquelles elle est estimée. Nous unifions ces deux approches et introduisons MC-JEPA, une architecture prédictive à plongements conjoints et une méthode d'apprentissage auto-supervisé pour apprendre conjointement le flux optique et les caractéristiques de contenu au sein d'un encodeur partagé, démontrant que les deux objectifs associés ; l'objectif d'estimation du flux optique et l'objectif d'apprentissage auto-supervisé ; bénéficient l'un de l'autre et permettent ainsi d'apprendre des caractéristiques de contenu intégrant des informations de mouvement. L'approche proposée atteint des performances comparables aux benchmarks existants de flux optique non supervisé, ainsi qu'aux méthodes courantes d'apprentissage auto-supervisé sur des tâches en aval telles que la segmentation sémantique d'images et de vidéos.
Les modèles de type DETR ont considérablement amélioré les performances des détecteurs et ont même surpassé les modèles convolutionnels classiques. Cependant, le traitement égal de tous les tokens sans distinction entraîne une charge de calcul redondante dans la structure traditionnelle de l'encodeur. Les stratégies récentes de sparsification exploitent un sous-ensemble de tokens informatifs pour réduire la complexité de l'attention tout en maintenant les performances grâce à l'encodeur sparse. Mais ces méthodes ont tendance à s'appuyer sur des statistiques de modèle peu fiables. De plus, la simple réduction de la population de tokens nuit considérablement aux performances de détection, limitant ainsi l'application de ces modèles sparses. Nous proposons Focus-DETR, qui concentre l'attention sur les tokens les plus informatifs pour un meilleur compromis entre l'efficacité de calcul et la précision du modèle. Plus précisément, nous reconstruisons l'encodeur avec une double attention, qui inclut un mécanisme de notation des tokens prenant en compte à la fois la localisation et les informations sémantiques de catégorie des objets à partir de cartes de caractéristiques multi-échelles. Nous abandonnons efficacement les requêtes de fond et renforçons l'interaction sémantique des requêtes d'objets à granularité fine en fonction des scores. Par rapport aux détecteurs de type DETR sparse de pointe dans les mêmes conditions, notre Focus-DETR obtient une complexité comparable tout en atteignant 50,4 AP (+2,2) sur COCO. Le code est disponible à l'adresse https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR et https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.
La prévision d'activités à long terme constitue un problème de recherche particulièrement complexe, car elle nécessite de comprendre les relations temporelles entre les actions observées, ainsi que la variabilité et la complexité des activités humaines. Bien qu'elles s'appuient sur une supervision forte via des annotations humaines coûteuses, les approches de prévision de pointe généralisent souvent mal à des données non vues. Pour atténuer ce problème, nous proposons le **Multiscale Video Pretraining (MVP)**, une nouvelle approche d'apprentissage auto-supervisé qui apprend des représentations robustes pour la prévision en prédisant des représentations contextualisées de clips vidéo futurs sur plusieurs échelles temporelles. MVP repose sur notre observation que les actions dans les vidéos ont une nature multi-échelle, où les actions atomiques se produisent généralement à court terme, tandis que des actions plus complexes peuvent s'étendre sur des périodes plus longues. Nous comparons MVP aux approches d'apprentissage vidéo auto-supervisé de pointe sur des tâches de prévision à long terme, notamment l'anticipation d'actions à long terme et la prédiction de résumés vidéo. Nos expériences approfondies sur les ensembles de données Ego4D et Epic-Kitchens-55/100 montrent que MVP surpasse les méthodes de pointe avec des marges significatives. Notamment, MVP obtient un gain de performance relatif de plus de 20 % en précision pour la prévision de résumés vidéo par rapport aux méthodes existantes.