Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Jamba, un nouveau modèle de langage de base de grande taille, basé sur une architecture hybride novatrice combinant Transformer et Mamba avec un mécanisme de mixture d'experts (MoE). Plus précisément, Jamba entrelace des blocs de couches Transformer et Mamba, bénéficiant ainsi des avantages des deux familles de modèles. Le MoE est ajouté à certaines de ces couches pour augmenter la capacité du modèle tout en gardant l'utilisation des paramètres actifs gérable. Cette architecture flexible permet des configurations adaptées aux ressources et aux objectifs spécifiques. Dans la configuration particulière que nous avons implémentée, nous obtenons un modèle puissant qui tient sur un seul GPU de 80 Go. Conçu à grande échelle, Jamba offre un débit élevé et une empreinte mémoire réduite par rapport aux Transformers classiques, tout en atteignant des performances de pointe sur les benchmarks standards de modèles de langage et les évaluations de contexte long. De manière remarquable, le modèle présente des résultats solides pour des contextes allant jusqu'à 256 000 tokens. Nous étudions diverses décisions architecturales, telles que la manière de combiner les couches Transformer et Mamba, et la façon de mélanger les experts, et montrons que certaines d'entre elles sont cruciales pour la modélisation à grande échelle. Nous décrivons également plusieurs propriétés intéressantes de ces architectures que l'entraînement et l'évaluation de Jamba ont révélées, et prévoyons de publier des points de contrôle issus de diverses expériences d'ablation, afin d'encourager l'exploration approfondie de cette architecture novatrice. Nous rendons les poids de notre implémentation de Jamba disponibles publiquement sous une licence permissive.
Nous présentons Gecko, un modèle d'incorporation de texte compact et polyvalent. Gecko atteint des performances de recherche solides en exploitant une idée clé : la distillation de connaissances à partir de modèles de langage de grande taille (LLMs) vers un système de recherche. Notre processus de distillation en deux étapes commence par la génération de données synthétiques et diversifiées à l'aide d'un LLM. Ensuite, nous affinons davantage la qualité des données en récupérant un ensemble de passages candidats pour chaque requête, puis en réétiquetant les passages positifs et les négatifs difficiles en utilisant le même LLM. L'efficacité de notre approche est démontrée par la compacité de Gecko. Sur le benchmark Massive Text Embedding (MTEB), Gecko avec 256 dimensions d'incorporation surpasse toutes les entrées existantes avec une taille d'incorporation de 768. Gecko avec 768 dimensions d'incorporation atteint un score moyen de 66,31, rivalisant avec des modèles 7 fois plus grands et des incorporations 5 fois plus dimensionnées.
Le modèle de langage de grande taille (LLM) est largement utilisé pour des tâches telles que les assistants intelligents, la synthèse de texte, la traduction et le traitement multimodal sur les téléphones portables. Cependant, les méthodes actuelles de déploiement des LLM sur appareil maintiennent une vitesse d'inférence lente, ce qui entraîne une mauvaise expérience utilisateur. Pour faciliter un déploiement efficace des LLM sur les GPU des appareils, nous proposons quatre techniques d'optimisation : (a) une approche basée sur des expressions symboliques pour prendre en charge l'inférence de modèles à forme dynamique ; (b) des optimisations d'opérateurs et la définition de priorités d'exécution pour améliorer la vitesse d'inférence et réduire les ralentissements du téléphone ; (c) une méthode de quantification FP4 appelée M0E4 pour réduire la surcharge de déquantification ; (d) une technique basée sur les sous-tenseurs pour éliminer la nécessité de copier le cache KV après l'inférence du LLM. De plus, nous implémentons ces méthodes dans notre moteur d'inférence mobile, Transformer-Lite, qui est compatible avec les processeurs Qualcomm et MTK. Nous avons évalué les performances de Transformer-Lite en utilisant des LLM avec des architectures et des paramètres variés allant de 2B à 14B. Plus précisément, nous avons atteint des vitesses de préremplissage et de décodage de 121 token/s et 14 token/s pour ChatGLM2 6B, et de 330 token/s et 30 token/s pour le plus petit Gemma 2B, respectivement. Par rapport à FastLLM basé sur CPU et MLC-LLM basé sur GPU, notre moteur obtient une accélération de plus de 10x pour la vitesse de préremplissage et de 2 à 3x pour la vitesse de décodage.
La résolution de référence est un problème important, essentiel pour comprendre et gérer avec succès des contextes de différentes natures. Ce contexte inclut à la fois les tours de parole précédents et des éléments contextuels non conversationnels, tels que les entités présentes à l'écran de l'utilisateur ou celles fonctionnant en arrière-plan. Bien que les modèles de langage de grande taille (LLMs) aient démontré leur puissance pour une variété de tâches, leur utilisation dans la résolution de références, en particulier pour les entités non conversationnelles, reste sous-exploitée. Cet article montre comment les LLMs peuvent être utilisés pour créer un système extrêmement efficace pour résoudre des références de divers types, en expliquant comment la résolution de référence peut être transformée en un problème de modélisation du langage, malgré l'implication d'entités comme celles à l'écran qui ne se prêtent traditionnellement pas à une réduction à une modalité textuelle uniquement. Nous démontrons des améliorations significatives par rapport à un système existant ayant une fonctionnalité similaire, pour différents types de références, avec notre plus petit modèle obtenant des gains absolus de plus de 5 % pour les références à l'écran. Nous comparons également nos résultats à ceux de GPT-3.5 et GPT-4, notre plus petit modèle atteignant des performances comparables à celles de GPT-4, tandis que nos modèles plus grands surpassent nettement ce dernier.
Alors que la synthèse de nouvelles vues (NVS) a réalisé des progrès substantiels en vision par ordinateur 3D, elle nécessite généralement une estimation initiale des paramètres intrinsèques et extrinsèques de la caméra à partir de points de vue denses. Ce prétraitement est généralement effectué via un pipeline de Structure-from-Motion (SfM), une procédure qui peut être lente et peu fiable, en particulier dans des scénarios à vues éparses avec des caractéristiques correspondantes insuffisantes pour une reconstruction précise. Dans ce travail, nous intégrons les forces des représentations basées sur des points (par exemple, 3D Gaussian Splatting, 3D-GS) avec des modèles de stéréo dense de bout en bout (DUSt3R) pour aborder les problèmes complexes et non résolus de la NVS dans des contextes non contraints, qui englobent les défis de poses libres et de vues éparses. Notre framework, InstantSplat, unifie les a priori de stéréo dense avec la 3D-GS pour construire des Gaussiennes 3D de scènes à grande échelle à partir d'images à vues éparses et sans pose en moins d'une minute. Plus précisément, InstantSplat comprend un module d'Initialisation Géométrique Grossière (CGI) qui établit rapidement une structure de scène préliminaire et des paramètres de caméra pour toutes les vues d'entraînement, en utilisant des cartes de points 3D alignées globalement dérivées d'un pipeline de stéréo dense pré-entraîné. Ceci est suivi par le module d'Optimisation Rapide de Gaussiennes 3D (F-3DGO), qui optimise conjointement les attributs des Gaussiennes 3D et les poses initialisées avec une régularisation de pose. Les expériences menées sur les ensembles de données extérieurs à grande échelle Tanks & Temples démontrent qu'InstantSplat améliore significativement le SSIM (de 32%) tout en réduisant simultanément l'Erreur Absolue de Trajectoire (ATE) de 80%. Ces résultats établissent InstantSplat comme une solution viable pour les scénarios impliquant des conditions sans pose et à vues éparses. Page du projet : instantsplat.github.io.
Cet article présente un défi nouveau et significatif pour les modèles de vision et langage (VLMs), intitulé Détection de Problèmes Insolubles (Unsovable Problem Detection, UPD). L'UPD examine la capacité d'un VLM à s'abstenir de répondre lorsqu'il est confronté à des problèmes insolubles dans le cadre de tâches de Question-Réponse Visuelle (Visual Question Answering, VQA). L'UPD englobe trois configurations distinctes : la Détection de Réponse Absente (Absent Answer Detection, AAD), la Détection d'Ensemble de Réponses Incompatibles (Incompatible Answer Set Detection, IASD) et la Détection de Questions Visuelles Incompatibles (Incompatible Visual Question Detection, IVQD). Pour approfondir l'étude du problème de l'UPD, des expériences approfondies montrent que la plupart des VLMs, y compris GPT-4V et LLaVA-Next-34B, peinent à répondre à nos benchmarks à des degrés divers, révélant ainsi une marge d'amélioration significative. Pour aborder l'UPD, nous explorons des solutions sans entraînement et basées sur l'entraînement, offrant de nouvelles perspectives sur leur efficacité et leurs limites. Nous espérons que nos insights, ainsi que les efforts futurs dans les cadres proposés de l'UPD, contribueront à une meilleure compréhension et au développement de VLMs plus pratiques et fiables.
Pouvons-nous localiser les poids et mécanismes utilisés par un modèle de langage pour mémoriser et réciter des paragraphes entiers de ses données d'entraînement ? Dans cet article, nous montrons que bien que la mémorisation soit répartie sur plusieurs couches et composants du modèle, les gradients des paragraphes mémorisés présentent un motif spatial distinct, étant plus importants dans les couches inférieures du modèle que les gradients des exemples non mémorisés. De plus, les exemples mémorisés peuvent être désappris en affinant uniquement les poids à fort gradient. Nous localisons une tête d'attention dans une couche inférieure qui semble particulièrement impliquée dans la mémorisation de paragraphes. Cette tête concentre principalement son attention sur des tokens distinctifs et rares qui sont les moins fréquents dans une distribution unigramme au niveau du corpus. Ensuite, nous étudions à quel point la mémorisation est localisée sur les tokens du préfixe en perturbant ces tokens et en mesurant le changement induit dans le décodage. Quelques tokens distinctifs au début d'un préfixe peuvent souvent corrompre toute la continuation. Globalement, les continuations mémorisées sont non seulement plus difficiles à désapprendre, mais aussi à corrompre que celles qui ne sont pas mémorisées.
Dans un effort pour réduire la charge computationnelle des Transformers, la recherche sur l'attention linéaire a gagné un élan significatif. Cependant, les stratégies d'amélioration des mécanismes d'attention nécessitent généralement un réentraînement approfondi, ce qui est peu pratique pour les grands modèles de langage dotés d'un vaste ensemble de paramètres. Dans cet article, nous présentons DiJiang, une nouvelle approche de Kernelisation dans le domaine fréquentiel qui permet de transformer un Transformer pré-entraîné standard en un modèle à complexité linéaire avec des coûts d'entraînement minimes. En employant une méthode de Quasi-Monte Carlo pondérée pour l'échantillonnage, l'approche proposée offre théoriquement une efficacité d'approximation supérieure. Pour réduire davantage la complexité computationnelle de l'entraînement, notre kernelisation repose sur des opérations de Transformée en Cosinus Discrète (DCT). Des expériences approfondies démontrent que la méthode proposée atteint des performances comparables à celles du Transformer original, mais avec des coûts d'entraînement significativement réduits et des vitesses d'inférence bien plus rapides. Notre DiJiang-7B obtient des performances comparables à celles de LLaMA2-7B sur divers benchmarks tout en nécessitant seulement environ 1/50 du coût d'entraînement. Le code est disponible à l'adresse https://github.com/YuchuanTian/DiJiang.
Les récents progrès en apprentissage profond ont principalement reposé sur les Transformers en raison de leur dépendance aux données et de leur capacité à apprendre à grande échelle. Cependant, le module d'attention dans ces architectures présente une complexité quadratique en temps et en espace par rapport à la taille de l'entrée, limitant ainsi leur évolutivité pour la modélisation de longues séquences. Malgré les tentatives récentes de concevoir des architectures efficaces et performantes pour les données multidimensionnelles, telles que les images et les séries temporelles multivariées, les modèles existants sont soit indépendants des données, soit incapables de permettre une communication inter et intra-dimensionnelle. Récemment, les modèles à espace d'états (SSMs), et plus spécifiquement les modèles à espace d'états sélectifs, avec une implémentation optimisée pour le matériel, ont montré un potentiel prometteur pour la modélisation de longues séquences. Motivés par le succès des SSMs, nous présentons MambaMixer, une nouvelle architecture avec des poids dépendants des données qui utilise un mécanisme de sélection dual à travers les tokens et les canaux, appelé Sélecteur de Tokens et de Canaux. MambaMixer connecte des mélangeurs sélectifs en utilisant un mécanisme de moyenne pondérée, permettant aux couches d'accéder directement aux caractéristiques initiales. À titre de preuve de concept, nous concevons les architectures Vision MambaMixer (ViM2) et Time Series MambaMixer (TSM2) basées sur le bloc MambaMixer et explorons leurs performances dans diverses tâches de vision et de prévision de séries temporelles. Nos résultats soulignent l'importance du mélange sélectif à la fois des tokens et des canaux. Dans les tâches de classification ImageNet, de détection d'objets et de segmentation sémantique, ViM2 atteint des performances compétitives par rapport aux modèles de vision bien établis et surpasse les modèles de vision basés sur les SSMs. Dans la prévision de séries temporelles, TSM2 obtient des performances exceptionnelles par rapport aux méthodes de pointe tout en démontrant une amélioration significative du coût computationnel. Ces résultats montrent que bien que les Transformers, l'attention inter-canaux et les MLPs soient suffisants pour de bonnes performances en prévision de séries temporelles, aucun n'est nécessaire.
Le toucher et la vision vont de pair, se renforçant mutuellement pour améliorer notre compréhension du monde. D'un point de vue recherche, le problème de combiner le toucher et la vision est peu exploré et présente des défis intéressants. À cette fin, nous proposons Tactile-Informed 3DGS, une approche novatrice qui intègre des données tactiles (cartes de profondeur locales) avec des données visuelles multi-vues pour réaliser la reconstruction de surface et la synthèse de nouvelles vues. Notre méthode optimise des primitives gaussiennes 3D pour modéliser avec précision la géométrie de l'objet aux points de contact. En créant un cadre qui réduit la transmittance aux emplacements tactiles, nous obtenons une reconstruction de surface affinée, garantissant une carte de profondeur uniformément lisse. Le toucher est particulièrement utile pour les objets non lambertiens (par exemple, les surfaces brillantes ou réfléchissantes), car les méthodes contemporaines échouent souvent à reconstruire fidèlement les reflets spéculaires. En combinant la vision et la perception tactile, nous obtenons des reconstructions géométriques plus précises avec moins d'images que les méthodes précédentes. Nous évaluons notre approche sur des objets à surfaces brillantes et réfléchissantes et démontrons son efficacité, offrant des améliorations significatives dans la qualité de la reconstruction.