Articles de recherche en IA sélectionnés quotidiennement avec traductions
Ce document traite du besoin croissant de modèles de langage de grande taille (LLMs) efficaces sur les appareils mobiles, motivé par l'augmentation des coûts du cloud et les préoccupations liées à la latence. Nous nous concentrons sur la conception de LLMs de haute qualité avec moins d'un milliard de paramètres, un choix pratique pour le déploiement mobile. Contrairement à la croyance dominante qui met l'accent sur le rôle crucial des données et de la quantité de paramètres dans la détermination de la qualité du modèle, notre investigation souligne l'importance de l'architecture du modèle pour les LLMs à échelle inférieure au milliard. En exploitant des architectures profondes et étroites, couplées à des mécanismes de partage d'embeddings et d'attention par groupes de requêtes, nous établissons un réseau de base robuste dénommé MobileLLM, qui obtient une amélioration remarquable de 2,7%/4,3% en précision par rapport aux modèles de pointe précédents de 125M/350M. De plus, nous proposons une approche immédiate de partage de poids par blocs sans augmentation de la taille du modèle et avec seulement une surcharge de latence marginale. Les modèles résultants, dénommés MobileLLM-LS, démontrent une amélioration supplémentaire en précision de 0,7%/0,8% par rapport à MobileLLM 125M/350M. Par ailleurs, la famille de modèles MobileLLM montre des améliorations significatives par rapport aux modèles précédents inférieurs au milliard sur les benchmarks de chat, et démontre une précision proche de LLaMA-v2 7B dans les tâches d'appel d'API, mettant en évidence la capacité des petits modèles pour les cas d'utilisation courants sur appareil.
Nous présentons Genie, le premier environnement interactif génératif entraîné de manière non supervisée à partir de vidéos Internet non annotées. Le modèle peut être incité à générer une variété infinie de mondes virtuels contrôlables par des actions, décrits via du texte, des images synthétiques, des photographies, et même des esquisses. Avec 11 milliards de paramètres, Genie peut être considéré comme un modèle de monde fondateur. Il est composé d'un tokenizer vidéo spatiotemporel, d'un modèle de dynamique autoregressif, et d'un modèle d'action latente simple et évolutif. Genie permet aux utilisateurs d'interagir dans les environnements générés image par image, malgré un entraînement sans aucune étiquette d'action de référence ou autres exigences spécifiques au domaine typiquement présentes dans la littérature sur les modèles de monde. De plus, l'espace d'action latente appris facilite l'entraînement d'agents pour imiter des comportements à partir de vidéos inédites, ouvrant la voie à l'entraînement d'agents généralistes du futur.
Cet article étudie la radioactivité des textes générés par des LLM, c'est-à-dire la possibilité de détecter si de tels textes ont été utilisés comme données d'entraînement. Les méthodes conventionnelles telles que l'inférence d'appartenance peuvent réaliser cette détection avec un certain niveau de précision. Nous montrons que les données d'entraînement marquées par tatouage laissent des traces plus faciles à détecter et bien plus fiables que l'inférence d'appartenance. Nous établissons un lien entre le niveau de contamination, la robustesse du tatouage, sa proportion dans l'ensemble d'entraînement et le processus de fine-tuning. Nous démontrons notamment que l'entraînement sur des instructions synthétiques marquées peut être détecté avec une grande confiance (p-valeur < 1e-5) même lorsque seulement 5 % du texte d'entraînement est marqué. Ainsi, le tatouage des LLM, initialement conçu pour détecter les textes générés par machine, permet d'identifier facilement si les sorties d'un LLM marqué ont été utilisées pour fine-tuner un autre LLM.
Les méthodes récentes ont démontré que les modèles de langage de grande taille (LLMs) peuvent mieux résoudre des tâches de raisonnement lorsqu'ils sont encouragés à traiter d'abord les sous-tâches de la tâche principale. Dans cet article, nous concevons une stratégie similaire qui décompose les tâches de raisonnement en une phase de décomposition du problème et une phase de résolution du problème, et montrons que cette stratégie surpasse une solution en une seule étape. De plus, nous émettons l'hypothèse que la décomposition devrait être plus facile à distiller dans un modèle plus petit par rapport à la résolution du problème, car cette dernière nécessite de grandes quantités de connaissances spécifiques au domaine, tandis que la première ne nécessite que l'apprentissage de stratégies générales de résolution de problèmes. Nous proposons des méthodes pour distiller ces deux capacités et évaluons leur impact sur les résultats du raisonnement et le coût de l'inférence. Nous constatons que nous pouvons distiller la phase de décomposition du problème tout en obtenant une bonne généralisation à travers les tâches, les ensembles de données et les modèles. Cependant, il est plus difficile de distiller la capacité de résolution de problème sans perdre en performance, et le modèle distillé qui en résulte éprouve des difficultés à généraliser. Ces résultats indiquent qu'en utilisant des modèles de décomposition de problème plus petits et distillés en combinaison avec des LLMs de résolution de problème, nous pouvons réaliser un raisonnement avec une inférence rentable et une adaptation locale.
Dans ce travail, nous démontrons que le compromis entre taille et précision dans la quantification des réseaux de neurones peut être considérablement amélioré en augmentant la dimensionnalité de la quantification. Nous proposons la méthode GPTVQ, une nouvelle méthode rapide pour la quantification vectorielle (VQ) post-entraînement, qui s'adapte bien aux grands modèles de langage (LLMs). Notre méthode alterne la quantification d'une ou plusieurs colonnes avec des mises à jour des poids non quantifiés restants, en utilisant des informations provenant de la Hessienne de l'erreur quadratique moyenne (MSE) de reconstruction de la sortie par couche. Les codebooks de quantification sont initialisés à l'aide d'une version efficace et basée sur les données de l'algorithme EM. Les codebooks sont ensuite mis à jour et davantage compressés en utilisant la quantification entière et la compression basée sur la décomposition en valeurs singulières (SVD). GPTVQ établit un nouvel état de l'art dans les compromis taille vs précision sur une large gamme de LLMs tels que Llama-v2 et Mistral. De plus, notre méthode est efficace : sur un seul H100, il faut entre 3 et 11 heures pour traiter un modèle Llamav2-70B, selon le paramètre de quantification. Enfin, avec des mesures de temps sur appareil pour la décompression VQ sur un CPU mobile, nous montrons que la VQ conduit à une latence améliorée par rapport à l'utilisation d'un format entier 4 bits.
L'auto-attention est un composant essentiel des grands modèles de langage (LLM), mais constitue une source significative de latence lors de l'inférence pour les longues séquences. Dans les scénarios de service multi-locataires de LLM, le coût en calcul et en opérations mémoire de l'auto-attention peut être optimisé en exploitant la probabilité que plusieurs requêtes de LLM partagent des prompts système dans leurs préfixes. Dans cet article, nous présentons ChunkAttention, un module d'auto-attention conscient des préfixes, capable de détecter les préfixes de prompts correspondants à travers plusieurs requêtes et de partager leurs tenseurs clé/valeur en mémoire à l'exécution pour améliorer l'utilisation mémoire du cache KV. Cela est réalisé en divisant les tenseurs clé/valeur monolithiques en morceaux plus petits et en les structurant dans un arbre de préfixes auxiliaire. Par conséquent, sur la base du cache KV structuré en arbre de préfixes, nous concevons un noyau d'auto-attention efficace, où un algorithme de partition en deux phases est implémenté pour améliorer la localité des données lors du calcul de l'auto-attention en présence de prompts système partagés. Les expériences montrent que ChunkAttention peut accélérer le noyau d'auto-attention de 3,2 à 4,8 fois par rapport à l'implémentation de pointe, avec une longueur de prompt système variant de 1024 à 4096.
Cet article explore l'impact de l'extension des longueurs d'entrée sur les capacités des modèles de langage à grande échelle (LLMs). Malgré les avancées récentes des LLMs, la cohérence de leurs performances sur différentes longueurs d'entrée n'est pas bien comprise. Nous étudions cet aspect en introduisant un nouveau cadre de raisonnement par questions-réponses, spécialement conçu pour évaluer l'impact de la longueur d'entrée. Nous isolons l'effet de la longueur d'entrée en utilisant plusieurs versions du même échantillon, chacune étant étendue avec un remplissage de différentes longueurs, types et positions. Nos résultats montrent une dégradation notable des performances de raisonnement des LLMs à des longueurs d'entrée bien plus courtes que leur maximum technique. Nous montrons que cette tendance à la dégradation apparaît dans chaque version de notre ensemble de données, bien qu'à des intensités différentes. De plus, notre étude révèle que les métriques traditionnelles de perplexité ne corrèlent pas avec les performances des LLMs dans les tâches de raisonnement sur des entrées longues. Nous analysons nos résultats et identifions des modes d'échec qui peuvent servir de guides utiles pour les recherches futures, potentiellement en informant des stratégies pour remédier aux limitations observées dans les LLMs.
Les agents autonomes alimentés par des modèles de langage de grande taille (LLMs) ont suscité une attention significative dans la recherche. Cependant, exploiter pleinement le potentiel des LLMs pour des tâches basées sur des agents présente des défis inhérents en raison de la nature hétérogène des diverses sources de données comportant des trajectoires multi-tours. Dans cet article, nous présentons AgentOhana comme une solution complète pour relever ces défis. AgentOhana agrège les trajectoires d'agents provenant d'environnements distincts, couvrant un large éventail de scénarios. Il standardise et unifie méticuleusement ces trajectoires dans un format cohérent, simplifiant ainsi la création d'un chargeur de données générique optimisé pour l'entraînement des agents. En tirant parti de l'unification des données, notre pipeline d'entraînement maintient un équilibre entre les différentes sources de données et préserve l'aléatoire indépendant entre les appareils lors du partitionnement des ensembles de données et de l'entraînement des modèles. De plus, nous présentons xLAM-v0.1, un modèle d'action de grande taille conçu pour les agents d'IA, qui démontre des performances exceptionnelles sur divers benchmarks.
La génération conditionnelle de mouvements humains est un sujet important avec de nombreuses applications dans la réalité virtuelle, les jeux vidéo et la robotique. Alors que les travaux antérieurs se sont concentrés sur la génération de mouvements guidés par du texte, de la musique ou des scènes, ceux-ci aboutissent généralement à des mouvements isolés limités à de courtes durées. Nous abordons plutôt la génération de séquences longues et continues guidées par une série de descriptions textuelles variées. Dans ce contexte, nous présentons FlowMDM, le premier modèle basé sur la diffusion qui génère des compositions de mouvements humains (HMC) fluides sans aucune étape de post-traitement ou de débruitege redondante. Pour cela, nous introduisons les Blended Positional Encodings, une technique qui exploite à la fois les encodages positionnels absolus et relatifs dans la chaîne de débruitege. Plus précisément, la cohérence globale du mouvement est rétablie à l'étape absolue, tandis que des transitions fluides et réalistes sont construites à l'étape relative. En conséquence, nous obtenons des résultats de pointe en termes de précision, de réalisme et de fluidité sur les ensembles de données Babel et HumanML3D. FlowMDM excelle lorsqu'il est entraîné avec une seule description par séquence de mouvement grâce à son Pose-Centric Cross-ATtention, qui le rend robuste face à des descriptions textuelles variées au moment de l'inférence. Enfin, pour pallier les limites des métriques HMC existantes, nous proposons deux nouvelles métriques : le Peak Jerk et l'Area Under the Jerk, pour détecter les transitions abruptes.
Il existe un besoin croissant pour les modèles de langage à grande échelle (LLMs) d'utiliser efficacement des outils et des interfaces de programmation d'applications (APIs) externes afin de planifier et d'accomplir des tâches. Par conséquent, les méthodes permettant d'acquérir des quantités suffisantes de données d'entraînement et de test impliquant des appels à des outils ou des APIs suscitent un intérêt considérable. Deux axes de recherche se sont imposés comme les stratégies prédominantes pour relever ce défi. Le premier s'est concentré sur les techniques de génération de données synthétiques, tandis que le second a impliqué la curation de jeux de données adjacents à des tâches, qui peuvent être transformés en tâches basées sur des APIs ou des outils. Dans cet article, nous nous concentrons sur la tâche d'identification, de curation et de transformation de jeux de données existants, et introduisons API-BLEND, un vaste corpus destiné à l'entraînement et au test systématique de LLMs augmentés par des outils. Les jeux de données imitent des scénarios réels impliquant des tâches liées aux APIs, telles que la détection d'APIs ou d'outils, le remplissage de slots et l'ordonnancement des APIs détectées. Nous démontrons l'utilité du jeu de données API-BLEND à la fois pour l'entraînement et pour l'évaluation comparative.