Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons LongLoRA, une approche de fine-tuning efficace qui étend les tailles de contexte des grands modèles de langage (LLMs) pré-entraînés, avec un coût de calcul limité. Typiquement, l'entraînement des LLMs avec de longues tailles de contexte est coûteux en calcul, nécessitant de nombreuses heures d'entraînement et des ressources GPU importantes. Par exemple, l'entraînement sur une longueur de contexte de 8192 nécessite 16 fois plus de coûts de calcul dans les couches d'auto-attention que pour une longueur de 2048. Dans cet article, nous accélérons l'extension de contexte des LLMs à deux niveaux. D'une part, bien qu'une attention globale dense soit nécessaire pendant l'inférence, le fine-tuning du modèle peut être effectué de manière efficace et efficiente grâce à une attention locale sparse. L'attention courte décalée proposée permet efficacement l'extension de contexte, entraînant des économies de calcul non négligeables tout en offrant des performances similaires au fine-tuning avec une attention classique. En particulier, elle peut être implémentée avec seulement deux lignes de code pendant l'entraînement, tout en étant optionnelle pendant l'inférence. D'autre part, nous revisitons le régime de fine-tuning efficace en paramètres pour l'expansion de contexte. Notamment, nous constatons que LoRA pour l'extension de contexte fonctionne bien sous la condition que l'embedding et la normalisation soient entraînables. LongLoRA démontre des résultats empiriques solides sur diverses tâches pour les modèles LLaMA2, de 7B/13B à 70B. LongLoRA adapte LLaMA2 7B d'un contexte de 4k à 100k, ou LLaMA2 70B à 32k sur une seule machine équipée de 8x A100. LongLoRA étend le contexte des modèles tout en conservant leurs architectures originales, et est compatible avec la plupart des techniques existantes, comme FlashAttention-2. De plus, pour rendre LongLoRA pratique, nous avons collecté un ensemble de données, LongQA, pour le fine-tuning supervisé. Il contient plus de 3 000 paires de questions-réponses à long contexte.
Transformer apparaît initialement dans le domaine du traitement du langage naturel avant d'être adapté à la vision par ordinateur, où il démontre des performances exceptionnelles dans les tâches visuelles. Cependant, récemment, le Réseau Rétentif (RetNet) a émergé comme une architecture susceptible de remplacer Transformer, attirant une attention considérable dans la communauté du NLP. Par conséquent, nous nous interrogeons sur la possibilité que l'application des idées de RetNet à la vision puisse également apporter des performances remarquables aux tâches visuelles. Pour répondre à cette question, nous combinons RetNet et Transformer pour proposer RMT. Inspiré par RetNet, RMT introduit une décroissance explicite dans le backbone visuel, intégrant des connaissances préalables liées aux distances spatiales au modèle de vision. Ce préalable spatial lié à la distance permet un contrôle explicite de la portée des tokens auxquels chaque token peut prêter attention. De plus, pour réduire le coût computationnel de la modélisation globale, nous décomposons ce processus de modélisation selon les deux axes de coordonnées de l'image. De nombreuses expériences ont démontré que notre RMT présente des performances exceptionnelles dans diverses tâches de vision par ordinateur. Par exemple, RMT atteint 84,1 % de précision Top1 sur ImageNet-1k en utilisant seulement 4,5G FLOPs. À notre connaissance, parmi tous les modèles, RMT atteint la plus haute précision Top1 lorsque les modèles sont de taille similaire et entraînés avec la même stratégie. De plus, RMT surpasse significativement les backbones visuels existants dans les tâches en aval telles que la détection d'objets, la segmentation d'instances et la segmentation sémantique. Notre travail est encore en cours.
Les modèles de langage génératifs de grande taille (LLMs) ont réalisé des avancées remarquables dans diverses tâches de traitement du langage naturel (NLP). Cependant, ces progrès ne se sont pas reflétés dans la tâche de traduction, en particulier pour les modèles de taille modérée (c'est-à-dire 7B ou 13B paramètres), qui restent en retard par rapport aux modèles de traduction supervisés classiques de type encodeur-décodeur. Des études précédentes ont tenté d'améliorer les capacités de traduction de ces LLMs modérés, mais leurs gains ont été limités. Dans cette étude, nous proposons une nouvelle approche de fine-tuning spécifiquement conçue pour la tâche de traduction, éliminant le besoin de données parallèles abondantes dont dépendent traditionnellement les modèles de traduction. Notre approche comprend deux étapes de fine-tuning : un fine-tuning initial sur des données monolingues suivi d'un fine-tuning ultérieur sur un petit ensemble de données parallèles de haute qualité. Nous présentons le LLM développé grâce à cette stratégie sous le nom de Advanced Language Model-based trAnslator (ALMA). Basé sur LLaMA-2 comme modèle sous-jacent, nos résultats montrent que le modèle peut atteindre une amélioration moyenne de plus de 12 points BLEU et 12 points COMET par rapport à ses performances en zero-shot sur 10 directions de traduction issues des jeux de test WMT'21 (2 directions) et WMT'22 (8 directions). La performance est nettement supérieure à tous les travaux antérieurs et même meilleure que le modèle NLLB-54B et GPT-3.5-text-davinci-003, avec seulement 7B ou 13B paramètres. Cette méthode établit les bases d'un nouveau paradigme d'entraînement en traduction automatique.
L'étude des interactions entre les humains et les grands modèles de langage (LLMs) dans des scénarios réels devient de plus en plus importante en raison de leur utilisation généralisée dans diverses applications. Dans cet article, nous présentons LMSYS-Chat-1M, un jeu de données à grande échelle contenant un million de conversations réelles avec 25 LLMs de pointe. Ce jeu de données est collecté à partir de 210 000 adresses IP uniques sur notre démonstration Vicuna et le site web Chatbot Arena. Nous offrons un aperçu du contenu du jeu de données, incluant son processus de curation, ses statistiques de base et la distribution des sujets, mettant en avant sa diversité, son originalité et son ampleur. Nous démontrons sa polyvalence à travers quatre cas d'utilisation : le développement de modèles de modération de contenu performants similaires à GPT-4, la création d'un benchmark de sécurité, l'entraînement de modèles de suivi d'instructions comparables à Vicuna, et la formulation de questions de benchmark complexes. Nous croyons que ce jeu de données constituera une ressource précieuse pour comprendre et faire progresser les capacités des LLMs. Le jeu de données est disponible publiquement à l'adresse suivante : https://huggingface.co/datasets/lmsys/lmsys-chat-1m.
Les grands modèles de langage (LLMs) ont repoussé les limites de la compréhension du langage naturel et ont démontré d'excellentes capacités de résolution de problèmes. Malgré ce succès remarquable, la plupart des LLMs open-source existants (\eg, LLaMA-2) restent loin d'être satisfaisants pour résoudre des problèmes mathématiques en raison des procédures de raisonnement complexes. Pour combler cette lacune, nous proposons MetaMath, un modèle de langage affiné spécialisé dans le raisonnement mathématique. Plus précisément, nous commençons par amorcer des questions mathématiques en reformulant la question sous plusieurs angles sans connaissances supplémentaires, ce qui aboutit à un nouveau jeu de données appelé {MetaMathQA}. Ensuite, nous affinons les modèles LLaMA-2 sur MetaMathQA. Les résultats expérimentaux sur deux benchmarks populaires (\ie, GSM8K et MATH) pour le raisonnement mathématique montrent que MetaMath surpasse de manière significative une série de LLMs open-source. Notre modèle MetaMath-7B atteint 66,4% sur GSM8K et 19,4% sur MATH, dépassant les modèles de pointe de même taille de 11,5% et 8,7%. En particulier, {MetaMath-70B} atteint une précision de 82,3% sur {GSM8K}, légèrement supérieure à {GPT-3.5-Turbo}. Nous rendons publics le jeu de données {MetaMathQA}, les modèles {MetaMath} de différentes tailles et le code d'entraînement pour un usage public.
L'ancrage visuel 3D est une compétence essentielle pour les robots domestiques, leur permettant de naviguer, manipuler des objets et répondre à des questions en fonction de leur environnement. Alors que les approches existantes reposent souvent sur des données étiquetées massives ou présentent des limites dans la gestion de requêtes linguistiques complexes, nous proposons LLM-Grounder, un nouveau pipeline d'ancrage visuel 3D basé sur un modèle de langage de grande taille (LLM), fonctionnant en mode zéro-shot et à vocabulaire ouvert. LLM-Grounder utilise un LLM pour décomposer les requêtes en langage naturel complexes en constituants sémantiques et emploie un outil d'ancrage visuel, tel qu'OpenScene ou LERF, pour identifier les objets dans une scène 3D. Le LLM évalue ensuite les relations spatiales et de bon sens entre les objets proposés pour prendre une décision finale d'ancrage. Notre méthode ne nécessite aucune donnée d'entraînement étiquetée et peut généraliser à de nouvelles scènes 3D et à des requêtes textuelles arbitraires. Nous évaluons LLM-Grounder sur le benchmark ScanRefer et démontrons une précision d'ancrage zéro-shot de pointe. Nos résultats indiquent que les LLM améliorent significativement la capacité d'ancrage, en particulier pour les requêtes linguistiques complexes, faisant de LLM-Grounder une approche efficace pour les tâches vision-langage 3D en robotique. Des vidéos et des démonstrations interactives sont disponibles sur le site du projet : https://chat-with-nerf.github.io/.
Dans ce travail, nous présentons Boolformer, la première architecture Transformer entraînée à effectuer une régression symbolique de bout en bout de fonctions booléennes. Tout d'abord, nous montrons qu'elle peut prédire des formules compactes pour des fonctions complexes qui n'ont pas été vues pendant l'entraînement, lorsqu'elle est fournie avec une table de vérité propre. Ensuite, nous démontrons sa capacité à trouver des expressions approximatives lorsqu'elle est confrontée à des observations incomplètes et bruitées. Nous évaluons Boolformer sur un large ensemble de jeux de données de classification binaire issus du monde réel, mettant en évidence son potentiel en tant qu'alternative interprétable aux méthodes classiques d'apprentissage automatique. Enfin, nous l'appliquons à la tâche répandue de modélisation de la dynamique des réseaux de régulation génétique. En utilisant un benchmark récent, nous montrons que Boolformer est compétitif avec les algorithmes génétiques de pointe, tout en offrant une accélération de plusieurs ordres de grandeur. Notre code et nos modèles sont disponibles publiquement.
Nous présentons le modèle de langage Bittensor, appelé "BTLM-3B-8K", un nouveau modèle de langage open-source de pointe comptant 3 milliards de paramètres. BTLM-3B-8K a été entraîné sur 627 milliards de tokens provenant du jeu de données SlimPajama, avec un mélange de longueurs de contexte de 2 048 et 8 192. BTLM-3B-8K surpasse tous les modèles existants de 3 milliards de paramètres de 2 à 5,5 % sur diverses tâches en aval. BTLM-3B-8K est même compétitif avec certains modèles de 7 milliards de paramètres. De plus, BTLM-3B-8K offre d'excellentes performances sur des contextes longs, surpassant MPT-7B-8K et XGen-7B-8K sur des tâches allant jusqu'à une longueur de contexte de 8 192. Nous avons entraîné le modèle sur une version nettoyée et dédupliquée du jeu de données SlimPajama ; avons optimisé de manière agressive les hyperparamètres et le calendrier de \textmu P ; avons utilisé les embeddings de position ALiBi ; et avons adopté la non-linéarité SwiGLU. Sur Hugging Face, les modèles les plus populaires ont 7 milliards de paramètres, ce qui indique que les utilisateurs privilégient le rapport qualité-taille des modèles de 7 milliards de paramètres. Compacter un modèle de 7 milliards de paramètres à un modèle de 3 milliards de paramètres, avec un impact minimal sur les performances, constitue une étape importante. BTLM-3B-8K nécessite seulement 3 Go de mémoire avec une précision de 4 bits et utilise 2,5 fois moins de calcul pour l'inférence que les modèles de 7 milliards de paramètres, ce qui contribue à rendre accessible un modèle de langage puissant sur les appareils mobiles et de périphérie. BTLM-3B-8K est disponible sous licence Apache 2.0 sur Hugging Face : https://huggingface.co/cerebras/btlm-3b-8k-base.