Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLMs) entraînés sur des corpus de domaine général ont montré des résultats remarquables dans les tâches de traitement du langage naturel (NLP). Cependant, des recherches antérieures ont démontré que les LLMs entraînés à l'aide de corpus centrés sur un domaine spécifique obtiennent de meilleures performances sur des tâches spécialisées. Inspirés par cette observation cruciale, nous avons développé INDUS, une suite complète de LLMs spécialement conçus pour les domaines des sciences de la Terre, de la biologie, de la physique, de l'héliophysique, des sciences planétaires et de l'astrophysique, et entraînés à l'aide de corpus scientifiques soigneusement sélectionnés provenant de diverses sources de données. Cette suite de modèles comprend : (1) un modèle encodeur entraîné à l'aide d'un vocabulaire et de corpus spécifiques au domaine pour traiter les tâches de compréhension du langage naturel, (2) un modèle d'embedding de texte général basé sur l'apprentissage contrastif, entraîné à l'aide d'un ensemble diversifié de jeux de données provenant de multiples sources pour répondre aux tâches de recherche d'information, et (3) des versions plus petites de ces modèles créées à l'aide de techniques de distillation de connaissances pour répondre aux applications soumises à des contraintes de latence ou de ressources. Nous avons également créé trois nouveaux jeux de données de référence scientifiques, à savoir CLIMATE-CHANGE-NER (reconnaissance d'entités), NASA-QA (question-réponse extractive) et NASA-IR (recherche d'information), afin d'accélérer la recherche dans ces domaines multidisciplinaires. Enfin, nous montrons que nos modèles surpassent à la fois les encodeurs généralistes (RoBERTa) et les encodeurs spécifiques au domaine existants (SciBERT) sur ces nouvelles tâches ainsi que sur les tâches de référence existantes dans les domaines d'intérêt.
La consommation mémoire élevée constitue un goulot d'étranglement majeur pour le déploiement de modèles de langage à haut débit dans des applications réelles. Outre le grand nombre de paramètres, le cache clé-valeur (KV) pour le mécanisme d'attention dans l'architecture des transformateurs consomme une quantité significative de mémoire, en particulier lorsque le nombre de couches est important pour les modèles de langage profonds. Dans cet article, nous proposons une méthode novatrice qui ne calcule et ne met en cache que les KVs d'un petit nombre de couches, réduisant ainsi considérablement la consommation mémoire et améliorant le débit d'inférence. Nos expériences sur des modèles de langage volumineux montrent que notre méthode atteint un débit jusqu'à 26 fois supérieur à celui des transformeurs standards, tout en offrant des performances compétitives en modélisation du langage et dans les tâches en aval. De plus, notre méthode est orthogonale aux techniques existantes d'économie de mémoire pour les transformeurs, ce qui permet de l'intégrer facilement à notre modèle pour obtenir une amélioration supplémentaire de l'efficacité de l'inférence. Notre code est disponible à l'adresse https://github.com/whyNLP/LCKV.
Comprendre comment la performance des modèles de langage varie avec l'échelle est crucial pour l'établissement de benchmarks et le développement d'algorithmes. Les lois d'échelle constituent une approche pour acquérir cette compréhension, mais la nécessité d'entraîner des modèles à de nombreuses échelles différentes en a limité l'utilisation. Nous proposons une approche alternative, observationnelle, qui contourne l'entraînement des modèles et construit plutôt des lois d'échelle à partir d'environ 80 modèles disponibles publiquement. Construire une seule loi d'échelle à partir de plusieurs familles de modèles est complexe en raison des grandes variations dans leurs efficacités de calcul d'entraînement et leurs capacités. Cependant, nous montrons que ces variations sont cohérentes avec une loi d'échelle généralisée simple, où la performance des modèles de langage est fonction d'un espace de capacités de faible dimension, et où les familles de modèles ne varient que dans leur efficacité à convertir le calcul d'entraînement en capacités. En utilisant cette approche, nous démontrons la prévisibilité surprenante de phénomènes d'échelle complexes : nous montrons que plusieurs phénomènes émergents suivent un comportement lisse et sigmoïde et sont prévisibles à partir de petits modèles ; nous montrons que la performance d'agents de modèles comme GPT-4 peut être précisément prédite à partir de benchmarks non agentiques plus simples ; et nous montrons comment prédire l'impact d'interventions post-entraînement comme la Chaîne de Pensée et l'Auto-Cohérence à mesure que les capacités des modèles de langage continuent de s'améliorer.
Les études précédentes sur la compréhension de scènes 3D ont principalement développé des modèles spécialisés pour des tâches spécifiques ou nécessité un ajustement fin adapté à chaque tâche. Dans cette étude, nous proposons Grounded 3D-LLM, qui explore le potentiel des grands modèles multimodaux 3D (3D LMMs) pour consolider diverses tâches de vision 3D dans un cadre génératif unifié. Le modèle utilise des tokens de référence de scène comme des phrases nominales spéciales pour référencer des scènes 3D, permettant ainsi de gérer des séquences qui entrelacent des données 3D et textuelles. Il offre une approche naturelle pour traduire les tâches de vision 3D en formats langagiers en utilisant des modèles d'instructions spécifiques à chaque tâche. Pour faciliter l'utilisation des tokens de référence dans la modélisation langagière ultérieure, nous avons constitué des ensembles de données langagières ancrées à grande échelle qui offrent une correspondance plus fine entre la scène et le texte au niveau des phrases, en exploitant les étiquettes d'objets existantes. Par la suite, nous avons introduit le pré-entraînement contrastif langage-scène (CLASP) pour exploiter efficacement ces données, intégrant ainsi la vision 3D avec les modèles de langage. Notre évaluation exhaustive couvre des tâches ouvertes comme le sous-titrage dense et les questions-réponses 3D, ainsi que des tâches fermées telles que la détection d'objets et l'ancrage langagier. Les expériences menées sur plusieurs benchmarks 3D révèlent les performances de pointe et la large applicabilité de Grounded 3D-LLM. Le code et les ensembles de données seront publiés sur la page du projet : https://groundedscenellm.github.io/grounded_3d-llm.github.io.
Les modèles de langage de grande taille (LLMs) ont suscité un intérêt considérable dans le domaine du traitement automatique du langage naturel (TALN) en raison de leur large éventail d'applications. Cependant, l'entraînement de LLMs pour des langues autres que l'anglais présente des défis importants, notamment en raison de la difficulté à acquérir des corpus à grande échelle et les ressources informatiques nécessaires. Dans cet article, nous proposons ChatFlow, un LLM basé sur le transfert interlangue, pour relever ces défis et entraîner des modèles de langage chinois de grande taille de manière rentable. Nous utilisons un mélange de corpus chinois, anglais et parallèles pour entraîner continuellement le modèle LLaMA2, dans le but d'aligner les représentations interlangues et de faciliter le transfert de connaissances spécifiquement vers le modèle de langage chinois. De plus, nous employons un échantillonneur de données dynamique pour faire progressivement passer le modèle d'un pré-entraînement non supervisé à un affinage supervisé. Les résultats expérimentaux montrent que notre approche accélère la convergence du modèle et obtient des performances supérieures. Nous évaluons ChatFlow sur des benchmarks populaires en chinois et en anglais, et les résultats indiquent qu'il surpasse d'autres modèles chinois post-entraînés sur LLaMA-2-7B.