Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Mixtral 8x7B, un modèle de langage à mélange parcimonieux d'experts (Sparse Mixture of Experts, SMoE). Mixtral possède la même architecture que Mistral 7B, à la différence près que chaque couche est composée de 8 blocs de traitement feedforward (c'est-à-dire des experts). Pour chaque token, à chaque couche, un réseau de routage sélectionne deux experts pour traiter l'état actuel et combine leurs sorties. Bien que chaque token ne voie que deux experts, les experts sélectionnés peuvent varier à chaque pas de temps. Par conséquent, chaque token a accès à 47 milliards de paramètres, mais n'utilise que 13 milliards de paramètres actifs lors de l'inférence. Mixtral a été entraîné avec une taille de contexte de 32 000 tokens et surpasse ou égale Llama 2 70B et GPT-3.5 sur tous les benchmarks évalués. En particulier, Mixtral surpasse largement Llama 2 70B dans les domaines des mathématiques, de la génération de code et des benchmarks multilingues. Nous proposons également un modèle affiné pour suivre des instructions, Mixtral 8x7B - Instruct, qui dépasse GPT-3.5 Turbo, Claude-2.1, Gemini Pro et le modèle de chat Llama 2 70B sur les benchmarks humains. Les modèles de base et d'instruction sont tous deux publiés sous licence Apache 2.0.
Les modèles à espace d'états (State Space Models, SSMs) sont devenus des concurrents sérieux dans le domaine de la modélisation séquentielle, remettant en question la domination des Transformers. Parallèlement, le mélange d'experts (Mixture of Experts, MoE) a considérablement amélioré les modèles de langage basés sur les Transformers, y compris les modèles open-source récents les plus performants. Nous proposons que pour libérer le potentiel des SSMs en termes de scalabilité, ils devraient être combinés avec le MoE. Nous illustrons cela avec Mamba, un modèle récent basé sur les SSMs qui atteint des performances remarquables, similaires à celles des Transformers. Notre modèle, MoE-Mamba, surpasse à la fois Mamba et Transformer-MoE. En particulier, MoE-Mamba atteint les mêmes performances que Mamba en 2,2 fois moins d'étapes d'entraînement tout en conservant les gains de performance en inférence de Mamba par rapport au Transformer.
Dans la recherche sur l'IA conversationnelle, on observe une tendance marquée vers le développement de modèles dotés d'un nombre croissant de paramètres, comme en témoignent des modèles tels que ChatGPT. Bien que ces modèles étendus tendent à générer des réponses de chat de plus en plus performantes, ils nécessitent des ressources computationnelles et une mémoire considérables. Cette étude explore une question pertinente : Une combinaison de modèles plus petits peut-elle collaborativement atteindre des performances comparables ou supérieures à celles d'un unique grand modèle ? Nous introduisons une approche appelée "blending", une méthode simple mais efficace pour intégrer plusieurs IA de chat. Nos preuves empiriques suggèrent que lorsque des modèles plus petits spécifiques sont combinés de manière synergique, ils peuvent potentiellement surpasser ou égaler les capacités de modèles beaucoup plus grands. Par exemple, l'intégration de seulement trois modèles de taille modérée (6B/13B paramètres) peut rivaliser ou même dépasser les indicateurs de performance d'un modèle nettement plus grand comme ChatGPT (175B+ paramètres). Cette hypothèse est rigoureusement testée à l'aide de méthodologies de test A/B avec une large base d'utilisateurs sur la plateforme de recherche Chai sur une période de trente jours. Les résultats soulignent le potentiel de la stratégie de "blending" comme une approche viable pour améliorer l'efficacité des IA de chat sans augmentation correspondante des demandes computationnelles.
L'utilisation de contextes longs représente un défi majeur pour les grands modèles de langage en raison de la longueur limitée de leur fenêtre contextuelle. Bien que cette fenêtre puisse être étendue par un ajustement fin, cela entraînerait un coût considérable tant au niveau de l'entraînement que de l'inférence, tout en ayant un impact défavorable sur les capacités originales du modèle. Dans ce travail, nous proposons **Activation Beacon**, qui condense les activations brutes du modèle en des formes plus compactes, permettant ainsi de percevoir un contexte beaucoup plus long avec une fenêtre contextuelle limitée. Activation Beacon est introduit comme un module plug-and-play pour le modèle. Il préserve entièrement les capacités originales du modèle sur des contextes courts tout en étendant ses nouvelles capacités pour traiter des contextes plus longs. De plus, il fonctionne avec des fenêtres glissantes courtes pour traiter le contexte long, ce qui permet d'atteindre une efficacité compétitive en termes de mémoire et de temps, tant à l'entraînement qu'à l'inférence. Activation Beacon est appris par une tâche d'autorégression conditionnée sur un mélange de balises avec des ratios de condensation diversifiés. Grâce à cette approche, il peut être efficacement entraîné uniquement avec des données de séquences courtes en seulement 10 000 étapes, ce qui consomme moins de 9 heures sur une machine équipée d'une seule carte GPU 8xA800. Les études expérimentales montrent qu'Activation Beacon est capable d'étendre la longueur contextuelle de Llama-2-7B par un facteur de 100 (de 4K à 400K), tout en obtenant des résultats supérieurs sur les tâches de génération et de compréhension de contextes longs. Notre modèle et notre code seront disponibles dans le dépôt BGE.
Malgré les récents progrès dans les méthodes de génération de texte-à-3D, il existe une absence notable de métriques d'évaluation fiables. Les métriques existantes se concentrent généralement sur un seul critère, comme la correspondance de l'asset avec le texte d'entrée. Ces métriques manquent de flexibilité pour s'adapter à différents critères d'évaluation et pourraient ne pas s'aligner sur les préférences humaines. La réalisation d'études de préférence utilisateur est une alternative qui offre à la fois adaptabilité et résultats alignés sur les humains. Cependant, les études utilisateur peuvent être très coûteuses à mettre à l'échelle. Cet article présente une métrique d'évaluation automatique, polyvalente et alignée sur les humains pour les modèles de génération de texte-à-3D. Pour ce faire, nous développons d'abord un générateur de prompts utilisant GPT-4V pour générer des prompts d'évaluation, qui servent d'entrée pour comparer les modèles de texte-à-3D. Nous concevons ensuite une méthode pour instruire GPT-4V à comparer deux assets 3D selon des critères définis par l'utilisateur. Enfin, nous utilisons ces résultats de comparaison par paires pour attribuer à ces modèles des classements Elo. Les résultats expérimentaux suggèrent que notre métrique s'aligne fortement avec les préférences humaines pour différents critères d'évaluation.
Dans cet article, nous présentons DiarizationLM, un cadre permettant d'exploiter les grands modèles de langage (LLM) pour post-traiter les sorties d'un système de diarisation des locuteurs. Divers objectifs peuvent être atteints avec ce cadre proposé, tels que l'amélioration de la lisibilité de la transcription diarisée ou la réduction du taux d'erreur de diarisation des mots (WDER). Dans ce cadre, les sorties des systèmes de reconnaissance automatique de la parole (ASR) et de diarisation des locuteurs sont représentées sous un format textuel compact, qui est inclus dans l'invite d'un LLM éventuellement affiné. Les sorties du LLM peuvent être utilisées comme résultats de diarisation raffinés avec l'amélioration souhaitée. En tant qu'étape de post-traitement, ce cadre peut être facilement appliqué à tout système ASR et de diarisation des locuteurs prêt à l'emploi sans avoir à réentraîner les composants existants. Nos expériences montrent qu'un modèle PaLM 2-S affiné peut réduire le WDER de 25,9 % en relatif sur le jeu de données de conversations téléphoniques Fisher, et de 31 % en relatif sur le jeu de données Callhome English.
Les grands modèles de langage (LLMs) ont réalisé des avancées significatives dans les tâches liées au code, mais de nombreux LLMs traitent le code comme de simples séquences, négligeant sa nature structurée. Nous présentons AST-T5, un nouveau paradigme de pré-entraînement qui exploite l'arbre de syntaxe abstraite (AST) pour améliorer la génération, la transpilation et la compréhension du code. Grâce à la programmation dynamique, notre segmentation consciente de l'AST préserve la structure du code, tandis que notre objectif de corruption de segments conscient de l'AST permet au modèle de reconstruire diverses structures de code. Contrairement à d'autres modèles, AST-T5 évite les analyses de programme complexes ou les modifications architecturales, ce qui lui permet de s'intégrer de manière transparente avec tout encodeur-décodeur Transformer. Les évaluations montrent qu'AST-T5 surpasse systématiquement les modèles de langage de taille similaire dans diverses tâches liées au code. La conscience de la structure rend AST-T5 particulièrement puissant dans les tâches de code-à-code, surpassant CodeT5 de 2 points en score de correspondance exacte pour la tâche Bugs2Fix et de 3 points en score de correspondance exacte pour la transpilation Java-C# dans CodeXGLUE. Notre code et notre modèle sont disponibles publiquement à l'adresse https://github.com/gonglinyuan/ast_t5.
Nous présentons CRUXEval (Évaluation du Raisonnement, de la Compréhension et de l'Exécution de Code), un benchmark composé de 800 fonctions Python (3 à 13 lignes). Chaque fonction est accompagnée d'une paire entrée-sortie, ce qui donne lieu à deux tâches naturelles : la prédiction d'entrée et la prédiction de sortie. Premièrement, nous proposons une recette générique pour générer notre benchmark d'exécution, qui peut être utilisée pour créer des variations futures du benchmark. Deuxièmement, nous évaluons vingt modèles de code sur notre benchmark et constatons que de nombreux modèles récents ayant obtenu des scores élevés sur HumanEval ne montrent pas les mêmes améliorations sur notre benchmark. Troisièmement, nous montrons que des schémas simples de raisonnement en chaîne (CoT) et de fine-tuning peuvent améliorer les performances sur notre benchmark, mais restent loin de le résoudre. La meilleure configuration, GPT-4 avec raisonnement en chaîne (CoT), atteint un pass@1 de 75 % et 81 % sur la prédiction d'entrée et de sortie, respectivement. En revanche, Code Llama 34B atteint un pass@1 de 50 % et 46 % sur la prédiction d'entrée et de sortie, mettant en évidence l'écart entre les modèles open source et propriétaires. Aucun modèle n'étant proche de maîtriser CRUXEval, nous fournissons des exemples d'échecs cohérents de GPT-4 sur des programmes simples comme une fenêtre sur ses capacités de raisonnement en code et les domaines à améliorer.
L'émergence des modèles pré-entraînés a eu un impact significatif, du traitement du langage naturel (NLP) et de la vision par ordinateur jusqu'aux ensembles de données relationnelles. Traditionnellement, ces modèles sont évalués à travers des tâches en aval après un affinage. Cependant, cela soulève la question de savoir comment évaluer ces modèles de manière plus efficace et plus efficiente. Dans cette étude, nous explorons une nouvelle approche où nous exploitons les méta-caractéristiques associées à chaque entité comme source de connaissances mondaines et utilisons les représentations d'entités issues des modèles. Nous proposons d'utiliser la cohérence entre ces représentations et les méta-caractéristiques comme métrique pour évaluer les modèles pré-entraînés. L'efficacité de notre méthode est démontrée dans divers domaines, incluant les modèles avec des ensembles de données relationnelles, les grands modèles de langage et les modèles d'images.
Face au besoin croissant de pipelines de création automatique de contenu 3D, diverses représentations 3D ont été étudiées pour générer des objets 3D à partir d'une seule image. En raison de leur efficacité de rendu supérieure, les modèles basés sur le splatting de Gaussiennes 3D ont récemment excellé à la fois en reconstruction et en génération 3D. Les approches de splatting de Gaussiennes 3D pour la génération d'images en 3D sont souvent basées sur l'optimisation, nécessitant de nombreuses étapes de distillation de scores coûteuses en calcul. Pour surmonter ces défis, nous introduisons un cadre génératif amorti de Gaussiennes 3D (AGG) qui produit instantanément des Gaussiennes 3D à partir d'une seule image, éliminant ainsi le besoin d'optimisation par instance. En utilisant une représentation hybride intermédiaire, AGG décompose la génération des positions des Gaussiennes 3D et d'autres attributs d'apparence pour une optimisation conjointe. De plus, nous proposons un pipeline en cascade qui génère d'abord une représentation grossière des données 3D, puis les suréchantillonne avec un module de super-résolution de Gaussiennes 3D. Notre méthode est évaluée par rapport aux cadres existants de Gaussiennes 3D basés sur l'optimisation et aux pipelines basés sur l'échantillonnage utilisant d'autres représentations 3D, où AGG démontre des capacités de génération compétitives à la fois qualitativement et quantitativement, tout en étant plusieurs ordres de grandeur plus rapide. Page du projet : https://ir1d.github.io/AGG/
Dans ce rapport technique, nous présentons TeleChat, une collection de grands modèles de langage (LLM) comportant respectivement 3 milliards, 7 milliards et 12 milliards de paramètres. Cela inclut des modèles de langage pré-entraînés ainsi que des modèles de conversation affinés, alignés sur les préférences humaines. TeleChat est initialement pré-entraîné sur un vaste corpus contenant une diversité de textes en anglais et en chinois, incluant des milliers de milliards de tokens. Par la suite, le modèle est affiné pour s'aligner sur les préférences humaines, suivant une méthodologie détaillée que nous décrivons. Nous évaluons les performances de TeleChat sur diverses tâches, notamment la compréhension du langage, les mathématiques, le raisonnement, la génération de code et la réponse à des questions basées sur des connaissances. Nos résultats indiquent que TeleChat atteint des performances comparables à d'autres modèles open-source de taille similaire sur un large éventail de benchmarks publics. Pour soutenir les recherches futures et les applications utilisant des LLM, nous mettons à disposition de la communauté publique les points de contrôle des modèles affinés des variantes 7B et 12B de TeleChat, ainsi que le code et une partie de nos données de pré-entraînement.