Articles de recherche en IA sélectionnés quotidiennement avec traductions
Récemment, un intérêt croissant s'est manifesté pour l'étude de la construction de meilleures données d'ajustement d'instructions de code. Cependant, nous observons que les modèles de code entraînés avec ces ensembles de données présentent de hautes performances sur HumanEval mais sont moins performants sur d'autres référentiels tels que LiveCodeBench. Après des investigations approfondies, nous constatons que de nombreux ensembles de données souffrent de fuites de données graves. Après avoir nettoyé la plupart des données divulguées, certains ensembles de données de haute qualité bien connus présentent de faibles performances. Cette découverte révèle un nouveau défi : identifier quels ensembles de données sont réellement qualifiés de données d'instructions de code de haute qualité. Pour résoudre ce problème, nous proposons une stratégie efficace de taille de données de code pour la sélection d'échantillons de qualité. Notre approche repose sur trois dimensions : la complexité de l'instruction, la qualité de la réponse et la diversité des instructions. Sur la base de nos données sélectionnées, nous présentons XCoder, une famille de modèles affinés à partir de LLaMA3. Nos expériences montrent que XCoder atteint de nouvelles performances de pointe en utilisant moins de données d'entraînement, ce qui confirme l'efficacité de notre stratégie de données. De plus, nous réalisons une analyse approfondie de la composition des données et constatons que les ensembles de données de code existants présentent différentes caractéristiques en fonction de leurs méthodes de construction, ce qui offre de nouvelles perspectives pour les futurs LLM de code. Nos modèles et ensembles de données sont disponibles sur https://github.com/banksy23/XCoder
Les progrès réalisés dans les LLM ont récemment révélé des défis liés à l'efficacité computationnelle et à la scalabilité continue en raison de leurs exigences en termes de paramètres massifs, rendant les applications et l'évolution de ces modèles sur des appareils avec des ressources de calcul limitées et des scénarios nécessitant diverses capacités de plus en plus complexes. Inspirés par la modularité du cerveau humain, il existe une tendance croissante à décomposer les LLM en de nombreux modules fonctionnels, permettant l'inférence avec une partie des modules et l'assemblage dynamique des modules pour aborder des tâches complexes, telles que le mélange d'experts. Pour mettre en avant l'efficacité inhérente et la composabilité de l'approche modulaire, nous introduisons le terme "brique" pour représenter chaque module fonctionnel, désignant la structure modularisée comme des modèles de base configurables. Dans cet article, nous offrons un aperçu complet et une analyse de la construction, de l'utilisation et des limites des modèles de base configurables. Nous formalisons d'abord les modules en briques émergentes - des partitions fonctionnelles de neurones qui émergent pendant la phase de pré-entraînement, et des briques personnalisées - des briques construites via un post-entraînement supplémentaire pour améliorer les capacités et les connaissances des LLM. Sur la base de diverses briques fonctionnelles, nous présentons ensuite quatre opérations orientées brique : la récupération et le routage, la fusion, la mise à jour et la croissance. Ces opérations permettent une configuration dynamique des LLM en fonction des instructions pour gérer des tâches complexes. Pour vérifier notre perspective, nous menons une analyse empirique sur des LLM largement utilisés. Nous constatons que les couches FFN suivent des schémas modulaires avec une spécialisation fonctionnelle des neurones et des partitions fonctionnelles de neurones. Enfin, nous mettons en lumière plusieurs problèmes ouverts et des orientations pour des recherches futures. Dans l'ensemble, cet article vise à offrir une perspective modulaire nouvelle sur la recherche existante sur les LLM et à inspirer la création future de modèles de base plus efficaces et évolutifs.
Nous présentons Open-MAGVIT2, une famille de modèles de génération d'images auto-régressifs allant de 300M à 1.5B. Le projet Open-MAGVIT2 produit une réplication open-source du tokenizer MAGVIT-v2 de Google, un tokenizer avec un super-grand carnet de codes (c'est-à-dire, 2^{18} codes), et atteint des performances de reconstruction de pointe (1.17 rFID) sur ImageNet 256 par 256. De plus, nous explorons son application dans des modèles auto-régressifs simples et validons ses propriétés de scalabilité. Pour aider les modèles auto-régressifs à prédire avec un vocabulaire super-grand, nous le factorisons en deux sous-vocabulaires de tailles différentes par une factorisation asymétrique des jetons, et introduisons également la "prédiction du prochain sous-jeton" pour améliorer l'interaction des sous-jetons en vue d'une meilleure qualité de génération. Nous mettons à disposition tous les modèles et codes pour favoriser l'innovation et la créativité dans le domaine de la génération visuelle auto-régressive.
Le mécanisme d'auto-attention globale dans les transformateurs de diffusion implique une computation redondante en raison de la nature clairsemée et redondante de l'information visuelle, et la carte d'attention des jetons dans une fenêtre spatiale montre une similarité significative. Pour résoudre cette redondance, nous proposons le Transformateur de Diffusion à Jeton de Proximité (PT-DiT), qui utilise une attention de jeton représentatif clairsemée (où le nombre de jetons représentatifs est beaucoup plus petit que le nombre total de jetons) pour modéliser efficacement l'information visuelle globale. Plus précisément, dans chaque bloc de transformateur, nous échantillonnons de manière aléatoire un jeton de chaque fenêtre spatio-temporelle pour servir de jeton de proximité pour cette région. Les sémantiques globales sont capturées à travers l'auto-attention de ces jetons de proximité puis injectées dans tous les jetons latents via une attention croisée. Simultanément, nous introduisons une attention de fenêtre et de décalage de fenêtre pour résoudre les limitations dans la modélisation détaillée causée par le mécanisme d'attention clairsemée. En s'appuyant sur le PT-DiT bien conçu, nous développons ensuite la famille Qihoo-T2X, qui comprend une variété de modèles pour les tâches T2I, T2V et T2MV. Les résultats expérimentaux montrent que le PT-DiT atteint des performances compétitives tout en réduisant la complexité computationnelle dans les tâches de génération d'images et de vidéos (par exemple, une réduction de 48 % par rapport à DiT et une réduction de 35 % par rapport à Pixart-alpha). Notre code source est disponible sur https://github.com/360CVGroup/Qihoo-T2X.
La reconstruction de modèles humains 3D réalistes à partir d'images monoculaires présente des applications significatives dans les industries créatives, les interfaces homme-machine et les soins de santé. Nous basions notre travail sur le Splatting Gaussien 3D (3DGS), une représentation de scène composée d'un mélange de Gaussiennes. Prédire de tels mélanges pour un humain à partir d'une seule image d'entrée est un défi, car il s'agit d'une densité non uniforme (avec une relation de type un-à-plusieurs avec les pixels d'entrée) avec des contraintes physiques strictes. En même temps, il doit être flexible pour accommoder une variété de vêtements et de poses. Notre observation clé est que les sommets des maillages humains standardisés (comme SMPL) peuvent fournir une densité adéquate et une position initiale approximative pour les Gaussiennes. Nous pouvons ensuite entraîner un modèle de transformation pour prédire conjointement de relativement petits ajustements à ces positions, ainsi que les attributs des autres Gaussiennes et les paramètres SMPL. Nous montrons empiriquement que cette combinaison (en utilisant uniquement une supervision multi-vue) peut permettre une inférence rapide de modèles humains 3D à partir d'une seule image sans optimisation au moment du test, sans modèles de diffusion coûteux ni supervision de points 3D. Nous montrons également que cela peut améliorer l'estimation de la pose 3D en ajustant mieux les modèles humains qui tiennent compte des vêtements et d'autres variations. Le code est disponible sur le site web du projet https://abdullahamdi.com/gst/.
Les capacités des modèles de langage à long contexte (LMs) sont souvent évaluées en utilisant le test du "Aiguille dans une botte de foin" (NIAH), qui comprend des tâches conçues pour évaluer la capacité d'un modèle à identifier des informations spécifiques ("aiguille") au sein de grandes séquences de texte ("botte de foin"). Alors que ces références mesurent la compréhension des modèles des séquences d'entrée à long contexte, elles n'évaluent pas efficacement la qualité de la génération de texte à longue forme, un aspect crucial pour des applications telles que les propositions de design et l'écriture créative. Pour combler cette lacune, nous avons introduit un nouveau banc d'essai d'évaluation de texte à longue forme, "Filant le fil d'or" (SGT), qui teste la capacité des modèles à identifier des événements spécifiques au sein de longues séquences de texte généré. Dans ce banc d'essai, nous demandons aux LMs à long contexte de créer un texte à longue forme qui doit inclure des événements ou des contraintes particuliers et évaluons leur capacité à incorporer ces éléments. Nous avons évalué dix LMs à long contexte à travers quatre scénarios distincts, trois types d'instructions de prompt, et deux paramétrages de longueur de génération différents (16K et 32K). Bien que ces modèles se comportent bien sur les références NIAH, aucun n'a démontré des performances satisfaisantes sur "Filant le fil d'or", soulevant des inquiétudes quant à leur capacité à générer un texte à longue forme cohérent suivant les instructions. De plus, à mesure que la longueur du texte généré augmente, tous les modèles présentent une chute significative de performance.