papers.description
Le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL) sont largement utilisés comme techniques post-entraînement pour les modèles de base. Cependant, leurs rôles dans l'amélioration des capacités de généralisation des modèles restent flous. Cette étude examine la différence entre le SFT et le RL en termes de généralisation et de mémorisation, en se concentrant sur des variantes de règles basées sur du texte et des variantes visuelles. Nous introduisons GeneralPoints, un jeu de cartes de raisonnement arithmétique, et utilisons V-IRL, un environnement de navigation du monde réel, pour évaluer comment les modèles entraînés avec le SFT et le RL se généralisent à des variantes inédites dans les domaines textuel et visuel. Nous montrons que le RL, surtout lorsqu'il est entraîné avec une récompense basée sur les résultats, se généralise à la fois aux variantes textuelles basées sur des règles et visuelles. En revanche, le SFT a tendance à mémoriser les données d'entraînement et éprouve des difficultés à généraliser aux scénarios hors distribution. Une analyse plus approfondie révèle que le RL améliore les capacités de reconnaissance visuelle sous-jacentes du modèle, contribuant ainsi à sa généralisation améliorée dans le domaine visuel. Malgré la meilleure généralisation du RL, nous montrons que le SFT reste essentiel pour un entraînement efficace du RL ; le SFT stabilise le format de sortie du modèle, permettant au RL ultérieur d'atteindre ses gains de performance. Ces résultats démontrent la capacité du RL à acquérir des connaissances généralisables dans des tâches complexes et multimodales.
Les demandes computationnelles croissantes pour l'entraînement de grands modèles de langage (LLMs) nécessitent des méthodes plus efficaces. L'entraînement quantifié présente une solution prometteuse en permettant des opérations arithmétiques à faible nombre de bits pour réduire ces coûts. Alors que la précision FP8 a démontré sa faisabilité, l'exploitation du FP4 reste un défi en raison d'erreurs de quantification significatives et d'une capacité de représentation limitée. Ce travail présente le premier cadre d'entraînement FP4 pour les LLMs, abordant ces défis avec deux innovations clés : un estimateur de quantification différenciable pour des mises à jour précises des poids et une stratégie de pincement et de compensation des valeurs aberrantes pour prévenir l'effondrement des activations. Pour garantir la stabilité, le cadre intègre un schéma d'entraînement à précision mixte et une quantification par vecteur. Les résultats expérimentaux montrent que notre cadre FP4 atteint une précision comparable à BF16 et FP8, avec une dégradation minimale, s'adaptant efficacement aux LLMs de 13 milliards de paramètres entraînés sur jusqu'à 100 milliards de jetons. Avec l'émergence de matériels de nouvelle génération prenant en charge le FP4, notre cadre pose les bases pour un entraînement efficace à ultra-faible précision.
La tokenisation est un composant fondamental des grands modèles de langage (GML), cependant son influence sur l'échelle et les performances des modèles n'est pas entièrement explorée. Dans cet article, nous présentons les Transformers sur-tokenisés, un nouveau cadre qui sépare les vocabulaires d'entrée et de sortie pour améliorer les performances de modélisation de langage. Plus précisément, notre approche met à l'échelle les vocabulaires d'entrée pour exploiter les tokens multi-grammes. À travers des expériences approfondies, nous mettons en évidence une relation log-linéaire entre la taille du vocabulaire d'entrée et la perte d'entraînement, démontrant que des vocabulaires d'entrée plus grands améliorent systématiquement les performances du modèle, indépendamment de sa taille. En utilisant un grand vocabulaire d'entrée, nous obtenons des performances comparables à des références de taille double sans coût supplémentaire. Nos résultats soulignent l'importance de la tokenisation dans les lois d'échelle et fournissent des informations pratiques pour la conception de tokeniseurs, ouvrant la voie à des GML plus efficaces et puissants.
Les récentes avancées dans la génération de contenu 3D à partir de texte ou d'une seule image rencontrent des difficultés liées à des ensembles de données 3D de haute qualité limités et à des incohérences provenant de la génération multi-vue 2D. Nous présentons DiffSplat, un nouveau cadre génératif 3D qui génère nativement des éclats gaussiens 3D en apprivoisant de vastes modèles de diffusion texte-image à grande échelle. Il se distingue des modèles génératifs 3D précédents en utilisant efficacement des informations a priori 2D à l'échelle du web tout en maintenant une cohérence 3D dans un modèle unifié. Pour amorcer l'entraînement, un modèle de reconstruction léger est proposé pour produire instantanément des grilles d'éclats gaussiens multi-vues en vue d'une curation évolutive des ensembles de données. En plus de la perte de diffusion régulière sur ces grilles, une perte de rendu 3D est introduite pour faciliter la cohérence 3D à travers des vues arbitraires. La compatibilité avec les modèles de diffusion d'images permet des adaptations fluides de nombreuses techniques de génération d'images au domaine 3D. Des expériences approfondies révèlent la supériorité de DiffSplat dans les tâches de génération conditionnées par du texte et des images, ainsi que dans les applications ultérieures. Des études d'ablation approfondies valident l'efficacité de chaque choix de conception critique et fournissent des éclairages sur le mécanisme sous-jacent.
L'interprétabilité mécaniste vise à comprendre les mécanismes computationnels sous-jacents aux capacités des réseaux neuronaux afin d'atteindre des objectifs scientifiques et d'ingénierie concrets. Les progrès dans ce domaine promettent ainsi d'offrir une assurance accrue quant au comportement des systèmes d'IA et d'éclairer des questions scientifiques passionnantes sur la nature de l'intelligence. Malgré les avancées récentes vers ces objectifs, de nombreux problèmes ouverts subsistent dans le domaine qui nécessitent des solutions avant que de nombreux avantages scientifiques et pratiques ne puissent être réalisés : Nos méthodes nécessitent à la fois des améliorations conceptuelles et pratiques pour révéler des perspectives plus approfondies ; nous devons déterminer la meilleure façon d'appliquer nos méthodes pour atteindre des objectifs spécifiques ; et le domaine doit faire face à des défis socio-techniques qui influencent et sont influencés par notre travail. Cette revue prospective examine la frontière actuelle de l'interprétabilité mécaniste et les problèmes ouverts dont le domaine pourrait bénéficier en les priorisant.
L'expansion rapide des Grands Modèles de Langage (GML) a posé des défis significatifs en ce qui concerne les ressources informatiques nécessaires pour le fine-tuning et le déploiement. Les récents progrès dans les adaptateurs à faible rang ont démontré leur efficacité dans le fine-tuning à efficacité paramétrique (PEFT) de ces modèles. Cet article rétrospectif discute de manière exhaustive des approches innovantes qui combinent les représentations à faible rang avec les techniques de Recherche d'Architecture Neuronale (RAN), en particulier les super-réseaux à partage de poids. Des solutions robustes pour la compression et le fine-tuning de grands modèles pré-entraînés sont développées en intégrant ces méthodologies. Notre analyse met en lumière le potentiel de ces stratégies combinées pour démocratiser l'utilisation des GML, les rendant ainsi plus accessibles pour le déploiement dans des environnements aux ressources limitées. Les modèles résultants présentent des empreintes mémoire réduites et des temps d'inférence plus rapides, ouvrant la voie à des applications plus pratiques et évolutives des GML. Les modèles et le code sont disponibles sur https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
Les modèles de langage causaux ont démontré des capacités remarquables, mais leur taille pose des défis significatifs pour leur déploiement dans des environnements aux ressources limitées. La distillation des connaissances, une technique largement utilisée pour transférer les connaissances d'un grand modèle enseignant à un petit modèle étudiant, présente une approche prometteuse pour la compression des modèles. Un problème majeur subsiste dans les importantes différences entre les modèles enseignant et étudiant, à savoir l'écart de capacité substantiel, la moyenne de mode et l'effondrement de mode, qui posent des obstacles pendant la distillation. Pour résoudre ces problèmes, nous introduisons la Distillation Interpolée Temporellement Adaptative (TAID), une nouvelle approche de distillation des connaissances qui interpole dynamiquement les distributions de l'étudiant et de l'enseignant à travers une distribution intermédiaire adaptative, se déplaçant progressivement de la distribution initiale de l'étudiant vers la distribution de l'enseignant. Nous fournissons une analyse théorique démontrant la capacité de TAID à prévenir l'effondrement de mode et montrons empiriquement son efficacité pour résoudre l'écart de capacité tout en équilibrant la moyenne de mode et l'effondrement de mode. Nos expériences approfondies démontrent la performance supérieure de TAID sur différentes tailles de modèles et architectures, aussi bien dans des scénarios d'ajustement d'instructions que de pré-entraînement. De plus, nous mettons en avant l'impact pratique de TAID en développant deux modèles de base compacts de pointe : TAID-LLM-1.5B pour les tâches linguistiques et TAID-VLM-2B pour les tâches vision-langage. Ces résultats démontrent l'efficacité de TAID dans la création de modèles performants et efficaces, faisant progresser le développement de technologies AI plus accessibles.
Connues par plus de 1,5 milliard de personnes dans le sous-continent indien, les langues indiennes présentent des défis et des opportunités uniques pour la recherche en traitement automatique des langues (TAL) en raison de leur riche patrimoine culturel, de leur diversité linguistique et de leurs structures complexes. IndicMMLU-Pro est une référence complète conçue pour évaluer les Grands Modèles de Langage (GML) à travers les langues indiennes, s'appuyant sur le cadre MMLU Pro (Massive Multitask Language Understanding). Couvrant des langues majeures telles que l'hindi, le bengali, le gujarati, le marathi, le kannada, le pendjabi, le tamoul, le télougou et l'ourdou, notre référence aborde les défis et opportunités uniques présentés par la diversité linguistique du sous-continent indien. Cette référence englobe une large gamme de tâches de compréhension linguistique, de raisonnement et de génération, méticuleusement conçues pour capturer les subtilités des langues indiennes. IndicMMLU-Pro fournit un cadre d'évaluation standardisé pour repousser les limites de la recherche en intelligence artificielle pour les langues indiennes, facilitant le développement de modèles plus précis, efficaces et culturellement sensibles. Cet article décrit les principes de conception des références, la taxonomie des tâches et la méthodologie de collecte de données, et présente les résultats de base des modèles multilingues de pointe.
Aligner les modèles de langage avec les valeurs humaines est crucial, surtout à mesure qu'ils deviennent de plus en plus intégrés dans la vie quotidienne. Bien que les modèles soient souvent adaptés aux préférences des utilisateurs, il est tout aussi important de s'assurer qu'ils sont en accord avec les normes morales et les comportements dans des situations sociales réelles. Malgré des progrès significatifs dans des langues comme l'anglais et le chinois, le français a reçu peu d'attention dans ce domaine, laissant un vide dans la compréhension de la manière dont les LLMs traitent le raisonnement moral dans cette langue. Pour combler cette lacune, nous présentons Histoires Morales, un ensemble de données français dérivé de Moral Stories, créé par traduction et ensuite affiné avec l'aide de locuteurs natifs pour garantir l'exactitude grammaticale et l'adaptation au contexte culturel français. Nous nous appuyons également sur des annotations des valeurs morales au sein de l'ensemble de données pour garantir leur alignement avec les normes françaises. Histoires Morales couvre un large éventail de situations sociales, y compris les différences dans les pratiques de pourboire, les expressions d'honnêteté dans les relations et les responsabilités envers les animaux. Pour promouvoir la recherche future, nous menons également des expériences préliminaires sur l'alignement des modèles multilingues sur des données françaises et anglaises et sur la robustesse de cet alignement. Nous constatons que bien que les LLMs soient généralement alignés avec les normes morales humaines par défaut, ils peuvent être facilement influencés par l'optimisation des préférences des utilisateurs pour des données à la fois morales et immorales.
Cet article présente DeepFlow, une plateforme d'IA évolutive et sans serveur conçue pour servir efficacement à grande échelle des grands modèles de langage (LLM) dans des environnements cloud. DeepFlow aborde des défis clés tels que l'allocation des ressources, l'efficacité du service et les latences de démarrage à froid à travers quatre composants principaux de conception. Tout d'abord, il utilise une abstraction simple sans serveur appelée le modèle requête-travail-tâche, qui aide à gérer les charges de travail d'IA à travers les tâches post-entraînement et de service de modèle. Ensuite, il construit un moteur de service interne FlowServe en utilisant une conception inspirée des micro-noyaux, une exécution centrée sur les NPU et un parallélisme basé sur le SPMD pour optimiser le service des LLM. Le système comprend également des politiques de planification novatrices adaptées aux configurations à PD désagrégé et PD colocalisé. Avec des optimisations telles que les pods préchauffés, le préchargement de la DRAM et le NPU-fork, DeepFlow peut passer à l'échelle jusqu'à 64 instances en quelques secondes. DeepFlow est en production depuis plus d'un an, fonctionnant sur un grand cluster NPU Ascend et fournissant des API standard de l'industrie pour le réglage fin, le service d'agent et le service de modèle à nos clients.