ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

papers.title

papers.description

SFT mémorise, RL généralise : une étude comparative du modèle de base post-entraînement
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Jan 28, 2025
Tianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma
1226

Le fine-tuning supervisé (SFT) et l'apprentissage par renforcement (RL) sont largement utilisés comme techniques post-entraînement pour les modèles de base. Cependant, leurs rôles dans l'amélioration des capacités de généralisation des modèles restent flous. Cette étude examine la différence entre le SFT et le RL en termes de généralisation et de mémorisation, en se concentrant sur des variantes de règles basées sur du texte et des variantes visuelles. Nous introduisons GeneralPoints, un jeu de cartes de raisonnement arithmétique, et utilisons V-IRL, un environnement de navigation du monde réel, pour évaluer comment les modèles entraînés avec le SFT et le RL se généralisent à des variantes inédites dans les domaines textuel et visuel. Nous montrons que le RL, surtout lorsqu'il est entraîné avec une récompense basée sur les résultats, se généralise à la fois aux variantes textuelles basées sur des règles et visuelles. En revanche, le SFT a tendance à mémoriser les données d'entraînement et éprouve des difficultés à généraliser aux scénarios hors distribution. Une analyse plus approfondie révèle que le RL améliore les capacités de reconnaissance visuelle sous-jacentes du modèle, contribuant ainsi à sa généralisation améliorée dans le domaine visuel. Malgré la meilleure généralisation du RL, nous montrons que le SFT reste essentiel pour un entraînement efficace du RL ; le SFT stabilise le format de sortie du modèle, permettant au RL ultérieur d'atteindre ses gains de performance. Ces résultats démontrent la capacité du RL à acquérir des connaissances généralisables dans des tâches complexes et multimodales.

Optimisation de l'entraînement de grands modèles de langage en utilisant la quantification FP4.
Optimizing Large Language Model Training Using FP4 Quantization

Jan 28, 2025
Ruizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng
382

Les demandes computationnelles croissantes pour l'entraînement de grands modèles de langage (LLMs) nécessitent des méthodes plus efficaces. L'entraînement quantifié présente une solution prometteuse en permettant des opérations arithmétiques à faible nombre de bits pour réduire ces coûts. Alors que la précision FP8 a démontré sa faisabilité, l'exploitation du FP4 reste un défi en raison d'erreurs de quantification significatives et d'une capacité de représentation limitée. Ce travail présente le premier cadre d'entraînement FP4 pour les LLMs, abordant ces défis avec deux innovations clés : un estimateur de quantification différenciable pour des mises à jour précises des poids et une stratégie de pincement et de compensation des valeurs aberrantes pour prévenir l'effondrement des activations. Pour garantir la stabilité, le cadre intègre un schéma d'entraînement à précision mixte et une quantification par vecteur. Les résultats expérimentaux montrent que notre cadre FP4 atteint une précision comparable à BF16 et FP8, avec une dégradation minimale, s'adaptant efficacement aux LLMs de 13 milliards de paramètres entraînés sur jusqu'à 100 milliards de jetons. Avec l'émergence de matériels de nouvelle génération prenant en charge le FP4, notre cadre pose les bases pour un entraînement efficace à ultra-faible précision.

Transformateur sur-tokenisé : il est généralement bénéfique de mettre à l'échelle le vocabulaire
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

Jan 28, 2025
Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou
324

La tokenisation est un composant fondamental des grands modèles de langage (GML), cependant son influence sur l'échelle et les performances des modèles n'est pas entièrement explorée. Dans cet article, nous présentons les Transformers sur-tokenisés, un nouveau cadre qui sépare les vocabulaires d'entrée et de sortie pour améliorer les performances de modélisation de langage. Plus précisément, notre approche met à l'échelle les vocabulaires d'entrée pour exploiter les tokens multi-grammes. À travers des expériences approfondies, nous mettons en évidence une relation log-linéaire entre la taille du vocabulaire d'entrée et la perte d'entraînement, démontrant que des vocabulaires d'entrée plus grands améliorent systématiquement les performances du modèle, indépendamment de sa taille. En utilisant un grand vocabulaire d'entrée, nous obtenons des performances comparables à des références de taille double sans coût supplémentaire. Nos résultats soulignent l'importance de la tokenisation dans les lois d'échelle et fournissent des informations pratiques pour la conception de tokeniseurs, ouvrant la voie à des GML plus efficaces et puissants.

DiffSplat : Repurposer les modèles de diffusion d'images pour la génération évolutive de splats gaussiens
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

Jan 28, 2025
Chenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu
223

Les récentes avancées dans la génération de contenu 3D à partir de texte ou d'une seule image rencontrent des difficultés liées à des ensembles de données 3D de haute qualité limités et à des incohérences provenant de la génération multi-vue 2D. Nous présentons DiffSplat, un nouveau cadre génératif 3D qui génère nativement des éclats gaussiens 3D en apprivoisant de vastes modèles de diffusion texte-image à grande échelle. Il se distingue des modèles génératifs 3D précédents en utilisant efficacement des informations a priori 2D à l'échelle du web tout en maintenant une cohérence 3D dans un modèle unifié. Pour amorcer l'entraînement, un modèle de reconstruction léger est proposé pour produire instantanément des grilles d'éclats gaussiens multi-vues en vue d'une curation évolutive des ensembles de données. En plus de la perte de diffusion régulière sur ces grilles, une perte de rendu 3D est introduite pour faciliter la cohérence 3D à travers des vues arbitraires. La compatibilité avec les modèles de diffusion d'images permet des adaptations fluides de nombreuses techniques de génération d'images au domaine 3D. Des expériences approfondies révèlent la supériorité de DiffSplat dans les tâches de génération conditionnées par du texte et des images, ainsi que dans les applications ultérieures. Des études d'ablation approfondies valident l'efficacité de chaque choix de conception critique et fournissent des éclairages sur le mécanisme sous-jacent.

Problèmes ouverts en interprétabilité mécaniste.
Open Problems in Mechanistic Interpretability

Jan 27, 2025
Lee Sharkey, Bilal Chughtai, Joshua Batson, Jack Lindsey, Jeff Wu, Lucius Bushnaq, Nicholas Goldowsky-Dill, Stefan Heimersheim, Alejandro Ortega, Joseph Bloom, Stella Biderman, Adria Garriga-Alonso, Arthur Conmy, Neel Nanda, Jessica Rumbelow, Martin Wattenberg, Nandi Schoots, Joseph Miller, Eric J. Michaud, Stephen Casper, Max Tegmark, William Saunders, David Bau, Eric Todd, Atticus Geiger, Mor Geva, Jesse Hoogland, Daniel Murfet, Tom McGrath
192

L'interprétabilité mécaniste vise à comprendre les mécanismes computationnels sous-jacents aux capacités des réseaux neuronaux afin d'atteindre des objectifs scientifiques et d'ingénierie concrets. Les progrès dans ce domaine promettent ainsi d'offrir une assurance accrue quant au comportement des systèmes d'IA et d'éclairer des questions scientifiques passionnantes sur la nature de l'intelligence. Malgré les avancées récentes vers ces objectifs, de nombreux problèmes ouverts subsistent dans le domaine qui nécessitent des solutions avant que de nombreux avantages scientifiques et pratiques ne puissent être réalisés : Nos méthodes nécessitent à la fois des améliorations conceptuelles et pratiques pour révéler des perspectives plus approfondies ; nous devons déterminer la meilleure façon d'appliquer nos méthodes pour atteindre des objectifs spécifiques ; et le domaine doit faire face à des défis socio-techniques qui influencent et sont influencés par notre travail. Cette revue prospective examine la frontière actuelle de l'interprétabilité mécaniste et les problèmes ouverts dont le domaine pourrait bénéficier en les priorisant.

Adaptateurs de Faible Rang rencontrent la Recherche d'Architecture Neuronale pour la Compression de LLM
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Jan 23, 2025
J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain
112

L'expansion rapide des Grands Modèles de Langage (GML) a posé des défis significatifs en ce qui concerne les ressources informatiques nécessaires pour le fine-tuning et le déploiement. Les récents progrès dans les adaptateurs à faible rang ont démontré leur efficacité dans le fine-tuning à efficacité paramétrique (PEFT) de ces modèles. Cet article rétrospectif discute de manière exhaustive des approches innovantes qui combinent les représentations à faible rang avec les techniques de Recherche d'Architecture Neuronale (RAN), en particulier les super-réseaux à partage de poids. Des solutions robustes pour la compression et le fine-tuning de grands modèles pré-entraînés sont développées en intégrant ces méthodologies. Notre analyse met en lumière le potentiel de ces stratégies combinées pour démocratiser l'utilisation des GML, les rendant ainsi plus accessibles pour le déploiement dans des environnements aux ressources limitées. Les modèles résultants présentent des empreintes mémoire réduites et des temps d'inférence plus rapides, ouvrant la voie à des applications plus pratiques et évolutives des GML. Les modèles et le code sont disponibles sur https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

TAID : Distillation Interpolée Temporellement Adaptative pour un Transfert de Connaissances Efficace dans les Modèles de Langage
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

Jan 28, 2025
Makoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba
75

Les modèles de langage causaux ont démontré des capacités remarquables, mais leur taille pose des défis significatifs pour leur déploiement dans des environnements aux ressources limitées. La distillation des connaissances, une technique largement utilisée pour transférer les connaissances d'un grand modèle enseignant à un petit modèle étudiant, présente une approche prometteuse pour la compression des modèles. Un problème majeur subsiste dans les importantes différences entre les modèles enseignant et étudiant, à savoir l'écart de capacité substantiel, la moyenne de mode et l'effondrement de mode, qui posent des obstacles pendant la distillation. Pour résoudre ces problèmes, nous introduisons la Distillation Interpolée Temporellement Adaptative (TAID), une nouvelle approche de distillation des connaissances qui interpole dynamiquement les distributions de l'étudiant et de l'enseignant à travers une distribution intermédiaire adaptative, se déplaçant progressivement de la distribution initiale de l'étudiant vers la distribution de l'enseignant. Nous fournissons une analyse théorique démontrant la capacité de TAID à prévenir l'effondrement de mode et montrons empiriquement son efficacité pour résoudre l'écart de capacité tout en équilibrant la moyenne de mode et l'effondrement de mode. Nos expériences approfondies démontrent la performance supérieure de TAID sur différentes tailles de modèles et architectures, aussi bien dans des scénarios d'ajustement d'instructions que de pré-entraînement. De plus, nous mettons en avant l'impact pratique de TAID en développant deux modèles de base compacts de pointe : TAID-LLM-1.5B pour les tâches linguistiques et TAID-VLM-2B pour les tâches vision-langage. Ces résultats démontrent l'efficacité de TAID dans la création de modèles performants et efficaces, faisant progresser le développement de technologies AI plus accessibles.

IndicMMLU-Pro : Évaluation des grands modèles de langage indiens sur la compréhension de langues multi-tâches
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding

Jan 27, 2025
Sankalp KJ, Ashutosh Kumar, Laxmaan Balaji, Nikunj Kotecha, Vinija Jain, Aman Chadha, Sreyoshi Bhaduri
72

Connues par plus de 1,5 milliard de personnes dans le sous-continent indien, les langues indiennes présentent des défis et des opportunités uniques pour la recherche en traitement automatique des langues (TAL) en raison de leur riche patrimoine culturel, de leur diversité linguistique et de leurs structures complexes. IndicMMLU-Pro est une référence complète conçue pour évaluer les Grands Modèles de Langage (GML) à travers les langues indiennes, s'appuyant sur le cadre MMLU Pro (Massive Multitask Language Understanding). Couvrant des langues majeures telles que l'hindi, le bengali, le gujarati, le marathi, le kannada, le pendjabi, le tamoul, le télougou et l'ourdou, notre référence aborde les défis et opportunités uniques présentés par la diversité linguistique du sous-continent indien. Cette référence englobe une large gamme de tâches de compréhension linguistique, de raisonnement et de génération, méticuleusement conçues pour capturer les subtilités des langues indiennes. IndicMMLU-Pro fournit un cadre d'évaluation standardisé pour repousser les limites de la recherche en intelligence artificielle pour les langues indiennes, facilitant le développement de modèles plus précis, efficaces et culturellement sensibles. Cet article décrit les principes de conception des références, la taxonomie des tâches et la méthodologie de collecte de données, et présente les résultats de base des modèles multilingues de pointe.

Histoires Morales : un ensemble de données français pour évaluer l'alignement moral
Histoires Morales: A French Dataset for Assessing Moral Alignment

Jan 28, 2025
Thibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Christophe Gravier
42

Aligner les modèles de langage avec les valeurs humaines est crucial, surtout à mesure qu'ils deviennent de plus en plus intégrés dans la vie quotidienne. Bien que les modèles soient souvent adaptés aux préférences des utilisateurs, il est tout aussi important de s'assurer qu'ils sont en accord avec les normes morales et les comportements dans des situations sociales réelles. Malgré des progrès significatifs dans des langues comme l'anglais et le chinois, le français a reçu peu d'attention dans ce domaine, laissant un vide dans la compréhension de la manière dont les LLMs traitent le raisonnement moral dans cette langue. Pour combler cette lacune, nous présentons Histoires Morales, un ensemble de données français dérivé de Moral Stories, créé par traduction et ensuite affiné avec l'aide de locuteurs natifs pour garantir l'exactitude grammaticale et l'adaptation au contexte culturel français. Nous nous appuyons également sur des annotations des valeurs morales au sein de l'ensemble de données pour garantir leur alignement avec les normes françaises. Histoires Morales couvre un large éventail de situations sociales, y compris les différences dans les pratiques de pourboire, les expressions d'honnêteté dans les relations et les responsabilités envers les animaux. Pour promouvoir la recherche future, nous menons également des expériences préliminaires sur l'alignement des modèles multilingues sur des données françaises et anglaises et sur la robustesse de cet alignement. Nous constatons que bien que les LLMs soient généralement alignés avec les normes morales humaines par défaut, ils peuvent être facilement influencés par l'optimisation des préférences des utilisateurs pour des données à la fois morales et immorales.

DeepFlow : Service sans serveur pour le déploiement à grande échelle de modèles de langage.
DeepFlow: Serverless Large Language Model Serving at Scale

Jan 24, 2025
Junhao Hu, Jiang Xu, Zhixia Liu, Yulong He, Yuetao Chen, Hao Xu, Jiang Liu, Baoquan Zhang, Shining Wan, Gengyuan Dan, Zhiyu Dong, Zhihao Ren, Jie Meng, Chao He, Changhong Liu, Tao Xie, Dayun Lin, Qin Zhang, Yue Yu, Hao Feng, Xusheng Chen, Yizhou Shan
32

Cet article présente DeepFlow, une plateforme d'IA évolutive et sans serveur conçue pour servir efficacement à grande échelle des grands modèles de langage (LLM) dans des environnements cloud. DeepFlow aborde des défis clés tels que l'allocation des ressources, l'efficacité du service et les latences de démarrage à froid à travers quatre composants principaux de conception. Tout d'abord, il utilise une abstraction simple sans serveur appelée le modèle requête-travail-tâche, qui aide à gérer les charges de travail d'IA à travers les tâches post-entraînement et de service de modèle. Ensuite, il construit un moteur de service interne FlowServe en utilisant une conception inspirée des micro-noyaux, une exécution centrée sur les NPU et un parallélisme basé sur le SPMD pour optimiser le service des LLM. Le système comprend également des politiques de planification novatrices adaptées aux configurations à PD désagrégé et PD colocalisé. Avec des optimisations telles que les pods préchauffés, le préchargement de la DRAM et le NPU-fork, DeepFlow peut passer à l'échelle jusqu'à 64 instances en quelques secondes. DeepFlow est en production depuis plus d'un an, fonctionnant sur un grand cluster NPU Ascend et fournissant des API standard de l'industrie pour le réglage fin, le service d'agent et le service de modèle à nos clients.

Jan 28
Jan 29
Jan 30