HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

4 papers found

YuLan-Mini : Un modèle de langage ouvert et peu gourmand en données
YuLan-Mini: An Open Data-efficient Language Model

Dec 23

ByYiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen

La pré-formation efficace des grands modèles de langage (LLM) a été un défi en raison des énormes besoins en ressources et de la complexité des processus techniques impliqués. Cet article présente un rapport technique détaillé sur YuLan-Mini, un modèle de base très performant avec 2,42 milliards de paramètres qui atteint des performances de premier plan parmi les modèles de taille de paramètre similaire. Notre approche de pré-formation se concentre sur l'amélioration de l'efficacité de l'entraînement à travers trois contributions techniques clés : un pipeline de données élaboré combinant le nettoyage des données avec des stratégies de planification des données, une méthode d'optimisation robuste pour atténuer l'instabilité de l'entraînement, et une approche d'adoucissement efficace qui intègre une sélection ciblée des données et un entraînement à long contexte. Remarquablement, YuLan-Mini, formé sur 1,08 billion de jetons, atteint des performances comparables à celles des modèles de pointe de l'industrie qui nécessitent significativement plus de données. Pour faciliter la reproduction, nous publions tous les détails de la composition des données pour chaque phase d'entraînement. Les détails du projet sont accessibles via le lien suivant : https://github.com/RUC-GSAI/YuLan-Mini.

Une solution miracle ou un compromis pour une attention totale ? Une étude complète de la compression contextuelle basée sur les jetons Gist.
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

Dec 23

ByChenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou

Dans ce travail, nous proposons une investigation approfondie des méthodes de compression de contexte basées sur l'essentiel pour améliorer le traitement de longs contextes dans les grands modèles de langage. Nous nous concentrons sur deux questions clés : (1) Dans quelle mesure ces méthodes peuvent-elles remplacer les modèles d'attention complets ? et (2) Quels schémas de défaillance potentiels se manifestent en raison de la compression ? À travers des expériences approfondies, nous montrons que, bien que la compression basée sur l'essentiel puisse atteindre des performances quasi sans perte sur des tâches telles que la génération augmentée par récupération et les questions-réponses sur de longs documents, elle rencontre des défis dans des tâches comme le rappel synthétique. De plus, nous identifions trois schémas de défaillance clés : perdu par la frontière, perdu en cas de surprise et perdu en cours de route. Pour atténuer ces problèmes, nous proposons deux stratégies efficaces : l'autoencodage fin, qui améliore la reconstruction des informations de jeton d'origine, et l'estimation de l'importance des jetons par segment, qui ajuste l'optimisation en fonction des dépendances des jetons. Notre travail offre des perspectives précieuses pour la compréhension de la compression de contexte basée sur les jetons d'essentiel et propose des stratégies pratiques pour améliorer les capacités de compression.

MMFactory : Un moteur de recherche de solutions universel pour les tâches de vision par ordinateur et de langage naturel.
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24

ByWan-Cyuan Fan, Tanzila Rahman, Leonid Sigal

Avec les progrès réalisés dans les modèles fondamentaux et vision-langage, ainsi que dans les techniques efficaces de fine-tuning, un grand nombre de modèles à la fois généraux et spécialisés ont été développés pour une variété de tâches visuelles. Malgré la flexibilité et l'accessibilité de ces modèles, aucun modèle unique n'est capable de gérer toutes les tâches et/ou applications qui pourraient être envisagées par les utilisateurs potentiels. Des approches récentes, telles que la programmation visuelle et les LLM multimodaux avec des outils intégrés, visent à relever des tâches visuelles complexes, par le biais de la synthèse de programmes. Cependant, de telles approches négligent les contraintes des utilisateurs (par exemple, les besoins en performance / calcul), produisent des solutions spécifiques aux échantillons au moment des tests qui sont difficiles à déployer, et parfois nécessitent des instructions de bas niveau qui peuvent dépasser les capacités d'un utilisateur novice. Pour remédier à ces limitations, nous introduisons MMFactory, un cadre universel qui comprend des composants de routage de modèles et de métriques, agissant comme un moteur de recherche de solutions à travers divers modèles disponibles. En fonction d'une description de tâche et de quelques paires d'entrées-sorties d'échantillons et (éventuellement) de contraintes de ressources et/ou de performances, MMFactory peut suggérer un ensemble diversifié de solutions programmatiques en instanciant et combinant des outils visio-linguaux de son référentiel de modèles. En plus de synthétiser ces solutions, MMFactory propose également des métriques et évalue les performances / caractéristiques des ressources, permettant aux utilisateurs de choisir une solution qui répond à leurs contraintes de conception uniques. D'un point de vue technique, nous avons également introduit un proposant de solutions basé sur un comité qui exploite une conversation LLM multi-agent pour générer des solutions exécutables, diversifiées, universelles et robustes pour l'utilisateur. Les résultats expérimentaux montrent que MMFactory surpasse les méthodes existantes en fournissant des solutions de pointe adaptées aux spécifications des problèmes des utilisateurs. La page du projet est disponible sur https://davidhalladay.github.io/mmfactory_demo.

Molar : Modèles de Langage Multimodaux avec Alignement par Filtrage Collaboratif pour une Recommandation Séquentielle Améliorée
Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation

Dec 24

ByYucong Luo, Qitao Qin, Hao Zhang, Mingyue Cheng, Ruiran Yan, Kefan Wang, Jie Ouyang

Les systèmes de recommandation séquentielle (SR) ont considérablement évolué au cours de la dernière décennie, passant des filtres collaboratifs traditionnels aux approches d'apprentissage profond, et plus récemment, aux grands modèles de langage (LLM). Alors que l'adoption des LLM a entraîné des avancées substantielles, ces modèles manquent intrinsèquement d'informations de filtrage collaboratif, se basant principalement sur des données de contenu textuel en négligeant d'autres modalités et échouant ainsi à atteindre des performances de recommandation optimales. Pour remédier à cette limitation, nous proposons Molar, un cadre de recommandation séquentielle multimodal de grand langage qui intègre de multiples modalités de contenu avec des informations d'identification pour capturer efficacement des signaux collaboratifs. Molar utilise un MLLM pour générer des représentations unifiées d'éléments à partir de données textuelles et non textuelles, facilitant une modélisation multimodale complète et enrichissant les plongements d'éléments. De plus, il intègre des signaux de filtrage collaboratif grâce à un mécanisme de post-alignement, qui aligne les représentations d'utilisateurs des modèles basés sur le contenu et sur l'ID, garantissant une personnalisation précise et des performances robustes. En combinant de manière transparente du contenu multimodal avec des informations de filtrage collaboratif, Molar capture à la fois les intérêts des utilisateurs et la sémantique contextuelle, conduisant à une précision de recommandation supérieure. Des expériences approfondies valident que Molar surpasse significativement les références traditionnelles et basées sur les LLM, mettant en évidence sa force dans l'utilisation de données multimodales et de signaux collaboratifs pour les tâches de recommandation séquentielle. Le code source est disponible sur https://anonymous.4open.science/r/Molar-8B06/.

MMFactory : Un moteur de recherche de solutions universel pour les tâches de vision par ordinateur et de langage naturel.
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24

ByWan-Cyuan Fan, Tanzila Rahman, Leonid Sigal