HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

12 papers found

Les leçons du développement de modèles de récompense de processus dans le raisonnement mathématique
The Lessons of Developing Process Reward Models in Mathematical Reasoning

Jan 13

ByZhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin

Les Modèles de Récompense de Processus (PRMs) émergent comme une approche prometteuse pour la supervision des processus dans le raisonnement mathématique des Grands Modèles de Langage (LLMs), qui visent à identifier et à atténuer les erreurs intermédiaires dans les processus de raisonnement. Cependant, le développement de PRMs efficaces est confronté à des défis importants, notamment dans l'annotation des données et les méthodologies d'évaluation. Dans cet article, à travers des expériences approfondies, nous démontrons que la synthèse de données basée sur l'estimation Monte Carlo (MC) couramment utilisée pour les PRMs entraîne généralement des performances et une généralisation inférieures par rapport aux méthodes LLM-comme-juge et à l'annotation humaine. L'estimation MC repose sur des modèles de complétion pour évaluer la correction de l'étape actuelle, ce qui conduit à une vérification inexacte des étapes. De plus, nous identifions des biais potentiels dans les stratégies d'évaluation Best-of-N (BoN) conventionnelles pour les PRMs : (1) Les modèles de politique peu fiables génèrent des réponses avec des réponses correctes mais des processus défectueux, entraînant un désalignement entre les critères d'évaluation de BoN et les objectifs des PRMs de vérification des processus. (2) La tolérance des PRMs à de telles réponses conduit à des scores BoN gonflés. (3) Les PRMs existants ont une proportion significative de scores minimum concentrés sur les étapes de réponse finales, révélant le passage de l'évaluation basée sur le processus à celle basée sur le résultat dans les PRMs Optimisés BoN. Pour relever ces défis, nous développons un mécanisme de filtrage de consensus qui intègre efficacement l'estimation MC avec LLM-comme-juge et préconisons un cadre d'évaluation plus complet qui combine des métriques au niveau de la réponse et de l'étape. Sur la base de ces mécanismes, nous améliorons significativement à la fois les performances du modèle et l'efficacité des données dans l'évaluation BoN et la tâche d'identification des erreurs étape par étape. Enfin, nous publions un nouveau PRM de pointe qui surpasse les alternatives open-source existantes et fournit des lignes directrices pratiques pour les futures recherches dans la construction de modèles de supervision de processus.

L'attention de produit tensoriel est tout ce dont vous avez besoin.
Tensor Product Attention Is All You Need

Jan 11

ByYifan Zhang, Yifeng Liu, Huizhuo Yuan, Zhen Qin, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao

L'adaptation des modèles de langage pour traiter des séquences d'entrée plus longues nécessite généralement de grandes caches clé-valeur (KV), entraînant une surcharge mémoire importante lors de l'inférence. Dans cet article, nous proposons l'Attention par Produit de Tenseurs (TPA), un nouveau mécanisme d'attention qui utilise des décompositions tensorielles pour représenter de manière compacte les requêtes, les clés et les valeurs, réduisant significativement la taille de la cache KV au moment de l'inférence. En factorisant ces représentations en composantes de rang faible contextuelles (factorisation contextuelle) et en les intégrant de manière transparente avec RoPE, TPA permet d'améliorer la qualité du modèle tout en étant efficace en termes de mémoire. Basé sur TPA, nous introduisons le Transformateur d'Attention par Produit de Tenseurs (T6), une nouvelle architecture de modèle pour la modélisation de séquences. À travers une évaluation empirique approfondie des tâches de modélisation de langage, nous démontrons que T6 dépasse les performances des modèles Transformer standards, y compris MHA, MQA, GQA et MLA, sur diverses mesures, y compris la perplexité et une gamme de benchmarks d'évaluation renommés. Notamment, l'efficacité mémoire de TPA permet le traitement de séquences significativement plus longues dans le cadre de contraintes de ressources fixes, répondant à un défi critique de scalabilité dans les modèles de langage modernes. Le code est disponible sur https://github.com/tensorgi/T6.

BIOMEDICA : Une archive ouverte d'images médicales avec légendes, un ensemble de données et des modèles vision-langage dérivés de la littérature scientifique.
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

Jan 13

ByAlejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Austin Wolfgang Katzer, Collin Chiu, Anita Rau, Xiaohan Wang, Yuhui Zhang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy

Le développement des modèles vision-langage (VLM) est stimulé par des ensembles de données multimodaux à grande échelle et diversifiés. Cependant, les progrès vers des VLM biomédicaux généralistes sont limités par le manque d'ensembles de données annotés et accessibles au public dans les domaines de la biologie et de la médecine. Les efforts existants sont restreints à des domaines spécifiques, ne couvrant pas toute la diversité des connaissances biomédicales encodées dans la littérature scientifique. Pour combler cette lacune, nous présentons BIOMEDICA, un cadre extensible et open source pour extraire, annoter et sérialiser l'intégralité du sous-ensemble PubMed Central Open Access en un ensemble de données facilement accessible au public. Notre cadre produit une archive complète avec plus de 24 millions de paires texte-image uniques issues de plus de 6 millions d'articles. Des métadonnées et des annotations guidées par des experts sont également fournies. Nous démontrons l'utilité et l'accessibilité de notre ressource en publiant BMCA-CLIP, un ensemble de modèles de style CLIP pré-entraînés en continu sur l'ensemble de données BIOMEDICA via un flux, éliminant ainsi le besoin de télécharger 27 To de données localement. En moyenne, nos modèles atteignent des performances de pointe sur 40 tâches - couvrant la pathologie, la radiologie, l'ophtalmologie, la dermatologie, la chirurgie, la biologie moléculaire, la parasitologie et la biologie cellulaire - se démarquant dans la classification sans étiquette avec une amélioration moyenne de 6,56% (atteignant jusqu'à 29,8% et 17,5% respectivement en dermatologie et en ophtalmologie), et offrant une meilleure récupération texte-image, le tout en utilisant 10 fois moins de calcul. Pour favoriser la reproductibilité et la collaboration, nous mettons à disposition notre code source et notre ensemble de données pour la communauté de recherche élargie.

Transformer^2 : LLMs auto-adaptatifs
Transformer^2: Self-adaptive LLMs

Jan 9

ByQi Sun, Edoardo Cetin, Yujin Tang

Les grands modèles de langage auto-adaptatifs (LLM) visent à résoudre les défis posés par les méthodes traditionnelles de fine-tuning, qui sont souvent intensives en termes de calcul et statiques dans leur capacité à gérer diverses tâches. Nous présentons \implname, un nouveau cadre d'auto-adaptation qui adapte les LLM pour des tâches inconnues en temps réel en ajustant sélectivement uniquement les composants singuliers de leurs matrices de poids. Lors de l'inférence, \implname utilise un mécanisme à deux passes : d'abord, un système de répartition identifie les propriétés de la tâche, puis des vecteurs "experts" spécifiques à la tâche, entraînés à l'aide de l'apprentissage par renforcement, sont dynamiquement mélangés pour obtenir un comportement ciblé pour la requête entrante. Notre méthode surpasse des approches omniprésentes telles que LoRA, avec moins de paramètres et une plus grande efficacité. \implname démontre sa polyvalence à travers différentes architectures de LLM et modalités, y compris les tâches vision-langage. \implname représente un bond en avant significatif, offrant une solution évolutive et efficace pour améliorer l'adaptabilité et les performances spécifiques à la tâche des LLM, ouvrant la voie à des systèmes IA vraiment dynamiques et auto-organisateurs.

MinMo : Un grand modèle de langage multimodal pour une interaction vocale transparente
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction

Jan 10

ByQian Chen, Yafeng Chen, Yanni Chen, Mengzhe Chen, Yingda Chen, Chong Deng, Zhihao Du, Ruize Gao, Changfeng Gao, Zhifu Gao, Yabin Li, Xiang Lv, Jiaqing Liu, Haoneng Luo, Bin Ma, Chongjia Ni, Xian Shi, Jialong Tang, Hui Wang, Hao Wang, Wen Wang, Yuxuan Wang, Yunlan Xu, Fan Yu, Zhijie Yan, Yexin Yang, Baosong Yang, Xian Yang, Guanrou Yang, Tianyu Zhao, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Pei Zhang, Chong Zhang, Jinren Zhou

Les récents progrès réalisés dans les grands modèles de langage (LLM) et les modèles multimodaux de parole-texte ont jeté les bases pour des interactions vocales fluides, permettant des conversations en temps réel, naturelles et semblables à celles entre humains. Les modèles précédents pour les interactions vocales sont catégorisés comme natifs et alignés. Les modèles natifs intègrent le traitement de la parole et du texte dans un seul cadre mais rencontrent des problèmes tels que des longueurs de séquence différentes et un pré-entraînement insuffisant. Les modèles alignés conservent les capacités des LLM de texte mais sont souvent limités par de petits ensembles de données et un focus étroit sur les tâches de parole. Dans ce travail, nous présentons MinMo, un Grand Modèle de Langage Multimodal avec environ 8 milliards de paramètres pour des interactions vocales fluides. Nous abordons les principales limitations des modèles multimodaux alignés précédents. Nous entraînons MinMo à travers plusieurs étapes d'alignement de la parole au texte, du texte à la parole, de la parole à la parole, et de l'interaction duplex, sur 1,4 million d'heures de données vocales diverses et une large gamme de tâches de parole. Après l'entraînement en plusieurs étapes, MinMo atteint des performances de pointe sur divers benchmarks pour la compréhension et la génération vocales tout en conservant les capacités des LLM de texte, et facilite également la conversation full-duplex, c'est-à-dire une communication bidirectionnelle simultanée entre l'utilisateur et le système. De plus, nous proposons un décodeur vocal novateur et simple qui surpasse les modèles précédents en termes de génération vocale. Les capacités améliorées de suivi des instructions de MinMo permettent de contrôler la génération de parole en fonction des instructions de l'utilisateur, avec diverses nuances incluant les émotions, les dialectes et les vitesses de parole, et l'imitation de voix spécifiques. Pour MinMo, la latence de la parole au texte est d'environ 100ms, la latence full-duplex est d'environ 600ms en théorie et 800ms en pratique. La page web du projet MinMo est https://funaudiollm.github.io/minmo, et le code et les modèles seront bientôt publiés.

VidéoAuteur : Vers la génération de vidéos narratives longues
VideoAuteur: Towards Long Narrative Video Generation

Jan 10

ByJunfei Xiao, Feng Cheng, Lu Qi, Liangke Gui, Jiepeng Cen, Zhibei Ma, Alan Yuille, Lu Jiang

Les modèles récents de génération de vidéos ont montré des résultats prometteurs dans la production de clips vidéo de haute qualité d'une durée de plusieurs secondes. Cependant, ces modèles sont confrontés à des défis pour générer de longues séquences qui transmettent des événements clairs et informatifs, limitant leur capacité à soutenir des narrations cohérentes. Dans cet article, nous présentons un ensemble de données vidéo de cuisine à grande échelle conçu pour faire progresser la génération de récits de longue durée dans le domaine de la cuisine. Nous validons la qualité de notre ensemble de données proposé en termes de fidélité visuelle et d'exactitude des légendes textuelles en utilisant respectivement des Modèles Vision-Langage de pointe (VLM) et des modèles de génération de vidéos. Nous introduisons en outre un Directeur Vidéo Narratif Long pour améliorer à la fois la cohérence visuelle et sémantique dans les vidéos générées et souligner le rôle de l'alignement des plongements visuels pour obtenir une qualité vidéo globale améliorée. Notre méthode démontre des améliorations substantielles dans la génération de keyframes visuellement détaillés et sémantiquement alignés, soutenue par des techniques de fine-tuning qui intègrent des plongements textuels et d'image dans le processus de génération de vidéos. Page du projet : https://videoauteur.github.io/

Parcours de Réplication O1 - Partie 3 : Mise à l'échelle au moment de l'inférence pour le raisonnement médical
O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning

Jan 11

ByZhongzhen Huang, Gui Geng, Shengyi Hua, Zhen Huang, Haoyang Zou, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang

S'appuyant sur nos recherches antérieures sur la réplication O1 (Partie 1 : Apprentissage du Voyage [Qin et al., 2024] et Partie 2 : Distillation [Huang et al., 2024]), ce travail explore le potentiel de l'échelle de temps d'inférence dans les grands modèles de langage (LLM) pour les tâches de raisonnement médical, allant de la prise de décision diagnostique à la planification du traitement. À travers des expériences approfondies sur des référentiels médicaux de complexité variable (MedQA, Medbullets et JAMA Clinical Challenges), notre enquête révèle plusieurs idées clés : (1) Augmenter le temps d'inférence conduit à une amélioration des performances. Avec un ensemble d'entraînement modeste de 500 échantillons, notre modèle produit des améliorations de performances substantielles de 6 % à 11 %. (2) La complexité de la tâche est directement liée à la longueur requise des chaînes de raisonnement, confirmant la nécessité de processus de réflexion étendus pour les problèmes difficiles. (3) Les diagnostics différentiels générés par notre modèle respectent les principes de la méthode hypothético-déductive, produisant une liste de conditions potentielles pouvant expliquer les symptômes d'un patient et réduisant systématiquement ces possibilités en évaluant les preuves. Ces résultats démontrent la synergie prometteuse entre l'échelle de temps d'inférence et l'apprentissage du voyage dans le développement des capacités de raisonnement clinique en monde réel des LLM.

WebWalker : Évaluation des LLM dans la Traversée Web
WebWalker: Benchmarking LLMs in Web Traversal

Jan 13

ByJialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Deyu Zhou, Pengjun Xie, Fei Huang

La génération augmentée par recherche (RAG) démontre des performances remarquables à travers diverses tâches en réponse à des questions en domaine ouvert. Cependant, les moteurs de recherche traditionnels peuvent récupérer des contenus superficiels, limitant la capacité des LLM à traiter des informations complexes et multi-niveaux. Pour y remédier, nous introduisons WebWalkerQA, un banc d'essai conçu pour évaluer la capacité des LLM à effectuer une traversée du web. Il évalue la capacité des LLM à parcourir les sous-pages d'un site web pour extraire des données de haute qualité de manière systématique. Nous proposons WebWalker, qui est un cadre multi-agent imitant la navigation web de manière similaire à l'humain à travers un paradigme d'exploration-critique. De vastes résultats expérimentaux montrent que WebWalkerQA est un défi et démontre l'efficacité de la combinaison de RAG avec WebWalker, à travers l'intégration horizontale et verticale dans des scénarios réels.

SPAM : Spike-Aware Adam avec Réinitialisation du Momentum pour un Entraînement Stable de LLM
SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training

Jan 12

ByTianjin Huang, Ziquan Zhu, Gaojie Jin, Lu Liu, Zhangyang Wang, Shiwei Liu

Les grands modèles de langage (LLMs) ont démontré des performances exceptionnelles dans diverses tâches, mais leur entraînement reste très gourmand en ressources et sujet à des défis critiques tels que l'instabilité de l'entraînement. Une source prédominante de cette instabilité provient des pics de gradient et de perte, qui perturbent le processus d'apprentissage, entraînant souvent des interventions coûteuses telles que la récupération de points de contrôle et le redémarrage des expériences, amplifiant ainsi les inefficacités. Cet article présente une enquête approfondie sur les pics de gradient observés lors de l'entraînement des LLM, révélant leur prévalence à travers plusieurs architectures et ensembles de données. Notre analyse montre que ces pics peuvent être jusqu'à 1000 fois plus grands que les gradients typiques, détériorant considérablement les performances du modèle. Pour résoudre ce problème, nous proposons Spike-Aware Adam avec Momentum Reset SPAM, un nouvel optimiseur conçu pour contrer les pics de gradient grâce à une réinitialisation de la quantité de mouvement et un rognage de gradient conscient des pics. Des expériences approfondies, comprenant à la fois la pré-formation et le fine-tuning, démontrent que SPAM surpasse de manière constante Adam et ses variantes dans diverses tâches, y compris (1) la pré-formation des LLM de 60M à 1B, (2) la pré-formation des LLM sur 4 bits, (3) l'apprentissage par renforcement et (4) la prévision de séries temporelles. De plus, SPAM facilite l'entraînement efficace en mémoire en permettant un moment clairsemé, où seul un sous-ensemble de termes de moment est conservé et mis à jour. Lorsqu'il fonctionne sous contraintes de mémoire, SPAM surpasse les optimiseurs efficaces en mémoire de pointe tels que GaLore et Adam-Mini. Notre travail souligne l'importance d'atténuer les pics de gradient dans l'entraînement des LLM et introduit une stratégie d'optimisation efficace qui améliore à la fois la stabilité de l'entraînement et l'efficacité des ressources à grande échelle. Le code est disponible sur https://github.com/TianjinYellow/SPAM-Optimizer.git

Objets inhabituels en 3D
UnCommon Objects in 3D

Jan 13

ByXingchen Liu, Piyush Tayal, Jianyuan Wang, Jesus Zarzar, Tom Monnier, Konstantinos Tertikas, Jiali Duan, Antoine Toisoul, Jason Y. Zhang, Natalia Neverova, Andrea Vedaldi, Roman Shapovalov, David Novotny

Nous présentons Objets Insolites en 3D (uCO3D), un nouveau jeu de données centré sur les objets pour l'apprentissage profond en 3D et l'IA générative en 3D. uCO3D est la plus grande collection publiquement disponible de vidéos haute résolution d'objets avec des annotations en 3D garantissant une couverture complète à 360 degrés. uCO3D est significativement plus diversifié que MVImgNet et CO3Dv2, couvrant plus de 1 000 catégories d'objets. Il est également de meilleure qualité, grâce à des contrôles de qualité approfondis des vidéos collectées et des annotations en 3D. Tout comme des jeux de données analogues, uCO3D contient des annotations pour les poses de caméra en 3D, les cartes de profondeur et des nuages de points épars. De plus, chaque objet est accompagné d'une légende et d'une reconstruction en éclaboussures gaussiennes en 3D. Nous entraînons plusieurs grands modèles 3D sur MVImgNet, CO3Dv2 et uCO3D et obtenons des résultats supérieurs avec ce dernier, démontrant que uCO3D est plus adapté aux applications d'apprentissage.

ChemAgent : Bibliothèque auto-actualisante dans les grands modèles de langage améliore le raisonnement chimique
ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Jan 11

ByXiangru Tang, Tianyu Hu, Muyang Ye, Yanjun Shao, Xunjian Yin, Siru Ouyang, Wangchunshu Zhou, Pan Lu, Zhuosheng Zhang, Yilun Zhao, Arman Cohan, Mark Gerstein

Le raisonnement chimique implique généralement des processus complexes et multi-étapes qui exigent des calculs précis, où même de légères erreurs peuvent entraîner des échecs en cascade. De plus, les grands modèles de langage (LLMs) rencontrent des difficultés à traiter les formules spécifiques au domaine, à exécuter les étapes de raisonnement avec précision et à intégrer efficacement du code lors de la résolution de tâches de raisonnement chimique. Pour relever ces défis, nous présentons ChemAgent, un nouveau cadre conçu pour améliorer les performances des LLMs grâce à une bibliothèque dynamique et auto-actualisée. Cette bibliothèque est développée en décomposant les tâches chimiques en sous-tâches et en compilant ces sous-tâches dans une collection structurée pouvant être référencée pour des requêtes futures. Ensuite, lorsqu'un nouveau problème est présenté, ChemAgent extrait et affine les informations pertinentes de la bibliothèque, que nous appelons mémoire, facilitant la décomposition efficace des tâches et la génération de solutions. Notre méthode conçoit trois types de mémoire et un composant de raisonnement amélioré par la bibliothèque, permettant aux LLMs de s'améliorer avec le temps grâce à l'expérience. Les résultats expérimentaux sur quatre ensembles de données de raisonnement chimique de SciBench montrent que ChemAgent obtient des gains de performance allant jusqu'à 46% (GPT-4), surpassant significativement les méthodes existantes. Nos résultats suggèrent un potentiel substantiel pour des applications futures, notamment dans des tâches telles que la découverte de médicaments et la science des matériaux. Notre code est disponible sur https://github.com/gersteinlab/chemagent

Évaluation de l'utilité de l'échantillon pour la sélection des données en imitant les poids du modèle
Evaluating Sample Utility for Data Selection by Mimicking Model Weights

Jan 12

ByTzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan

Les modèles fondamentaux reposent sur des ensembles de données collectés à grande échelle sur le web, qui contiennent fréquemment des données bruitées, des biais et du contenu non pertinent. Les techniques existantes de sélection de données utilisent généralement des heuristiques humaines, des ensembles de données d'évaluation en aval, ou des modèles de notation spécialisés, et peuvent négliger l'utilité des échantillons dans le processus d'entraînement. Au lieu de cela, nous proposons une nouvelle approche, le Score Mimic, une métrique de qualité des données qui utilise un modèle de référence pré-entraîné comme guide pour évaluer l'utilité des échantillons de données pour l'entraînement d'un nouveau modèle. Il repose sur l'alignement entre le gradient des nouveaux paramètres du modèle et le vecteur pointant vers le modèle de référence dans l'espace des poids. Les échantillons qui ne s'alignent pas dans cette direction sont considérés comme ayant une faible valeur et peuvent être filtrés. Inspiré par le score Mimic, nous développons Grad-Mimic, un cadre de sélection de données qui identifie et priorise les échantillons utiles, automatisant le processus de sélection pour créer des filtres efficaces. Empiriquement, l'utilisation des scores Mimic pour guider l'entraînement du modèle entraîne des gains de performance cohérents sur six ensembles de données d'images et améliore les performances des modèles CLIP. De plus, les scores Mimic et leurs filtres associés améliorent les méthodes de filtrage existantes et offrent une estimation précise de la qualité de l'ensemble de données.

MinMo : Un grand modèle de langage multimodal pour une interaction vocale transparente
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction

Jan 10