HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

13 papers found

rStar-Math : Les petits LLM peuvent maîtriser le raisonnement mathématique avec une réflexion profonde auto-évoluée.
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Jan 8

ByXinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang

286

Nous présentons rStar-Math pour démontrer que les petits modèles de langage (SLM) peuvent rivaliser, voire surpasser, la capacité de raisonnement mathématique de l'OpenAI o1, sans distillation à partir de modèles supérieurs. rStar-Math parvient à cela en exerçant une "réflexion approfondie" à travers la recherche arborescente Monte Carlo (MCTS), où un SLM de politique mathématique effectue une recherche en temps réel guidée par un modèle de récompense de processus basé sur un SLM. rStar-Math introduit trois innovations pour relever les défis liés à l'entraînement des deux SLM : (1) une nouvelle méthode de synthèse de données CoT augmentée de code, qui effectue des déploiements MCTS étendus pour générer des trajectoires de raisonnement vérifiées étape par étape utilisées pour entraîner le SLM de politique ; (2) une nouvelle méthode d'entraînement du modèle de récompense de processus qui évite l'annotation naïve des scores au niveau des étapes, produisant un modèle de préférence de processus (PPM) plus efficace ; (3) une recette d'auto-évolution dans laquelle le SLM de politique et le PPM sont construits à partir de zéro et évoluent de manière itérative pour améliorer les capacités de raisonnement. À travers 4 cycles d'auto-évolution avec des millions de solutions synthétisées pour 747 000 problèmes mathématiques, rStar-Math améliore le raisonnement mathématique des SLM à des niveaux de pointe. Sur le banc d'essai MATH, il améliore Qwen2.5-Math-7B de 58,8 % à 90,0 % et Phi3-mini-3.8B de 41,4 % à 86,4 %, dépassant o1-preview de +4,5 % et +0,9 %. Lors de l'Olympiade Américaine de Mathématiques (AIME), rStar-Math résout en moyenne 53,3 % (8/15) des problèmes, se classant parmi les 20 % des élèves de mathématiques les plus brillants du lycée. Le code et les données seront disponibles sur https://github.com/microsoft/rStar.

Recherche-o1 : Modèles de raisonnement étendus améliorés par la recherche agentique
Search-o1: Agentic Search-Enhanced Large Reasoning Models

Jan 9

ByXiaoxi Li, Guanting Dong, Jiajie Jin, Yuyao Zhang, Yujia Zhou, Yutao Zhu, Peitian Zhang, Zhicheng Dou

102

Les grands modèles de raisonnement (LRM) tels que OpenAI-o1 ont démontré des capacités impressionnantes de raisonnement étape par étape à long terme grâce à l'apprentissage par renforcement à grande échelle. Cependant, leurs processus de raisonnement étendus souffrent souvent d'une insuffisance de connaissances, entraînant des incertitudes fréquentes et des erreurs potentielles. Pour remédier à cette limitation, nous introduisons Search-o1, un cadre qui améliore les LRM avec un mécanisme de génération augmentée par récupération agentic (RAG) et un module Raison-dans-les-Documents pour affiner les documents récupérés. Search-o1 intègre un flux de travail de recherche agentic dans le processus de raisonnement, permettant la récupération dynamique de connaissances externes lorsque les LRM rencontrent des points de connaissance incertains. De plus, en raison de la nature verbeuse des documents récupérés, nous concevons un module séparé Raison-dans-les-Documents pour analyser profondément les informations récupérées avant de les injecter dans la chaîne de raisonnement, minimisant le bruit et préservant un flux de raisonnement cohérent. Des expériences approfondies sur des tâches de raisonnement complexes en science, mathématiques et codage, ainsi que sur six bancs d'essai de questions-réponses en domaine ouvert, démontrent les performances solides de Search-o1. Cette approche améliore la fiabilité et l'applicabilité des LRM dans des tâches de raisonnement complexes, ouvrant la voie à des systèmes intelligents plus fiables et polyvalents. Le code est disponible sur https://github.com/sunnynexus/Search-o1.

Vers un raisonnement de Système 2 dans les LLM : Apprendre à Penser Avec la Méta Chaîne de Pensée
Towards System 2 Reasoning in LLMs: Learning How to Think With Meta Chain-of-Though

Jan 8

ByViolet Xiang, Charlie Snell, Kanishk Gandhi, Alon Albalak, Anikait Singh, Chase Blagden, Duy Phung, Rafael Rafailov, Nathan Lile, Dakota Mahan, Louis Castricato, Jan-Philipp Franken, Nick Haber, Chelsea Finn

Nous proposons un nouveau cadre, Meta Chaîne-de-Pensée (Meta-CoT), qui étend la Chaîne-de-Pensée traditionnelle (CoT) en modélisant explicitement le raisonnement sous-jacent nécessaire pour parvenir à une CoT particulière. Nous présentons des preuves empiriques issues de modèles de pointe exhibant des comportements cohérents avec la recherche en contexte, et explorons des méthodes pour produire des Meta-CoT via la supervision de processus, la génération de données synthétiques et des algorithmes de recherche. Enfin, nous décrivons un pipeline concret pour entraîner un modèle à produire des Meta-CoTs, en intégrant un réglage d'instructions avec des traces de recherche linéarisées et un renforcement de l'apprentissage post-entraînement. Enfin, nous discutons des questions de recherche ouvertes, y compris les lois d'échelle, les rôles des vérificateurs et le potentiel de découverte de nouveaux algorithmes de raisonnement. Ce travail fournit une feuille de route théorique et pratique pour permettre le Meta-CoT dans les LLMs, ouvrant la voie à un raisonnement plus puissant et plus humain en intelligence artificielle.

Laboratoire d'agents : Utilisation d'agents LLM comme assistants de recherche
Agent Laboratory: Using LLM Agents as Research Assistants

Jan 8

BySamuel Schmidgall, Yusheng Su, Ze Wang, Ximeng Sun, Jialian Wu, Xiaodong Yu, Jiang Liu, Zicheng Liu, Emad Barsoum

Historiquement, la découverte scientifique a été un processus long et coûteux, demandant un temps et des ressources considérables de la conception initiale aux résultats finaux. Pour accélérer la découverte scientifique, réduire les coûts de recherche et améliorer la qualité de la recherche, nous introduisons Agent Laboratory, un cadre autonome basé sur LLM capable de mener à bien l'ensemble du processus de recherche. Ce cadre accepte une idée de recherche fournie par l'humain et progresse à travers trois étapes - revue de la littérature, expérimentation et rédaction de rapports - pour produire des résultats de recherche complets, y compris un référentiel de code et un rapport de recherche, tout en permettant aux utilisateurs de fournir des commentaires et des orientations à chaque étape. Nous déployons Agent Laboratory avec divers LLM de pointe et invitons plusieurs chercheurs à évaluer sa qualité en participant à une enquête, en fournissant des retours humains pour guider le processus de recherche, puis en évaluant le document final. Nous avons constaté que : (1) Agent Laboratory piloté par o1-preview génère les meilleurs résultats de recherche ; (2) Le code d'apprentissage automatique généré est capable d'atteindre des performances de pointe par rapport aux méthodes existantes ; (3) L'implication humaine, fournissant des retours à chaque étape, améliore significativement la qualité globale de la recherche ; (4) Agent Laboratory réduit considérablement les dépenses de recherche, réalisant une réduction de 84 % par rapport aux méthodes de recherche autonomes précédentes. Nous espérons qu'Agent Laboratory permettra aux chercheurs de consacrer plus d'efforts à l'idéation créative plutôt qu'à la programmation et à la rédaction de bas niveau, accélérant ainsi la découverte scientifique.

URSA : Compréhension et Vérification du Raisonnement en Chaîne de Pensée en Mathématiques Multimodales
URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

Jan 8

ByRuilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang

Le raisonnement en chaîne de pensée (CoT) a été largement appliqué dans le raisonnement mathématique des Grands Modèles de Langage (LLMs). Récemment, l'introduction de la supervision du processus dérivé sur les trajectoires CoT a suscité des discussions sur l'amélioration des capacités de mise à l'échelle lors du test, augmentant ainsi le potentiel de ces modèles. Cependant, dans le raisonnement mathématique multimodal, la rareté des données d'entraînement CoT de haute qualité a entravé les modèles existants dans l'atteinte d'un raisonnement CoT de haute précision et a limité la réalisation du potentiel de raisonnement lors du test. Dans ce travail, nous proposons une stratégie de synthèse à trois modules qui intègre la distillation CoT, la réécriture au format trajectoire et l'unification de format. Cela se traduit par un ensemble de données d'ajustement d'instruction de raisonnement CoT de haute qualité en mathématiques multimodales, MMathCoT-1M. Nous validons de manière exhaustive les performances de pointe (SOTA) du modèle entraîné URSA-7B sur plusieurs référentiels mathématiques multimodaux. Pour la mise à l'échelle au moment du test, nous introduisons une stratégie de synthèse de données qui génère automatiquement des ensembles de données d'annotation de processus, appelés DualMath-1.1M, se concentrant à la fois sur l'interprétation et la logique. En formant davantage URSA-7B sur DualMath-1.1M, nous passons des capacités de raisonnement CoT à des capacités de supervision robustes. Le modèle entraîné URSA-RM-7B agit comme un vérificateur, améliorant efficacement les performances de URSA-7B au moment du test. URSA-RM-7B démontre également d'excellentes capacités de vérification hors distribution (OOD), mettant en valeur sa généralisation. Les poids du modèle, les données d'entraînement et le code seront rendus open source.

LLM4SR : Une enquête sur les grands modèles de langage pour la recherche scientifique
LLM4SR: A Survey on Large Language Models for Scientific Research

Jan 8

ByZiming Luo, Zonglin Yang, Zexin Xu, Wei Yang, Xinya Du

Ces dernières années, l'avancée rapide des Grands Modèles de Langage (GML) a transformé le paysage de la recherche scientifique, offrant un soutien sans précédent à travers diverses étapes du cycle de recherche. Cet article présente la première enquête systématique dédiée à explorer comment les GML révolutionnent le processus de recherche scientifique. Nous analysons les rôles uniques joués par les GML à travers quatre étapes critiques de la recherche : la découverte d'hypothèses, la planification et la mise en œuvre d'expériences, l'écriture scientifique et l'évaluation par les pairs. Notre revue présente de manière exhaustive les méthodologies spécifiques aux tâches et les critères d'évaluation. En identifiant les défis actuels et en proposant des orientations pour la recherche future, cette enquête met en lumière non seulement le potentiel transformateur des GML, mais vise également à inspirer et guider les chercheurs et praticiens dans l'utilisation des GML pour faire progresser l'enquête scientifique. Les ressources sont disponibles sur le dépôt suivant : https://github.com/du-nlp-lab/LLM4SR

InfiGUIAgent : Un agent GUI généraliste multimodal avec raisonnement et réflexion natifs
InfiGUIAgent: A Multimodal Generalist GUI Agent with Native Reasoning and Reflection

Jan 8

ByYuhang Liu, Pengxiang Li, Zishu Wei, Congkai Xie, Xueyu Hu, Xinchen Xu, Shengyu Zhang, Xiaotian Han, Hongxia Yang, Fei Wu

Les agents d'Interface Utilisateur Graphique (IUG), alimentés par des modèles linguistiques multimodaux de grande taille (MLLM), ont montré un grand potentiel pour l'automatisation des tâches sur des dispositifs informatiques tels que les ordinateurs et les téléphones mobiles. Cependant, les agents existants rencontrent des défis en matière de raisonnement multi-étapes et de dépendance aux annotations textuelles, limitant leur efficacité. Nous présentons InfiGUIAgent, un agent IUG basé sur les MLLM entraîné avec un pipeline de fine-tuning supervisé en deux étapes. La première étape améliore les compétences fondamentales telles que la compréhension de l'IUG et l'ancrage, tandis que la deuxième étape intègre un raisonnement hiérarchique et des compétences de raisonnement par réflexion sur les attentes en utilisant des données synthétisées pour permettre aux agents des capacités de raisonnement natives. InfiGUIAgent atteint des performances compétitives sur plusieurs bancs d'essai d'IUG, mettant en évidence l'impact des compétences de raisonnement natives dans l'amélioration de l'interaction IUG pour les tâches d'automatisation. Les ressources sont disponibles sur https://github.com/Reallm-Labs/InfiGUIAgent.

GeAR : Génération Augmentée de Recherche
GeAR: Generation Augmented Retrieval

Jan 6

ByHaoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang

Les techniques de récupération de documents forment la base du développement de systèmes d'information à grande échelle. La méthodologie prédominante consiste à construire un bi-codageur et à calculer la similarité sémantique. Cependant, une telle similarité scalaire est difficile à interpréter suffisamment et entrave notre compréhension des résultats de la récupération. De plus, ce processus de calcul met principalement l'accent sur la sémantique globale et ignore la relation sémantique détaillée entre la requête et le texte complexe dans le document. Dans cet article, nous proposons une nouvelle méthode appelée Récupération Augmentée par Génération (GeAR) qui intègre des modules de fusion et de décodage bien conçus. Cela permet à GeAR de générer le texte pertinent à partir des documents en se basant sur la représentation fusionnée de la requête et du document, apprenant ainsi à se "concentrer" sur les informations détaillées. De plus, lorsqu'il est utilisé comme outil de recherche, GeAR n'ajoute aucune charge computationnelle par rapport aux bi-codageurs. Pour soutenir l'entraînement du nouveau cadre, nous avons introduit un pipeline pour synthétiser efficacement des données de haute qualité en utilisant de grands modèles de langage. GeAR présente des performances de recherche et de localisation compétitives dans divers scénarios et ensembles de données. De plus, l'analyse qualitative et les résultats générés par GeAR offrent de nouvelles perspectives sur l'interprétation des résultats de recherche. Le code, les données et les modèles seront publiés après une revue technique complète pour faciliter les futures recherches.

Chirpy3D : Latents de Parties Continues pour la Génération Créative d'Oiseaux 3D
Chirpy3D: Continuous Part Latents for Creative 3D Bird Generation

Jan 7

ByKam Woh Ng, Jing Yang, Jia Wei Sii, Jiankang Deng, Chee Seng Chan, Yi-Zhe Song, Tao Xiang, Xiatian Zhu

Dans cet article, nous repoussons les limites de la génération 3D détaillée dans un territoire vraiment créatif. Les méthodes actuelles manquent soit de détails complexes, soit se contentent de reproduire des objets existants - nous permettons les deux. En élevant la compréhension détaillée en 2D en 3D à travers la diffusion multi-vues et la modélisation des parties latentes sous forme de distributions continues, nous débloquons la capacité de générer des parties entièrement nouvelles, mais plausibles, par interpolation et échantillonnage. Une perte de cohérence des caractéristiques auto-supervisée garantit en outre une génération stable de ces parties invisibles. Le résultat est le premier système capable de créer de nouveaux objets 3D avec des détails spécifiques à l'espèce qui transcendent les exemples existants. Bien que nous démontrions notre approche sur les oiseaux, le cadre sous-jacent s'étend au-delà des choses qui peuvent gazouiller ! Le code sera publié sur https://github.com/kamwoh/chirpy3d.

SPAR3D : Reconstruction Stable d'Objets 3D à partir d'Images Simples en Tenant Compte des Points
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images

Jan 8

ByZixuan Huang, Mark Boss, Aaryaman Vasishta, James M. Rehg, Varun Jampani

Nous étudions le problème de la reconstruction tridimensionnelle d'objets à partir d'une seule image. Les travaux récents se sont divergés en deux directions : la modélisation basée sur la régression et la modélisation générative. Les méthodes de régression infèrent efficacement les surfaces visibles, mais rencontrent des difficultés avec les régions occultées. Les méthodes génératives gèrent mieux les régions incertaines en modélisant des distributions, mais sont computationnellement coûteuses et la génération est souvent mal alignée avec les surfaces visibles. Dans cet article, nous présentons SPAR3D, une approche novatrice en deux étapes visant à tirer le meilleur parti des deux directions. La première étape de SPAR3D génère des nuages de points 3D épars en utilisant un modèle de diffusion de points léger, qui a une vitesse d'échantillonnage rapide. La deuxième étape utilise à la fois le nuage de points échantillonné et l'image d'entrée pour créer des maillages très détaillés. Notre conception en deux étapes permet une modélisation probabiliste de la tâche tridimensionnelle à partir d'une seule image, tout en maintenant une efficacité computationnelle élevée et une grande fidélité de sortie. L'utilisation de nuages de points comme représentation intermédiaire permet en outre des modifications interactives par l'utilisateur. Évalué sur des ensembles de données divers, SPAR3D démontre des performances supérieures aux méthodes précédentes de pointe, à une vitesse d'inférence de 0,7 seconde. Page du projet avec le code et le modèle : https://spar3d.github.io

EpiCoder : Englobant la diversité et la complexité dans la génération de code
EpiCoder: Encompassing Diversity and Complexity in Code Generation

Jan 8

ByYaoxiang Wang, Haoling Li, Xin Zhang, Jie Wu, Xiao Liu, Wenxiang Hu, Zhongxin Guo, Yangyu Huang, Ying Xin, Yujiu Yang, Jinsong Su, Qi Chen, Scarlett Li

L'ajustement efficace de l'instruction est indispensable pour optimiser les LLM de code, aligner le comportement du modèle avec les attentes des utilisateurs et améliorer les performances du modèle dans les applications du monde réel. Cependant, la plupart des méthodes existantes se concentrent sur des extraits de code, qui sont limités à des fonctionnalités spécifiques et des structures rigides, restreignant la complexité et la diversité des données synthétisées. Pour remédier à ces limitations, nous introduisons un nouveau cadre de synthèse basé sur un arbre de fonctionnalités, inspiré des Arbres de Syntaxe Abstraite (AST). Contrairement à l'AST, qui capture la structure syntaxique du code, notre cadre modélise les relations sémantiques entre les éléments de code, permettant la génération de données plus nuancées et diversifiées. L'arbre de fonctionnalités est construit à partir de données brutes et affiné de manière itérative pour augmenter la quantité et la diversité des fonctionnalités extraites. Ce processus permet d'identifier des motifs et des relations plus complexes au sein du code. En échantillonnant des sous-arbres avec une profondeur et une largeur contrôlées, notre cadre permet des ajustements précis de la complexité du code généré, soutenant une large gamme de tâches, des opérations simples au niveau des fonctions aux scénarios complexes multi-fichiers. Nous avons affiné des modèles de base largement utilisés pour créer la série EpiCoder, atteignant des performances de pointe à la fois au niveau des fonctions et des fichiers sur plusieurs benchmarks. Notamment, des preuves empiriques indiquent que notre approche montre un potentiel significatif dans la synthèse de données de code de niveau de référentiel hautement complexes. Une analyse plus poussée met en lumière les mérites de cette approche en évaluant rigoureusement la complexité et la diversité des données à travers des principes de génie logiciel et la méthode LLM-comme-juge.

Optimisation fine du récupérateur multi-tâches pour un RAG spécifique au domaine et efficace.
Multi-task retriever fine-tuning for domain-specific and efficient RAG

Jan 8

ByPatrice Béchard, Orlando Marquez Ayala

La Génération Améliorée par Récupération (RAG) est devenue omniprésente lors du déploiement des Grands Modèles de Langage (LLM), car elle peut résoudre des limitations typiques telles que la génération d'informations hallucinées ou obsolètes. Cependant, lors de la création d'applications RAG dans le monde réel, des problèmes pratiques surviennent. Premièrement, les informations récupérées sont généralement spécifiques à un domaine. Comme il est coûteux en termes de calcul de peaufiner les LLM, il est plus réalisable de peaufiner le récupérateur pour améliorer la qualité des données incluses dans l'entrée du LLM. Deuxièmement, à mesure que davantage d'applications sont déployées dans le même système du monde réel, il n'est pas possible de se permettre de déployer des récupérateurs séparés. De plus, ces applications RAG récupèrent normalement différents types de données. Notre solution consiste à peaufiner de manière instructive un petit encodeur de récupération sur une variété de tâches spécifiques à un domaine pour nous permettre de déployer un encodeur qui peut servir à de nombreux cas d'utilisation, permettant ainsi d'obtenir un faible coût, une extensibilité et une rapidité. Nous montrons comment cet encodeur se généralise à des paramètres hors domaine ainsi qu'à une tâche de récupération inconnue sur des cas d'utilisation d'entreprise du monde réel.

Noyaux DPO : Un paradigme pour l'optimisation directe des préférences, conscient de la sémantique, amélioré par des noyaux et riche en divergences.
DPO Kernels: A Semantically-Aware, Kernel-Enhanced, and Divergence-Rich Paradigm for Direct Preference Optimization

Jan 5

ByAmitava Das, Suranjana Trivedy, Danush Khanna, Rajarshi Roy, Gurpreet Singh, Basab Ghosh, Yaswanth Narsupalli, Vinija Jain, Vasu Sharma, Aishwarya Naresh Reganti, Aman Chadha

La montée rapide des grands modèles de langage (GML) a débloqué de nombreuses applications, mais souligne également le défi de les aligner avec des valeurs et des préférences diverses. L'Optimisation Directe des Préférences (ODP) est essentielle pour l'alignement, mais elle est limitée par des divergences fixes et des transformations de caractéristiques limitées. Nous proposons les Noyaux ODP, qui intègrent des méthodes de noyau pour résoudre ces problèmes à travers quatre contributions clés : (i) des Représentations Noyautées avec des noyaux polynomiaux, RBF, Mahalanobis et spectraux pour des transformations plus riches, ainsi qu'une perte hybride combinant des objectifs basés sur l'incorporation et des probabilités ; (ii) des Alternatives de Divergence (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein et f-divergences) pour une plus grande stabilité ; (iii) des Métriques de Sélection basées sur les Données qui choisissent automatiquement le meilleur couple noyau-divergence ; et (iv) un Mélange Hiérarchique de Noyaux pour une précision locale et une modélisation globale. Les évaluations sur 12 ensembles de données démontrent des performances de pointe en matière de factualité, de sécurité, de raisonnement et de suivi des instructions. Ancré dans l'Auto-Régularisation à Queues Lourdes, les Noyaux ODP maintiennent une généralisation robuste pour les GML, offrant ainsi une ressource complète pour de futures recherches en alignement.

EpiCoder : Englobant la diversité et la complexité dans la génération de code
EpiCoder: Encompassing Diversity and Complexity in Code Generation

Jan 8

ByYaoxiang Wang, Haoling Li, Xin Zhang, Jie Wu, Xiao Liu, Wenxiang Hu, Zhongxin Guo, Yangyu Huang, Ying Xin, Yujiu Yang, Jinsong Su, Qi Chen, Scarlett Li