Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons rStar-Math pour démontrer que les petits modèles de langage (SLM) peuvent rivaliser, voire surpasser, la capacité de raisonnement mathématique de l'OpenAI o1, sans distillation à partir de modèles supérieurs. rStar-Math parvient à cela en exerçant une "réflexion approfondie" à travers la recherche arborescente Monte Carlo (MCTS), où un SLM de politique mathématique effectue une recherche en temps réel guidée par un modèle de récompense de processus basé sur un SLM. rStar-Math introduit trois innovations pour relever les défis liés à l'entraînement des deux SLM : (1) une nouvelle méthode de synthèse de données CoT augmentée de code, qui effectue des déploiements MCTS étendus pour générer des trajectoires de raisonnement vérifiées étape par étape utilisées pour entraîner le SLM de politique ; (2) une nouvelle méthode d'entraînement du modèle de récompense de processus qui évite l'annotation naïve des scores au niveau des étapes, produisant un modèle de préférence de processus (PPM) plus efficace ; (3) une recette d'auto-évolution dans laquelle le SLM de politique et le PPM sont construits à partir de zéro et évoluent de manière itérative pour améliorer les capacités de raisonnement. À travers 4 cycles d'auto-évolution avec des millions de solutions synthétisées pour 747 000 problèmes mathématiques, rStar-Math améliore le raisonnement mathématique des SLM à des niveaux de pointe. Sur le banc d'essai MATH, il améliore Qwen2.5-Math-7B de 58,8 % à 90,0 % et Phi3-mini-3.8B de 41,4 % à 86,4 %, dépassant o1-preview de +4,5 % et +0,9 %. Lors de l'Olympiade Américaine de Mathématiques (AIME), rStar-Math résout en moyenne 53,3 % (8/15) des problèmes, se classant parmi les 20 % des élèves de mathématiques les plus brillants du lycée. Le code et les données seront disponibles sur https://github.com/microsoft/rStar.
Nous proposons un nouveau cadre, Meta Chaîne-de-Pensée (Meta-CoT), qui étend la Chaîne-de-Pensée traditionnelle (CoT) en modélisant explicitement le raisonnement sous-jacent nécessaire pour parvenir à une CoT particulière. Nous présentons des preuves empiriques issues de modèles de pointe exhibant des comportements cohérents avec la recherche en contexte, et explorons des méthodes pour produire des Meta-CoT via la supervision de processus, la génération de données synthétiques et des algorithmes de recherche. Enfin, nous décrivons un pipeline concret pour entraîner un modèle à produire des Meta-CoTs, en intégrant un réglage d'instructions avec des traces de recherche linéarisées et un renforcement de l'apprentissage post-entraînement. Enfin, nous discutons des questions de recherche ouvertes, y compris les lois d'échelle, les rôles des vérificateurs et le potentiel de découverte de nouveaux algorithmes de raisonnement. Ce travail fournit une feuille de route théorique et pratique pour permettre le Meta-CoT dans les LLMs, ouvrant la voie à un raisonnement plus puissant et plus humain en intelligence artificielle.
Historiquement, la découverte scientifique a été un processus long et coûteux, demandant un temps et des ressources considérables de la conception initiale aux résultats finaux. Pour accélérer la découverte scientifique, réduire les coûts de recherche et améliorer la qualité de la recherche, nous introduisons Agent Laboratory, un cadre autonome basé sur LLM capable de mener à bien l'ensemble du processus de recherche. Ce cadre accepte une idée de recherche fournie par l'humain et progresse à travers trois étapes - revue de la littérature, expérimentation et rédaction de rapports - pour produire des résultats de recherche complets, y compris un référentiel de code et un rapport de recherche, tout en permettant aux utilisateurs de fournir des commentaires et des orientations à chaque étape. Nous déployons Agent Laboratory avec divers LLM de pointe et invitons plusieurs chercheurs à évaluer sa qualité en participant à une enquête, en fournissant des retours humains pour guider le processus de recherche, puis en évaluant le document final. Nous avons constaté que : (1) Agent Laboratory piloté par o1-preview génère les meilleurs résultats de recherche ; (2) Le code d'apprentissage automatique généré est capable d'atteindre des performances de pointe par rapport aux méthodes existantes ; (3) L'implication humaine, fournissant des retours à chaque étape, améliore significativement la qualité globale de la recherche ; (4) Agent Laboratory réduit considérablement les dépenses de recherche, réalisant une réduction de 84 % par rapport aux méthodes de recherche autonomes précédentes. Nous espérons qu'Agent Laboratory permettra aux chercheurs de consacrer plus d'efforts à l'idéation créative plutôt qu'à la programmation et à la rédaction de bas niveau, accélérant ainsi la découverte scientifique.
Le raisonnement en chaîne de pensée (CoT) a été largement appliqué dans le raisonnement mathématique des Grands Modèles de Langage (LLMs). Récemment, l'introduction de la supervision du processus dérivé sur les trajectoires CoT a suscité des discussions sur l'amélioration des capacités de mise à l'échelle lors du test, augmentant ainsi le potentiel de ces modèles. Cependant, dans le raisonnement mathématique multimodal, la rareté des données d'entraînement CoT de haute qualité a entravé les modèles existants dans l'atteinte d'un raisonnement CoT de haute précision et a limité la réalisation du potentiel de raisonnement lors du test. Dans ce travail, nous proposons une stratégie de synthèse à trois modules qui intègre la distillation CoT, la réécriture au format trajectoire et l'unification de format. Cela se traduit par un ensemble de données d'ajustement d'instruction de raisonnement CoT de haute qualité en mathématiques multimodales, MMathCoT-1M. Nous validons de manière exhaustive les performances de pointe (SOTA) du modèle entraîné URSA-7B sur plusieurs référentiels mathématiques multimodaux. Pour la mise à l'échelle au moment du test, nous introduisons une stratégie de synthèse de données qui génère automatiquement des ensembles de données d'annotation de processus, appelés DualMath-1.1M, se concentrant à la fois sur l'interprétation et la logique. En formant davantage URSA-7B sur DualMath-1.1M, nous passons des capacités de raisonnement CoT à des capacités de supervision robustes. Le modèle entraîné URSA-RM-7B agit comme un vérificateur, améliorant efficacement les performances de URSA-7B au moment du test. URSA-RM-7B démontre également d'excellentes capacités de vérification hors distribution (OOD), mettant en valeur sa généralisation. Les poids du modèle, les données d'entraînement et le code seront rendus open source.
Ces dernières années, l'avancée rapide des Grands Modèles de Langage (GML) a transformé le paysage de la recherche scientifique, offrant un soutien sans précédent à travers diverses étapes du cycle de recherche. Cet article présente la première enquête systématique dédiée à explorer comment les GML révolutionnent le processus de recherche scientifique. Nous analysons les rôles uniques joués par les GML à travers quatre étapes critiques de la recherche : la découverte d'hypothèses, la planification et la mise en œuvre d'expériences, l'écriture scientifique et l'évaluation par les pairs. Notre revue présente de manière exhaustive les méthodologies spécifiques aux tâches et les critères d'évaluation. En identifiant les défis actuels et en proposant des orientations pour la recherche future, cette enquête met en lumière non seulement le potentiel transformateur des GML, mais vise également à inspirer et guider les chercheurs et praticiens dans l'utilisation des GML pour faire progresser l'enquête scientifique. Les ressources sont disponibles sur le dépôt suivant : https://github.com/du-nlp-lab/LLM4SR
Les agents d'Interface Utilisateur Graphique (IUG), alimentés par des modèles linguistiques multimodaux de grande taille (MLLM), ont montré un grand potentiel pour l'automatisation des tâches sur des dispositifs informatiques tels que les ordinateurs et les téléphones mobiles. Cependant, les agents existants rencontrent des défis en matière de raisonnement multi-étapes et de dépendance aux annotations textuelles, limitant leur efficacité. Nous présentons InfiGUIAgent, un agent IUG basé sur les MLLM entraîné avec un pipeline de fine-tuning supervisé en deux étapes. La première étape améliore les compétences fondamentales telles que la compréhension de l'IUG et l'ancrage, tandis que la deuxième étape intègre un raisonnement hiérarchique et des compétences de raisonnement par réflexion sur les attentes en utilisant des données synthétisées pour permettre aux agents des capacités de raisonnement natives. InfiGUIAgent atteint des performances compétitives sur plusieurs bancs d'essai d'IUG, mettant en évidence l'impact des compétences de raisonnement natives dans l'amélioration de l'interaction IUG pour les tâches d'automatisation. Les ressources sont disponibles sur https://github.com/Reallm-Labs/InfiGUIAgent.
Les techniques de récupération de documents forment la base du développement de systèmes d'information à grande échelle. La méthodologie prédominante consiste à construire un bi-codageur et à calculer la similarité sémantique. Cependant, une telle similarité scalaire est difficile à interpréter suffisamment et entrave notre compréhension des résultats de la récupération. De plus, ce processus de calcul met principalement l'accent sur la sémantique globale et ignore la relation sémantique détaillée entre la requête et le texte complexe dans le document. Dans cet article, nous proposons une nouvelle méthode appelée Récupération Augmentée par Génération (GeAR) qui intègre des modules de fusion et de décodage bien conçus. Cela permet à GeAR de générer le texte pertinent à partir des documents en se basant sur la représentation fusionnée de la requête et du document, apprenant ainsi à se "concentrer" sur les informations détaillées. De plus, lorsqu'il est utilisé comme outil de recherche, GeAR n'ajoute aucune charge computationnelle par rapport aux bi-codageurs. Pour soutenir l'entraînement du nouveau cadre, nous avons introduit un pipeline pour synthétiser efficacement des données de haute qualité en utilisant de grands modèles de langage. GeAR présente des performances de recherche et de localisation compétitives dans divers scénarios et ensembles de données. De plus, l'analyse qualitative et les résultats générés par GeAR offrent de nouvelles perspectives sur l'interprétation des résultats de recherche. Le code, les données et les modèles seront publiés après une revue technique complète pour faciliter les futures recherches.
Dans cet article, nous repoussons les limites de la génération 3D détaillée dans un territoire vraiment créatif. Les méthodes actuelles manquent soit de détails complexes, soit se contentent de reproduire des objets existants - nous permettons les deux. En élevant la compréhension détaillée en 2D en 3D à travers la diffusion multi-vues et la modélisation des parties latentes sous forme de distributions continues, nous débloquons la capacité de générer des parties entièrement nouvelles, mais plausibles, par interpolation et échantillonnage. Une perte de cohérence des caractéristiques auto-supervisée garantit en outre une génération stable de ces parties invisibles. Le résultat est le premier système capable de créer de nouveaux objets 3D avec des détails spécifiques à l'espèce qui transcendent les exemples existants. Bien que nous démontrions notre approche sur les oiseaux, le cadre sous-jacent s'étend au-delà des choses qui peuvent gazouiller ! Le code sera publié sur https://github.com/kamwoh/chirpy3d.
Nous étudions le problème de la reconstruction tridimensionnelle d'objets à partir d'une seule image. Les travaux récents se sont divergés en deux directions : la modélisation basée sur la régression et la modélisation générative. Les méthodes de régression infèrent efficacement les surfaces visibles, mais rencontrent des difficultés avec les régions occultées. Les méthodes génératives gèrent mieux les régions incertaines en modélisant des distributions, mais sont computationnellement coûteuses et la génération est souvent mal alignée avec les surfaces visibles. Dans cet article, nous présentons SPAR3D, une approche novatrice en deux étapes visant à tirer le meilleur parti des deux directions. La première étape de SPAR3D génère des nuages de points 3D épars en utilisant un modèle de diffusion de points léger, qui a une vitesse d'échantillonnage rapide. La deuxième étape utilise à la fois le nuage de points échantillonné et l'image d'entrée pour créer des maillages très détaillés. Notre conception en deux étapes permet une modélisation probabiliste de la tâche tridimensionnelle à partir d'une seule image, tout en maintenant une efficacité computationnelle élevée et une grande fidélité de sortie. L'utilisation de nuages de points comme représentation intermédiaire permet en outre des modifications interactives par l'utilisateur. Évalué sur des ensembles de données divers, SPAR3D démontre des performances supérieures aux méthodes précédentes de pointe, à une vitesse d'inférence de 0,7 seconde. Page du projet avec le code et le modèle : https://spar3d.github.io
L'ajustement efficace de l'instruction est indispensable pour optimiser les LLM de code, aligner le comportement du modèle avec les attentes des utilisateurs et améliorer les performances du modèle dans les applications du monde réel. Cependant, la plupart des méthodes existantes se concentrent sur des extraits de code, qui sont limités à des fonctionnalités spécifiques et des structures rigides, restreignant la complexité et la diversité des données synthétisées. Pour remédier à ces limitations, nous introduisons un nouveau cadre de synthèse basé sur un arbre de fonctionnalités, inspiré des Arbres de Syntaxe Abstraite (AST). Contrairement à l'AST, qui capture la structure syntaxique du code, notre cadre modélise les relations sémantiques entre les éléments de code, permettant la génération de données plus nuancées et diversifiées. L'arbre de fonctionnalités est construit à partir de données brutes et affiné de manière itérative pour augmenter la quantité et la diversité des fonctionnalités extraites. Ce processus permet d'identifier des motifs et des relations plus complexes au sein du code. En échantillonnant des sous-arbres avec une profondeur et une largeur contrôlées, notre cadre permet des ajustements précis de la complexité du code généré, soutenant une large gamme de tâches, des opérations simples au niveau des fonctions aux scénarios complexes multi-fichiers. Nous avons affiné des modèles de base largement utilisés pour créer la série EpiCoder, atteignant des performances de pointe à la fois au niveau des fonctions et des fichiers sur plusieurs benchmarks. Notamment, des preuves empiriques indiquent que notre approche montre un potentiel significatif dans la synthèse de données de code de niveau de référentiel hautement complexes. Une analyse plus poussée met en lumière les mérites de cette approche en évaluant rigoureusement la complexité et la diversité des données à travers des principes de génie logiciel et la méthode LLM-comme-juge.
La montée rapide des grands modèles de langage (GML) a débloqué de nombreuses applications, mais souligne également le défi de les aligner avec des valeurs et des préférences diverses. L'Optimisation Directe des Préférences (ODP) est essentielle pour l'alignement, mais elle est limitée par des divergences fixes et des transformations de caractéristiques limitées. Nous proposons les Noyaux ODP, qui intègrent des méthodes de noyau pour résoudre ces problèmes à travers quatre contributions clés : (i) des Représentations Noyautées avec des noyaux polynomiaux, RBF, Mahalanobis et spectraux pour des transformations plus riches, ainsi qu'une perte hybride combinant des objectifs basés sur l'incorporation et des probabilités ; (ii) des Alternatives de Divergence (Jensen-Shannon, Hellinger, Renyi, Bhattacharyya, Wasserstein et f-divergences) pour une plus grande stabilité ; (iii) des Métriques de Sélection basées sur les Données qui choisissent automatiquement le meilleur couple noyau-divergence ; et (iv) un Mélange Hiérarchique de Noyaux pour une précision locale et une modélisation globale. Les évaluations sur 12 ensembles de données démontrent des performances de pointe en matière de factualité, de sécurité, de raisonnement et de suivi des instructions. Ancré dans l'Auto-Régularisation à Queues Lourdes, les Noyaux ODP maintiennent une généralisation robuste pour les GML, offrant ainsi une ressource complète pour de futures recherches en alignement.
La Génération Améliorée par Récupération (RAG) est devenue omniprésente lors du déploiement des Grands Modèles de Langage (LLM), car elle peut résoudre des limitations typiques telles que la génération d'informations hallucinées ou obsolètes. Cependant, lors de la création d'applications RAG dans le monde réel, des problèmes pratiques surviennent. Premièrement, les informations récupérées sont généralement spécifiques à un domaine. Comme il est coûteux en termes de calcul de peaufiner les LLM, il est plus réalisable de peaufiner le récupérateur pour améliorer la qualité des données incluses dans l'entrée du LLM. Deuxièmement, à mesure que davantage d'applications sont déployées dans le même système du monde réel, il n'est pas possible de se permettre de déployer des récupérateurs séparés. De plus, ces applications RAG récupèrent normalement différents types de données. Notre solution consiste à peaufiner de manière instructive un petit encodeur de récupération sur une variété de tâches spécifiques à un domaine pour nous permettre de déployer un encodeur qui peut servir à de nombreux cas d'utilisation, permettant ainsi d'obtenir un faible coût, une extensibilité et une rapidité. Nous montrons comment cet encodeur se généralise à des paramètres hors domaine ainsi qu'à une tâche de récupération inconnue sur des cas d'utilisation d'entreprise du monde réel.