papers.description
L'apprentissage par renforcement à grande échelle avec récompenses vérifiables (RLVR) a démontré son efficacité pour exploiter le potentiel des grands modèles de langage (LLMs) dans des tâches de raisonnement en un seul tour. Dans des scénarios de raisonnement réalistes, les LLMs peuvent souvent utiliser des outils externes pour faciliter les processus de résolution de tâches. Cependant, les algorithmes de renforcement actuels équilibrent insuffisamment les capacités intrinsèques de raisonnement à long terme des modèles et leur maîtrise des interactions multi-tours avec les outils. Pour combler cette lacune, nous proposons l'Optimisation de Politique par Renforcement Agentique (ARPO), un nouvel algorithme de renforcement agentique conçu pour entraîner des agents basés sur des LLMs multi-tours. À travers des expériences préliminaires, nous observons que les LLMs ont tendance à présenter un comportement très incertain, caractérisé par une augmentation de la distribution d'entropie des tokens générés, immédiatement après des interactions avec des outils externes. Motivés par cette observation, ARPO intègre un mécanisme de déploiement adaptatif basé sur l'entropie, équilibrant dynamiquement l'échantillonnage global des trajectoires et l'échantillonnage au niveau des étapes, favorisant ainsi l'exploration aux étapes présentant une incertitude élevée après l'utilisation d'outils. En intégrant une estimation de l'attribution d'avantage, ARPO permet aux LLMs d'intérioriser les différences d'avantage dans les interactions étape par étape avec les outils. Nos expériences sur 13 benchmarks exigeants dans les domaines du raisonnement computationnel, du raisonnement basé sur les connaissances et de la recherche approfondie démontrent la supériorité d'ARPO par rapport aux algorithmes de renforcement au niveau des trajectoires. De manière remarquable, ARPO améliore les performances en utilisant seulement la moitié du budget d'utilisation d'outils requis par les méthodes existantes, offrant une solution évolutive pour aligner les agents basés sur des LLMs avec des environnements dynamiques en temps réel. Notre code et nos jeux de données sont disponibles à l'adresse https://github.com/dongguanting/ARPO.
Les vidéos courtes générées par les utilisateurs dans le monde réel, en particulier celles diffusées sur des plateformes comme WeChat Channel et TikTok, dominent l'internet mobile. Cependant, les modèles multimodaux de grande taille actuels manquent de capacités essentielles de compréhension vidéo structurée dans le temps, détaillée et approfondie, qui sont la pierre angulaire d'une recherche et d'une recommandation vidéo efficaces, ainsi que des applications vidéo émergentes. Comprendre les vidéos courtes du monde réel est en réalité un défi en raison de leurs éléments visuels complexes, de leur densité d'information élevée à la fois dans les visuels et l'audio, et de leur rythme rapide axé sur l'expression émotionnelle et la transmission de points de vue. Cela nécessite un raisonnement avancé pour intégrer efficacement des informations multimodales, incluant les visuels, l'audio et le texte. Dans ce travail, nous présentons ARC-Hunyuan-Video, un modèle multimodal qui traite les signaux visuels, audio et textuels des vidéos brutes de bout en bout pour une compréhension structurée. Le modèle est capable de générer des descriptions et des résumés vidéo avec des timestamps multi-granularité, de répondre à des questions ouvertes sur les vidéos, de localiser temporellement des éléments dans les vidéos et de raisonner sur les vidéos. En exploitant des données de haute qualité provenant d'un pipeline d'annotation automatisé, notre modèle compact de 7 milliards de paramètres est entraîné à travers un régime complet : pré-entraînement, ajustement fin par instruction, démarrage à froid, apprentissage par renforcement (RL) post-entraînement, et ajustement fin final par instruction. Les évaluations quantitatives sur notre benchmark ShortVid-Bench et les comparaisons qualitatives démontrent ses performances solides dans la compréhension des vidéos du monde réel, et il supporte le zero-shot ou l'ajustement fin avec quelques échantillons pour diverses applications en aval. Le déploiement en production de notre modèle dans le monde réel a entraîné des améliorations tangibles et mesurables de l'engagement et de la satisfaction des utilisateurs, un succès soutenu par son efficacité remarquable, avec des tests de stress indiquant un temps d'inférence de seulement 10 secondes pour une vidéo d'une minute sur un GPU H20.
Malgré le potentiel de l'apprentissage multitâche à exploiter des connaissances complémentaires entre les tâches, les techniques existantes d'optimisation multitâche (MTO) restent focalisées sur la résolution des conflits via des stratégies de mise à l'échelle des pertes et de manipulation des gradients centrées sur l'optimiseur, sans pour autant offrir des gains systématiques. Dans cet article, nous soutenons que l'espace de représentation partagé, où les interactions entre tâches se produisent naturellement, offre des informations riches et un potentiel pour des opérations complémentaires aux optimiseurs existants, en particulier pour faciliter la complémentarité inter-tâches, un aspect rarement exploré dans le MTO. Cette intuition conduit à Rep-MTL, qui exploite la saillance des tâches au niveau des représentations pour quantifier les interactions entre l'optimisation spécifique à chaque tâche et l'apprentissage des représentations partagées. En orientant ces saillances via une pénalisation basée sur l'entropie et un alignement inter-tâches échantillon par échantillon, Rep-MTL vise à atténuer le transfert négatif en maintenant un entraînement efficace des tâches individuelles plutôt qu'une simple résolution de conflits, tout en favorisant explicitement le partage d'informations complémentaires. Des expériences sont menées sur quatre benchmarks MTL complexes couvrant à la fois des scénarios de décalage de tâches et de domaine. Les résultats montrent que Rep-MTL, même associé à une politique de pondération égale de base, obtient des gains de performance compétitifs avec une efficacité favorable. Au-delà des métriques de performance standard, une analyse des exposants de la loi de puissance démontre l'efficacité de Rep-MTL à équilibrer l'apprentissage spécifique à chaque tâche et le partage inter-tâches. La page du projet est disponible ICI.
Alors que les grands modèles de langage (LLM) de pointe continuent de repousser les limites des capacités, leur déploiement reste confiné à des infrastructures cloud équipées de GPU. Nous remettons en cause ce paradigme avec SmallThinker, une famille de LLM conçus nativement - et non adaptés - pour les contraintes uniques des appareils locaux : puissance de calcul limitée, mémoire restreinte et stockage lent. Contrairement aux approches traditionnelles qui se contentent principalement de compresser des modèles existants conçus pour le cloud, nous architecturons SmallThinker dès la base pour prospérer dans ces limites. Notre innovation réside dans une architecture consciente du déploiement qui transforme les contraintes en principes de conception. Premièrement, nous introduisons une structure clairsemée à deux niveaux combinant un mélange d'experts (MoE) à granularité fine avec des réseaux feed-forward clairsemés, réduisant drastiquement les exigences de calcul sans sacrifier la capacité du modèle. Deuxièmement, pour surmonter le goulot d'étranglement des E/S dû au stockage lent, nous concevons un routeur pré-attention qui permet à notre moteur d'inférence co-conçu de précharger les paramètres des experts depuis le stockage tout en calculant l'attention, masquant efficacement la latence du stockage qui autrement handicaperait l'inférence sur appareil. Troisièmement, pour l'efficacité mémoire, nous utilisons un mécanisme d'attention clairsemée hybride NoPE-RoPE pour réduire les besoins en cache KV. Nous publions SmallThinker-4B-A0.6B et SmallThinker-21B-A3B, qui atteignent des scores de performance à l'état de l'art et surpassent même des LLM plus volumineux. Remarquablement, notre système co-conçu élimine en grande partie le besoin de matériel GPU coûteux : avec une quantification Q4_0, les deux modèles dépassent 20 tokens/s sur des CPU grand public ordinaires, tout en ne consommant que 1 Go et 8 Go de mémoire respectivement. SmallThinker est disponible publiquement à hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct et hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.
La reconstruction de l'intelligence spatiale 4D à partir d'observations visuelles constitue depuis longtemps une tâche centrale mais complexe en vision par ordinateur, avec de vastes applications dans le monde réel. Celles-ci vont des domaines du divertissement comme le cinéma, où l'accent est souvent mis sur la reconstruction d'éléments visuels fondamentaux, à l'IA incarnée, qui met l'accent sur la modélisation des interactions et le réalisme physique. Stimulé par les progrès rapides des représentations 3D et des architectures d'apprentissage profond, ce domaine a évolué rapidement, dépassant la portée des études précédentes. De plus, les études existantes offrent rarement une analyse complète de la structure hiérarchique de la reconstruction de scènes 4D. Pour combler cette lacune, nous présentons une nouvelle perspective qui organise les méthodes existantes en cinq niveaux progressifs d'intelligence spatiale 4D : (1) Niveau 1 -- reconstruction des attributs 3D de bas niveau (par exemple, profondeur, pose et cartes de points) ; (2) Niveau 2 -- reconstruction des composants de scène 3D (par exemple, objets, humains, structures) ; (3) Niveau 3 -- reconstruction de scènes dynamiques 4D ; (4) Niveau 4 -- modélisation des interactions entre les composants de la scène ; et (5) Niveau 5 -- intégration des lois et contraintes physiques. Nous concluons cette étude en discutant des principaux défis à chaque niveau et en mettant en lumière des directions prometteuses pour progresser vers des niveaux encore plus riches d'intelligence spatiale 4D. Pour suivre les développements en cours, nous maintenons une page de projet à jour : https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
Les modèles de langage de grande taille (LLMs) ont démontré des capacités impressionnantes, mais restent fondamentalement statiques, incapables d’adapter leurs paramètres internes à de nouvelles tâches, à des domaines de connaissances en évolution ou à des contextes d’interaction dynamiques. Alors que les LLMs sont de plus en plus déployés dans des environnements ouverts et interactifs, cette nature statique est devenue un goulot d’étranglement critique, nécessitant des agents capables de raisonner, d’agir et d’évoluer de manière adaptative en temps réel. Ce changement de paradigme — du passage à l’échelle de modèles statiques au développement d’agents auto-évolutifs — a suscité un intérêt croissant pour les architectures et les méthodes permettant un apprentissage et une adaptation continus à partir de données, d’interactions et d’expériences. Cette étude propose la première revue systématique et exhaustive des agents auto-évolutifs, organisée autour de trois dimensions fondamentales — quoi faire évoluer, quand évoluer et comment évoluer. Nous examinons les mécanismes évolutifs à travers les composants des agents (par exemple, modèles, mémoire, outils, architecture), catégorisons les méthodes d’adaptation par étapes (par exemple, intra-temps de test, inter-temps de test) et analysons les conceptions algorithmiques et architecturales qui guident l’adaptation évolutive (par exemple, récompenses scalaires, feedback textuel, systèmes mono-agents et multi-agents). De plus, nous analysons les métriques d’évaluation et les benchmarks spécifiquement conçus pour les agents auto-évolutifs, mettons en lumière des applications dans des domaines tels que la programmation, l’éducation et la santé, et identifions les défis critiques et les directions de recherche en matière de sécurité, d’évolutivité et de dynamiques co-évolutives. En fournissant un cadre structuré pour comprendre et concevoir des agents auto-évolutifs, cette étude établit une feuille de route pour faire progresser les systèmes agentiques adaptatifs, tant dans la recherche que dans les déploiements réels, éclairant ainsi la voie vers la réalisation d’une Intelligence Artificielle Superieure (ASI), où les agents évoluent de manière autonome, atteignant ou dépassant l’intelligence humaine dans une large gamme de tâches.
Les avancées récentes, telles que l'Optimisation de Politique Relative par Groupe (GRPO), ont amélioré les capacités de raisonnement des grands modèles de langage en optimisant la moyenne arithmétique des récompenses au niveau des tokens. Cependant, GRPO souffre de mises à jour de politique instables lors du traitement des tokens avec des récompenses pondérées par importance aberrantes, ce qui se manifeste par des ratios d'échantillonnage d'importance extrêmes pendant l'entraînement, c'est-à-dire le rapport entre les probabilités d'échantillonnage attribuées à un token par les politiques actuelle et ancienne. Dans ce travail, nous proposons l'Optimisation de Politique par Moyenne Géométrique (GMPO), une variante stabilisée de GRPO. Au lieu d'optimiser la moyenne arithmétique, GMPO maximise la moyenne géométrique des récompenses au niveau des tokens, qui est intrinsèquement moins sensible aux valeurs aberrantes et maintient une plage plus stable de ratios d'échantillonnage d'importance. De plus, nous fournissons une analyse théorique et expérimentale complète pour justifier la conception et les avantages de stabilité de GMPO. Au-delà de l'amélioration de la stabilité, GMPO-7B surpasse GRPO en moyenne de 4,1 % sur plusieurs benchmarks mathématiques et de 1,4 % sur un benchmark de raisonnement multimodal, incluant AIME24, AMC, MATH500, OlympiadBench, Minerva et Geometry3K. Le code est disponible à l'adresse https://github.com/callsys/GMPO.
Les récentes avancées dans les grands modèles multimodaux comme GPT-4o ont établi un nouveau standard pour l'édition d'images guidée par instructions avec une haute fidélité. Cependant, la nature propriétaire de ces modèles et de leurs données d'entraînement constitue un obstacle majeur pour la recherche open source. Pour combler cette lacune, nous présentons GPT-IMAGE-EDIT-1.5M, un corpus d'édition d'images à grande échelle et accessible au public, contenant plus de 1,5 million de triplets de haute qualité (instruction, image source, image éditée). Nous construisons systématiquement ce jeu de données en exploitant les capacités polyvalentes de GPT-4o pour unifier et affiner trois jeux de données populaires d'édition d'images : OmniEdit, HQ-Edit et UltraEdit. Plus précisément, notre méthodologie implique 1) la régénération des images de sortie pour améliorer la qualité visuelle et l'alignement avec les instructions, et 2) la réécriture sélective des prompts pour accroître la clarté sémantique. Pour valider l'efficacité de notre jeu de données, nous affinons des modèles open source avancés sur GPT-IMAGE-EDIT-1.5M. Les résultats empiriques sont prometteurs : par exemple, le modèle FluxKontext affiche des performances très compétitives sur une suite complète de benchmarks, avec des scores de 7.24 sur GEdit-EN, 3.80 sur ImgEdit-Full et 8.78 sur Complex-Edit, démontrant une meilleure adhérence aux instructions et une qualité perceptuelle supérieure tout en préservant l'identité. Ces scores dépassent nettement toutes les méthodes open source précédemment publiées et réduisent considérablement l'écart avec les modèles propriétaires leaders. Nous espérons que la publication complète de GPT-IMAGE-EDIT-1.5M pourra catalyser davantage de recherches ouvertes dans le domaine de l'édition d'images guidée par instructions.
L'apprentissage de représentations visuelles est fondamental pour un large éventail de tâches en aval. Bien que les modèles contrastifs récents combinant vision et langage, tels que CLIP et SigLIP, aient obtenu des performances impressionnantes en zero-shot grâce à un alignement à grande échelle entre vision et langage, leur dépendance à des représentations globales limite leur efficacité pour les tâches de prédiction dense, telles que l'ancrage, la reconnaissance de texte (OCR) et la segmentation. Pour combler cette lacune, nous introduisons la méthode Region-Aware Cluster Discrimination (RICE), une approche novatrice qui améliore les capacités visuelles et OCR au niveau régional. Nous construisons d'abord un jeu de données de régions candidates à l'échelle du milliard et proposons une couche Region Transformer pour extraire des sémantiques régionales riches. Nous concevons en outre une fonction de perte unifiée de discrimination par clusters régionaux qui soutient conjointement l'apprentissage d'objets et d'OCR dans un cadre de classification unique, permettant un entraînement distribué efficace et scalable sur des données à grande échelle. Des expériences approfondies montrent que RICE surpasse systématiquement les méthodes précédentes sur des tâches incluant la segmentation, la détection dense et la perception visuelle pour les Modèles de Langage Multimodaux à Grande Échelle (MLLMs). Les modèles pré-entraînés ont été publiés à l'adresse https://github.com/deepglint/MVT.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) ont mis en lumière le potentiel de l'apprentissage par renforcement avec récompenses vérifiables (RLVR) pour améliorer les capacités de raisonnement à travers des séquences de sortie étendues. Cependant, les cadres traditionnels de RL rencontrent des inefficacités lorsqu'ils traitent des sorties ultra-longues en raison des distributions de séquences à longue traîne et de l'effondrement de l'entropie pendant l'entraînement. Pour relever ces défis, nous proposons une approche d'apprentissage par renforcement pour sorties ultra-longues (UloRL) afin d'améliorer les capacités de raisonnement des modèles de langage à grande échelle. Plus précisément, nous divisons le décodage des sorties ultra-longues en segments courts, permettant un entraînement efficace en atténuant les retards causés par les échantillons à longue traîne. De plus, nous introduisons un masquage dynamique des Tokens Positifs Maîtrisés (MPTs) pour prévenir l'effondrement de l'entropie. Les résultats expérimentaux démontrent l'efficacité de notre approche. Sur le modèle Qwen3-30B-A3B, le RL avec déploiement segmenté a permis une augmentation de 2,06x de la vitesse d'entraînement, tandis que l'entraînement RL avec des sorties de 128k tokens améliore les performances du modèle sur AIME2025 de 70,9\% à 85,1\% et sur BeyondAIME de 50,7\% à 61,9\%, surpassant même Qwen3-235B-A22B avec des gains remarquables. Ces résultats soulignent le potentiel de nos méthodes pour améliorer les capacités de raisonnement des LLMs avec la génération de séquences ultra-longues. Nous publierons notre code et notre modèle pour une utilisation ultérieure par la communauté.
L'augmentation de la fréquence des événements météorologiques extrêmes due au changement climatique global exige une prévision météorologique précise. Récemment, des progrès significatifs ont été réalisés grâce aux méthodes de bout en bout, notamment grâce aux techniques d'apprentissage profond. Cependant, ces méthodes rencontrent des limites liées à l'incohérence de représentation dans l'intégration multivariable et peinent à capturer efficacement les dépendances entre les variables, pourtant essentielles dans les systèmes météorologiques complexes. Traiter les différentes variables comme des modalités distinctes et appliquer une approche d'entraînement en deux étapes inspirée des modèles multimodaux peut partiellement atténuer ce problème. Néanmoins, en raison de l'incompatibilité des tâches d'entraînement entre les deux étapes, les résultats sont souvent sous-optimaux. Pour relever ces défis, nous proposons une méthode d'entraînement implicite en deux étapes, configurant des encodeurs et des décodeurs distincts pour chaque variable. Plus précisément, dans la première étape, le Traducteur est gelé tandis que les Encodeurs et les Décodeurs apprennent un espace latent partagé. Dans la deuxième étape, les Encodeurs et les Décodeurs sont gelés, et le Traducteur capture les interactions inter-variables pour la prédiction. De plus, en introduisant un mécanisme d'auto-attention pour la fusion multivariable dans l'espace latent, les performances sont encore améliorées. Empiriquement, des expériences approfondies démontrent les performances de pointe de notre méthode. Concrètement, elle réduit l'erreur quadratique moyenne (MSE) pour les prédictions de température de l'air près de la surface et d'humidité relative de 28,82 % et 23,39 %, respectivement. Le code source est disponible à l'adresse suivante : https://github.com/ShremG/Met2Net.
La rectification d'images de documents vise à éliminer les déformations géométriques dans les documents photographiés afin de faciliter la reconnaissance de texte. Cependant, les méthodes existantes négligent souvent l'importance des éléments de premier plan, qui fournissent des références géométriques essentielles et des informations de mise en page pour la correction des images de documents. Dans cet article, nous présentons le réseau centré sur le premier plan (ForCenNet) pour éliminer les distorsions géométriques dans les images de documents. Plus précisément, nous proposons d'abord une méthode de génération d'étiquettes centrée sur le premier plan, qui extrait des éléments détaillés de premier plan à partir d'une image non déformée. Ensuite, nous introduisons un mécanisme de masque centré sur le premier plan pour améliorer la distinction entre les régions lisibles et les régions d'arrière-plan. De plus, nous concevons une fonction de perte de cohérence de courbure pour exploiter les étiquettes détaillées du premier plan afin d'aider le modèle à comprendre la distribution géométrique déformée. Des expériences approfondies démontrent que ForCenNet atteint de nouveaux records sur quatre benchmarks du monde réel, tels que DocUNet, DIR300, WarpDoc et DocReal. L'analyse quantitative montre que la méthode proposée corrige efficacement les éléments de mise en page, tels que les lignes de texte et les bordures de table. Les ressources pour des comparaisons supplémentaires sont fournies à l'adresse https://github.com/caipeng328/ForCenNet.
La génération perpétuelle de scènes 3D vise à produire des séquences de vues 3D cohérentes et à longue portée, applicables à la synthèse vidéo à long terme et à la reconstruction de scènes 3D. Les méthodes existantes suivent une approche de "navigation et imagination" et s'appuient sur l'extrapolation pour l'expansion successive des vues. Cependant, les séquences de vues générées souffrent d'un problème de dérive sémantique dû à l'accumulation des écarts du module d'extrapolation. Pour relever ce défi, nous proposons ScenePainter, un nouveau cadre pour la génération de scènes 3D sémantiquement cohérentes, qui aligne l'a priori spécifique à la scène de l'extrapolateur avec la compréhension de la scène actuelle. Plus précisément, nous introduisons une structure graphique hiérarchique appelée SceneConceptGraph pour construire des relations entre les concepts de scène à plusieurs niveaux, qui guide l'extrapolateur pour des vues nouvelles et cohérentes et peut être dynamiquement affinée pour améliorer la diversité. Des expériences approfondies démontrent que notre cadre surmonte le problème de dérive sémantique et génère des séquences de vues 3D plus cohérentes et immersives. Page du projet : https://xiac20.github.io/ScenePainter/.
Nous présentons Music Arena, une plateforme ouverte pour l'évaluation scalable des préférences humaines dans les modèles de texte-à-musique (TTM). Solliciter les préférences humaines via des études d'écoute constitue la méthode de référence pour l'évaluation en TTM, mais ces études sont coûteuses à réaliser et difficiles à comparer, car les protocoles d'étude peuvent varier entre les systèmes. De plus, les préférences humaines pourraient aider les chercheurs à aligner leurs systèmes TTM ou à améliorer les métriques d'évaluation automatiques, mais une source ouverte et renouvelable de préférences n'existe pas actuellement. Nous visons à combler ces lacunes en proposant une évaluation *en temps réel* pour le TTM. Dans Music Arena, des utilisateurs du monde réel saisissent des prompts textuels de leur choix et comparent les sorties de deux systèmes TTM, et leurs préférences sont utilisées pour établir un classement. Bien que Music Arena s'inscrive dans les tendances récentes d'évaluation dans d'autres domaines de l'IA, nous l'avons également conçu avec des fonctionnalités clés adaptées à la musique : un système de routage basé sur un LLM pour naviguer dans les signatures de type hétérogènes des systèmes TTM, et la collecte de préférences *détaillées* incluant des données d'écoute et des retours en langage naturel. Nous proposons également une politique de publication continue des données avec des garanties de confidentialité pour les utilisateurs, offrant ainsi une source renouvelable de données de préférences et augmentant la transparence de la plateforme. Grâce à son protocole d'évaluation standardisé, ses politiques d'accès transparentes aux données et ses fonctionnalités spécifiques à la musique, Music Arena non seulement relève les principaux défis de l'écosystème TTM, mais démontre également comment l'évaluation en temps réel peut être judicieusement adaptée aux caractéristiques uniques de domaines spécifiques de l'IA. Music Arena est disponible à l'adresse : https://music-arena.org
Les modèles de diffusion et de correspondance de flux ont révolutionné la génération automatique de texte-à-audio ces dernières années. Ces modèles sont de plus en plus capables de produire des sorties audio de haute qualité et fidèles, capturant à la fois la parole et les événements acoustiques. Cependant, il reste encore beaucoup de place pour l'amélioration dans la génération créative d'audio, qui implique principalement la musique et les chansons. Les récents modèles ouverts de paroles-à-chanson, tels que DiffRhythm, ACE-Step et LeVo, ont établi un standard acceptable dans la génération automatique de chansons pour un usage récréatif. Cependant, ces modèles manquent de contrôlabilité fine au niveau des mots, souvent souhaitée par les musiciens dans leurs workflows. À notre connaissance, notre modèle JAM basé sur la correspondance de flux est la première tentative visant à doter la génération de chansons d'un contrôle temporel et de durée au niveau des mots, permettant un contrôle vocal fin. Pour améliorer la qualité des chansons générées afin de mieux les aligner avec les préférences humaines, nous mettons en œuvre un alignement esthétique via l'Optimisation Directe des Préférences, qui affine itérativement le modèle en utilisant un ensemble de données synthétiques, éliminant ainsi le besoin d'annotations manuelles. De plus, nous visons à standardiser l'évaluation de tels modèles de paroles-à-chanson grâce à notre ensemble de données d'évaluation publique JAME. Nous montrons que JAM surpasse les modèles existants en termes d'attributs spécifiques à la musique.
Lorsque les modèles de langage (LM) sont entraînés via l'apprentissage par renforcement (RL) pour générer des "chaînes de raisonnement" en langage naturel, leurs performances s'améliorent sur une variété de tâches complexes de question-réponse. Aujourd'hui, presque toutes les applications réussies du RL pour le raisonnement utilisent des fonctions de récompense binaires qui évaluent la justesse des sorties des LM. Comme ces fonctions de récompense ne pénalisent pas les conjectures ou les sorties à faible confiance, elles ont souvent l'effet secondaire involontaire de dégrader l'étalonnage et d'augmenter le taux auquel les LM génèrent des réponses incorrectes (ou "hallucinent") dans d'autres domaines de problèmes. Cet article décrit RLCR (Reinforcement Learning with Calibration Rewards), une approche pour entraîner des modèles de raisonnement qui améliorent conjointement la précision et l'estimation calibrée de la confiance. Pendant RLCR, les LM génèrent à la fois des prédictions et des estimations numériques de confiance après le raisonnement. Ils sont entraînés à optimiser une fonction de récompense qui augmente un score de justesse binaire avec un score de Brier — une règle de notation pour les estimations de confiance qui incite à une prédiction calibrée. Nous prouvons d'abord que cette fonction de récompense (ou toute fonction de récompense analogue utilisant une règle de notation bornée et propre) produit des modèles dont les prédictions sont à la fois précises et bien calibrées. Nous montrons ensuite que, sur divers ensembles de données, RLCR améliore considérablement l'étalonnage sans perte de précision, tant sur les évaluations en domaine qu'hors domaine — surpassant à la fois l'entraînement RL ordinaire et les classificateurs entraînés à attribuer des scores de confiance a posteriori. Alors que le RL ordinaire nuit à l'étalonnage, RLCR l'améliore. Enfin, nous démontrons que la confiance verbalisée peut être exploitée au moment du test pour améliorer la précision et l'étalonnage via des méthodes de mise à l'échelle pondérées par la confiance. Nos résultats montrent qu'optimiser explicitement pour l'étalonnage peut produire des modèles de raisonnement plus généralement fiables.
Les grands modèles de raisonnement (LRM) dotés de capacités étendues de chaînes de pensée (CoT) ont montré des performances solides sur des tâches objectives, telles que le raisonnement mathématique et la programmation. Cependant, leur efficacité sur des questions subjectives pouvant susciter des réponses variées selon les perspectives reste limitée par une tendance à un raisonnement homogène, introduite par la dépendance à une seule vérité de référence lors du réglage fin supervisé et à une récompense vérifiable dans l'apprentissage par renforcement. Motivés par la découverte que l'augmentation des perspectives de rôle améliore systématiquement les performances, nous proposons MultiRole-R1, un cadre renforcé par la diversité avec plusieurs perspectives de rôle, pour améliorer la précision et la diversité dans les tâches de raisonnement subjectif. MultiRole-R1 intègre un pipeline de construction de données non supervisé qui génère des chaînes de raisonnement incorporant des perspectives de rôle variées. Nous utilisons en outre l'apprentissage par renforcement via l'Optimisation Relative de Politique de Groupe (GRPO) avec modelage des récompenses, en considérant la diversité comme un signal de récompense en plus de la récompense vérifiable. Grâce à des fonctions de récompense spécialement conçues, nous favorisons avec succès la diversité des perspectives et la diversité lexicale, révélant une relation positive entre la diversité du raisonnement et la précision. Nos expériences sur six benchmarks démontrent l'efficacité et la généralisabilité de MultiRole-R1 pour améliorer à la fois le raisonnement subjectif et objectif, mettant en lumière le potentiel de l'entraînement renforcé par la diversité dans les LRM.
Les simulateurs d'utilisateurs sont essentiels à l'IA conversationnelle, permettant un développement et une évaluation évolutifs des agents grâce à des interactions simulées. Bien que les modèles de langage de grande taille (LLMs) actuels aient fait progresser les capacités de simulation d'utilisateurs, nous révélons qu'ils peinent à démontrer de manière cohérente un comportement orienté objectif dans des conversations multi-tours—une limitation critique qui compromet leur fiabilité dans les applications en aval. Nous introduisons le suivi de l'état des objectifs utilisateur (User Goal State Tracking, UGST), un cadre novateur qui suit la progression des objectifs de l'utilisateur tout au long des conversations. En exploitant UGST, nous présentons une méthodologie en trois étapes pour développer des simulateurs d'utilisateurs capables de suivre de manière autonome la progression des objectifs et de raisonner pour générer des réponses alignées sur ces objectifs. De plus, nous établissons des métriques d'évaluation complètes pour mesurer l'alignement sur les objectifs dans les simulateurs d'utilisateurs, et démontrons que notre approche apporte des améliorations substantielles sur deux benchmarks (MultiWOZ 2.4 et {\tau}-Bench). Nos contributions comblent une lacune critique dans l'IA conversationnelle et établissent UGST comme un cadre essentiel pour développer des simulateurs d'utilisateurs alignés sur les objectifs.
L'analyse de l'expression génétique détient la clé de nombreuses découvertes biomédicales, mais l'extraction d'informations à partir de données transcriptomiques brutes reste un défi de taille en raison de la complexité des multiples fichiers volumineux et semi-structurés, ainsi que du besoin d'une expertise approfondie dans le domaine. Les approches actuelles d'automatisation sont souvent limitées soit par des workflows rigides qui échouent dans les cas particuliers, soit par des agents entièrement autonomes qui manquent de la précision nécessaire pour une investigation scientifique rigoureuse. GenoMAS propose une voie différente en présentant une équipe de scientifiques basés sur des LLM (modèles de langage) qui intègre la fiabilité des workflows structurés avec l'adaptabilité des agents autonomes. GenoMAS orchestre six agents LLM spécialisés à travers des protocoles de passage de messages typés, chacun apportant des compétences complémentaires à un canevas analytique partagé. Au cœur de GenoMAS se trouve un cadre de planification guidée : les agents de programmation décomposent les directives de haut niveau en Unités d'Action et, à chaque étape, choisissent d'avancer, de réviser, de contourner ou de revenir en arrière, maintenant ainsi une cohérence logique tout en s'adaptant avec souplesse aux particularités des données génomiques. Sur le benchmark GenoTEX, GenoMAS atteint un Coefficient de Similarité Composite de 89,13 % pour le prétraitement des données et un F₁ de 60,48 % pour l'identification des gènes, surpassant respectivement les meilleures approches précédentes de 10,61 % et 16,85 %. Au-delà des métriques, GenoMAS met en lumière des associations gène-phénotype biologiquement plausibles, corroborées par la littérature, tout en ajustant pour les facteurs confondants latents. Le code est disponible à l'adresse suivante : https://github.com/Liu-Hy/GenoMAS.
La demande pour des modèles de langage de grande taille (LLMs) capables de raisonnements mathématiques sophistiqués est en croissance dans divers secteurs. Cependant, le développement de LLMs performants en mathématiques est fortement limité par la rareté de données d'entraînement difficiles et novatrices. Nous présentons SAND-Math (Synthetic Augmented Novel and Difficult Mathematics problems and solutions), un pipeline qui répond à ce problème en générant d'abord des problèmes de haute qualité à partir de zéro, puis en augmentant systématiquement leur complexité grâce à une nouvelle étape appelée Difficulty Hiking. Nous démontrons l'efficacité de notre approche à travers deux résultats clés. Premièrement, l'enrichissement d'un modèle de référence avec les données de SAND-Math améliore significativement les performances, surpassant le meilleur ensemble de données synthétiques existant de 17,85 points absolus sur le benchmark AIME25. Deuxièmement, dans une étude d'ablation dédiée, nous montrons que notre processus de Difficulty Hiking est très efficace : en augmentant la difficulté moyenne des problèmes de 5,02 à 5,98, cette étape améliore les performances sur AIME25 de 46,38 % à 49,23 %. Le pipeline complet de génération, l'ensemble de données final et un modèle affiné constituent une boîte à outils pratique et évolutive pour construire des LLMs de raisonnement mathématique plus performants et efficaces. Le jeu de données SAND-Math est disponible ici : https://huggingface.co/datasets/amd/SAND-MATH{https://huggingface.co/datasets/amd/SAND-MATH}