papers.description
Dans cet article, nous passons en revue les avancées récentes en Apprentissage par Renforcement (Reinforcement Learning, RL) pour le raisonnement avec les Modèles de Langage à Grande Échelle (Large Language Models, LLMs). Le RL a obtenu des succès remarquables en repoussant les limites des capacités des LLMs, notamment dans la résolution de tâches logiques complexes telles que les mathématiques et la programmation. Par conséquent, le RL s'est imposé comme une méthodologie fondamentale pour transformer les LLMs en LRMs (Logical Reasoning Models). Avec les progrès rapides du domaine, la mise à l'échelle du RL pour les LRMs se heurte désormais à des défis fondamentaux, non seulement en termes de ressources computationnelles, mais aussi dans la conception des algorithmes, les données d'entraînement et l'infrastructure. Il est donc opportun de revisiter le développement de ce domaine, de réévaluer sa trajectoire et d'explorer des stratégies pour améliorer l'évolutivité du RL vers une SuperIntelligence Artificielle (Artificial SuperIntelligence, ASI). En particulier, nous examinons les recherches appliquant le RL aux LLMs et LRMs pour les capacités de raisonnement, notamment depuis la sortie de DeepSeek-R1, en incluant les composants fondamentaux, les problèmes centraux, les ressources d'entraînement et les applications en aval, afin d'identifier les opportunités et les orientations futures pour ce domaine en évolution rapide. Nous espérons que cette revue stimulera les recherches futures sur le RL pour des modèles de raisonnement plus étendus. Github : https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
Les modèles de récompense (Reward Models, RMs) sont essentiels pour améliorer les modèles de génération via l'apprentissage par renforcement (Reinforcement Learning, RL), mais le paradigme de mise à l'échelle des RMs dans la génération visuelle reste largement inexploré. Cela est principalement dû aux limitations fondamentales des approches existantes : les RMs basés sur CLIP souffrent de contraintes architecturales et de modalités d'entrée, tandis que les pertes Bradley-Terry couramment utilisées sont fondamentalement mal alignées avec le mécanisme de prédiction de token suivant des modèles vision-langage (Vision-Language Models, VLMs), entravant une mise à l'échelle efficace. Plus critique encore, le processus d'optimisation RLHF est entaché par le problème de "Reward Hacking", où les modèles exploitent les failles du signal de récompense sans améliorer la véritable qualité. Pour relever ces défis, nous introduisons RewardDance, un cadre de modélisation de récompense scalable qui surmonte ces obstacles grâce à un nouveau paradigme de récompense générative. En reformulant le score de récompense comme la probabilité du modèle de prédire un token "oui", indiquant que l'image générée surpasse une image de référence selon des critères spécifiques, RewardDance aligne intrinsèquement les objectifs de récompense avec les architectures des VLMs. Cet alignement permet une mise à l'échelle selon deux dimensions : (1) Mise à l'échelle des modèles : Mise à l'échelle systématique des RMs jusqu'à 26 milliards de paramètres ; (2) Mise à l'échelle du contexte : Intégration d'instructions spécifiques à la tâche, d'exemples de référence et de raisonnement en chaîne (Chain-of-Thought, CoT). Des expériences approfondies démontrent que RewardDance surpasse significativement les méthodes de pointe dans la génération texte-image, texte-vidéo et image-vidéo. Surtout, nous résolvons le défi persistant du "reward hacking" : Nos RMs à grande échelle affichent et maintiennent une variance de récompense élevée lors du réglage fin par RL, prouvant leur résistance au hacking et leur capacité à produire des sorties diversifiées et de haute qualité. Cela atténue grandement le problème d'effondrement modal qui affecte les modèles plus petits.
La modélisation du monde est devenue une pierre angulaire de la recherche en IA, permettant aux agents de comprendre, représenter et prédire les environnements dynamiques dans lesquels ils évoluent. Alors que les travaux antérieurs mettent principalement l'accent sur les méthodes génératives pour les données d'images et de vidéos en 2D, ils négligent le corpus de travaux en pleine expansion qui exploite les représentations natives en 3D et 4D, telles que les images RGB-D, les grilles d'occupation et les nuages de points LiDAR, pour la modélisation de scènes à grande échelle. Parallèlement, l'absence d'une définition standardisée et d'une taxonomie pour les « modèles du monde » a conduit à des affirmations fragmentées et parfois incohérentes dans la littérature. Cette étude comble ces lacunes en présentant la première revue complète explicitement dédiée à la modélisation et à la génération du monde en 3D et 4D. Nous établissons des définitions précises, introduisons une taxonomie structurée couvrant les approches basées sur la vidéo (VideoGen), sur l'occupation (OccGen) et sur le LiDAR (LiDARGen), et résumons systématiquement les ensembles de données et les métriques d'évaluation adaptés aux contextes 3D/4D. Nous discutons également des applications pratiques, identifions les défis ouverts et mettons en lumière les directions de recherche prometteuses, dans le but de fournir une référence cohérente et fondamentale pour faire progresser le domaine. Un résumé systématique de la littérature existante est disponible à l'adresse suivante : https://github.com/worldbench/survey.
Le développement d'agents LLM autonomes capables de prendre une série de décisions intelligentes pour résoudre des tâches complexes et réalistes constitue une frontière en évolution rapide. À l'instar du développement cognitif humain, ces agents sont censés acquérir des connaissances et des compétences par l'exploration et l'interaction avec leur environnement. Malgré les avancées, la communauté manque encore d'un cadre unifié d'apprentissage par renforcement interactif (RL) capable de former efficacement de tels agents à partir de zéro — sans recourir à un ajustement supervisé (SFT) — dans des environnements divers et réalistes. Pour combler cette lacune, nous présentons AgentGym-RL, un nouveau cadre destiné à entraîner des agents LLM pour la prise de décision interactive multi-tours via le RL. Ce cadre se distingue par une architecture modulaire et découplée, garantissant une grande flexibilité et extensibilité. Il englobe une variété de scénarios réalistes et prend en charge les principaux algorithmes de RL. Par ailleurs, nous proposons ScalingInter-RL, une approche d'entraînement conçue pour équilibrer exploration-exploitation et optimiser de manière stable le RL. Dans les premières phases, elle privilégie l'exploitation en limitant le nombre d'interactions, puis évolue progressivement vers l'exploration avec des horizons plus larges pour encourager des stratégies de résolution de problèmes diversifiées. Ainsi, l'agent développe des comportements plus variés et est moins susceptible de s'effondrer sur de longues durées. Nous menons des expériences approfondies pour valider la stabilité et l'efficacité du cadre AgentGym-RL ainsi que de l'approche ScalingInter-RL. Nos agents égalent ou surpassent les modèles commerciaux sur 27 tâches dans divers environnements. Nous partageons des insights clés et mettrons en open-source l'intégralité du cadre AgentGym-RL — incluant le code et les jeux de données — pour permettre à la communauté de recherche de développer la prochaine génération d'agents intelligents.
La segmentation des actifs 3D en leurs parties constitutives est cruciale pour améliorer la compréhension 3D, faciliter la réutilisation des modèles et soutenir diverses applications telles que la génération de pièces. Cependant, les méthodes actuelles présentent des limitations, notamment une faible robustesse face aux objets complexes et une incapacité à automatiser entièrement le processus. Dans cet article, nous proposons un modèle natif de segmentation de parties 3D basé sur des points, appelé P3-SAM, conçu pour automatiser entièrement la segmentation de tout objet 3D en composants. Inspiré par SAM, P3-SAM se compose d'un extracteur de caractéristiques, de plusieurs têtes de segmentation et d'un prédicteur d'IoU, permettant une segmentation interactive pour les utilisateurs. Nous proposons également un algorithme pour sélectionner et fusionner automatiquement les masques prédits par notre modèle pour la segmentation d'instances de parties. Notre modèle est entraîné sur un nouvel ensemble de données contenant près de 3,7 millions de modèles avec des étiquettes de segmentation raisonnables. Les comparaisons montrent que notre méthode obtient des résultats de segmentation précis et une forte robustesse sur tout objet complexe, atteignant des performances de pointe. Notre code sera bientôt publié.
Dans ce rapport, nous présentons Hunyuan-MT-7B, notre premier modèle de traduction multilingue open source, qui prend en charge la traduction bidirectionnelle entre 33 langues majeures et accorde une attention particulière à la traduction entre le mandarin et plusieurs langues minoritaires ainsi que des dialectes. De plus, pour répondre à divers scénarios de traduction et améliorer les performances du modèle lors des tests, nous introduisons Hunyuan-MT-Chimera-7B, un modèle de traduction inspiré du mode de pensée lente. Ce modèle intègre plusieurs sorties générées par le modèle Hunyuan-MT-7B sous différents réglages de paramètres, atteignant ainsi des performances supérieures à celles des modèles conventionnels de pensée lente basés sur le Chain-of-Thought (CoT). Le développement de nos modèles suit un processus de formation holistique spécifiquement conçu pour la traduction multilingue, qui commence par un pré-entraînement général et orienté vers la traduction automatique pour construire des capacités fondamentales, se poursuit par un Fine-Tuning Supervisé (SFT) pour l'adaptation à des tâches spécifiques, et se termine par un alignement avancé via l'apprentissage par renforcement (RL) et le RL faible-vers-fort. À travers une expérimentation approfondie, nous démontrons que Hunyuan-MT-7B et Hunyuan-MT-Chimera-7B surpassent significativement tous les modèles spécifiques à la traduction de taille comparable et la plupart des grands modèles SOTA, en particulier sur la tâche de traduction entre le mandarin et les langues minoritaires ainsi que les dialectes. Dans la tâche partagée WMT2025 (Traduction Automatique Générale), nos modèles démontrent des performances de pointe, se classant premiers dans 30 des 31 paires de langues. Ce résultat met en évidence la robustesse de nos modèles à travers un spectre linguistique diversifié, englobant des langues à ressources élevées comme le chinois, l'anglais et le japonais, ainsi que des langues à faibles ressources telles que le tchèque, le marathi, l'estonien et l'islandais.
Les modèles de langage modernes de grande taille (LLMs) excellent dans la génération de données synthétiques. Cependant, leurs performances dans des domaines sensibles tels que la détoxification de texte n'ont pas reçu l'attention appropriée de la part de la communauté scientifique. Cet article explore la possibilité d'utiliser des données toxiques synthétiques générées par des LLMs comme alternative aux données générées par des humains pour entraîner des modèles de détoxification. En utilisant les modèles Llama 3 et Qwen avec activation patchée, nous avons généré des contreparties toxiques synthétiques pour des textes neutres issus des ensembles de données ParaDetox et SST-2. Nos expériences montrent que les modèles affinés sur des données synthétiques performent systématiquement moins bien que ceux entraînés sur des données humaines, avec une baisse de performance allant jusqu'à 30 % dans les métriques conjointes. La cause principale est identifiée comme un écart critique dans la diversité lexicale : les LLMs génèrent du contenu toxique en utilisant un vocabulaire restreint et répétitif d'insultes qui ne parvient pas à capturer les nuances et la variété de la toxicité humaine. Ces résultats mettent en lumière les limites des LLMs actuels dans ce domaine et soulignent l'importance continue de données annotées par des humains et diversifiées pour construire des systèmes de détoxification robustes.
L'intelligence artificielle générative émerge comme une technologie importante, promettant d'être transformatrice dans de nombreux domaines. Parallèlement, les techniques d'IA générative reposent sur l'échantillonnage de modèles probabilistes et, par défaut, elles ne fournissent aucune garantie concernant l'exactitude, la sécurité, l'équité ou d'autres propriétés. Les méthodes statistiques offrent une approche potentiellement prometteuse pour améliorer la fiabilité des techniques d'IA générative. De plus, les méthodes statistiques sont également prometteuses pour améliorer la qualité et l'efficacité de l'évaluation de l'IA, ainsi que pour concevoir des interventions et des expériences en IA. Dans cet article, nous passons en revue certains travaux existants sur ces sujets, en expliquant à la fois les techniques statistiques générales utilisées et leurs applications à l'IA générative. Nous discutons également des limitations et des directions futures potentielles.
L'augmentation des ressources de calcul lors des tests, en générant plusieurs solutions indépendantes et en les sélectionnant ou en les agrégeant, est devenue un paradigme central pour améliorer les modèles de langage de grande taille (LLM) sur des tâches de raisonnement complexes. Bien que la plupart des travaux antérieurs reposent sur un vote majoritaire simple ou un classement par modèle de récompense pour agréger les solutions, ces approches peuvent n'offrir que des avantages limités. Dans ce travail, nous proposons d'apprendre l'agrégation comme une compétence de raisonnement explicite : étant donné un ensemble de solutions candidates, nous entraînons un modèle d'agrégation à examiner, concilier et synthétiser une réponse finale et correcte en utilisant l'apprentissage par renforcement à partir de récompenses vérifiables. Un élément clé est l'équilibrage minutieux entre des exemples d'entraînement faciles et difficiles, permettant au modèle d'apprendre à la fois à récupérer des réponses minoritaires mais correctes ainsi que des réponses majoritaires faciles. Empiriquement, nous constatons que notre méthode, AggLM, surpasse à la fois les bases de référence basées sur des règles et les modèles de récompense, sur plusieurs benchmarks. De plus, elle généralise efficacement aux solutions provenant de modèles différents, y compris des modèles plus performants que ceux contenus dans les données d'entraînement, tout en nécessitant nettement moins de tokens qu'un vote majoritaire avec un plus grand nombre de solutions.
La disponibilité généralisée des dépôts open-source a conduit à une vaste collection de composants logiciels réutilisables, mais leur utilisation reste manuelle, sujette aux erreurs et déconnectée. Les développeurs doivent naviguer dans la documentation, comprendre les API et écrire du code d'intégration, ce qui crée des obstacles importants à la réutilisation efficace des logiciels. Pour remédier à cela, nous présentons EnvX, un cadre qui exploite l'IA agentique pour transformer les dépôts GitHub en agents intelligents et autonomes capables d'interagir en langage naturel et de collaborer entre eux. Contrairement aux approches existantes qui traitent les dépôts comme des ressources de code statiques, EnvX les réinvente comme des agents actifs à travers un processus en trois phases : (1) l'initialisation de l'environnement guidée par TODO, qui configure les dépendances, les données et les jeux de validation nécessaires ; (2) l'automatisation agentique alignée sur l'humain, permettant aux agents spécifiques aux dépôts d'exécuter de manière autonome des tâches réelles ; et (3) le protocole Agent-to-Agent (A2A), permettant à plusieurs agents de collaborer. En combinant les capacités des grands modèles de langage avec l'intégration structurée d'outils, EnvX automatise non seulement la génération de code, mais aussi l'ensemble du processus de compréhension, d'initialisation et de mise en œuvre des fonctionnalités des dépôts. Nous évaluons EnvX sur le benchmark GitTaskBench, en utilisant 18 dépôts couvrant des domaines tels que le traitement d'images, la reconnaissance vocale, l'analyse de documents et la manipulation vidéo. Nos résultats montrent qu'EnvX atteint un taux d'exécution complète de 74,07 % et un taux de réussite des tâches de 51,85 %, surpassant les cadres existants. Des études de cas démontrent en outre la capacité d'EnvX à permettre la collaboration multi-dépôts via le protocole A2A. Ce travail marque un passage du traitement des dépôts comme des ressources de code passives à des agents intelligents et interactifs, favorisant une plus grande accessibilité et collaboration au sein de l'écosystème open-source.
Alors que les humains délèguent de plus en plus de tâches et de décisions à l'intelligence artificielle (IA), nous risquons de perdre le contrôle de nos avenirs individuels et collectifs. Des systèmes algorithmiques relativement simples orientent déjà la prise de décision humaine, comme les algorithmes de flux des médias sociaux qui conduisent les gens à parcourir de manière involontaire et distraite du contenu optimisé pour l'engagement. Dans cet article, nous développons l'idée d'agence humaine en intégrant des théories philosophiques et scientifiques de l'agence avec des méthodes d'évaluation assistées par l'IA : en utilisant des modèles de langage de grande taille (LLMs) pour simuler et valider les requêtes des utilisateurs et pour évaluer les réponses de l'IA. Nous développons HumanAgencyBench (HAB), un benchmark scalable et adaptatif avec six dimensions de l'agence humaine basées sur des cas d'utilisation typiques de l'IA. HAB mesure la tendance d'un assistant ou agent IA à Poser des Questions de Clarification, Éviter la Manipulation des Valeurs, Corriger la Désinformation, Reporter les Décisions Importantes, Encourager l'Apprentissage, et Maintenir les Limites Sociales. Nous constatons un soutien faible à modéré de l'agence dans les assistants contemporains basés sur des LLMs et des variations substantielles entre les développeurs de systèmes et les dimensions. Par exemple, bien que les LLMs d'Anthropic soutiennent le plus l'agence humaine dans l'ensemble, ils sont les moins favorables en termes d'Éviter la Manipulation des Valeurs. Le soutien à l'agence ne semble pas résulter de manière cohérente de l'augmentation des capacités des LLMs ou du comportement de suivi des instructions (par exemple, RLHF), et nous encourageons un changement vers des objectifs de sécurité et d'alignement plus robustes.