Articles de recherche IA sélectionnés quotidiennement avec traductions
Nous présentons Step 3.5 Flash, un modèle clairsemé de type *Mixture-of-Experts* (MoE) qui établit un pont entre une intelligence agentique de niveau *frontier* et l'efficacité computationnelle. Nous nous concentrons sur ce qui compte le plus dans la construction d'agents : un raisonnement aiguisé et une exécution rapide et fiable. Step 3.5 Flash associe une fondation de 196 milliards de paramètres à seulement 11 milliards de paramètres actifs pour une inférence efficace. Il est optimisé grâce à un mécanisme d'attention hybride (fenêtre glissante 3:1 / attention complète entrelacée) et à la Prédiction Multi-Jetons (MTP-3) afin de réduire la latence et le coût des interactions agentiques multi-tours. Pour atteindre un niveau d'intelligence de pointe, nous avons conçu un cadre d'apprentissage par renforcement scalable qui combine des signaux vérifiables et des retours de préférence, tout en restant stable lors d'un entraînement hors politique à grande échelle, permettant une amélioration constante en mathématiques, en code et dans l'utilisation d'outils. Step 3.5 Flash démontre de solides performances sur un large éventail de tâches agentiques, de codage et mathématiques, obtenant 85,4 % sur IMO-AnswerBench, 86,4 % sur LiveCodeBench-v6 (2024.08-2025.05), 88,2 % sur tau2-Bench, 69,0 % sur BrowseComp (avec gestion du contexte) et 51,0 % sur Terminal-Bench 2.0, des résultats comparables aux modèles de référence tels que GPT-5.2 xHigh et Gemini 3.0 Pro. En redéfinissant la frontière de l'efficacité, Step 3.5 Flash fournit une fondation à haute densité pour le déploiement d'agents sophistiqués dans des environnements industriels réels.
Des études récentes ont adapté les modèles de langage multimodaux (MLLMs) génératifs pour en faire des extracteurs d'incorporations pour des tâches visuelles, généralement par micro-ajustement afin de produire des représentations universelles. Cependant, leurs performances sur la vidéo restent inférieures à celles des modèles fondationnels vidéo (VFMs). Dans cet article, nous nous concentrons sur l'exploitation des MLLMs pour l'incorporation et la recherche vidéo-texte. Nous menons d'abord une analyse systématique couche par couche, montrant que les couches intermédiaires (pré-entraînées) des MLLMs encodent déjà des informations substantielles pertinentes pour la tâche. En tirant parti de cette observation, nous démontrons que la combinaison des incorporations des couches intermédiaires avec une tête de MLLM calibrée permet d'obtenir de solides performances de recherche zero-shot sans aucun entraînement. Sur la base de ces résultats, nous introduisons une stratégie d'alignement légère basée sur le texte, qui cartographie des descriptions vidéo denses vers des résumés courts et permet un apprentissage d'incorporation vidéo-texte lié à la tâche sans supervision visuelle. Fait remarquable, sans aucun micro-ajustement au-delà du texte, notre méthode surpasse les approches actuelles, souvent de manière substantielle, obtenant des résultats state-of-the-art sur les benchmarks courants de recherche vidéo.
Les modèles multimodaux unifiés (UMM) ont montré des progrès remarquables en génération visuelle. Pourtant, les benchmarks existants évaluent principalement l'intelligence cristallisée, qui repose sur le rappel de connaissances accumulées et de schémas appris. Cette focalisation néglige l'intelligence fluide générative (GFI) : la capacité à induire des motifs, à raisonner via des contraintes et à s'adapter à de nouveaux scénarios à la volée. Pour évaluer rigoureusement cette capacité, nous présentons GENIUS (GEN Fluid Intelligence EvalUation Suite). Nous formalisons la GFI comme une synthèse de trois primitives. Celles-ci incluent l'induction de motifs implicites (par exemple, déduire des préférences visuelles personnalisées), l'exécution de contraintes ad hoc (par exemple, visualiser des métaphores abstraites) et l'adaptation à des connaissances contextuelles (par exemple, simuler une physique contre-intuitive). Collectivement, ces primitives mettent les modèles au défi de résoudre des problèmes entièrement ancrés dans le contexte immédiat. Notre évaluation systématique de 12 modèles représentatifs révèle des déficits de performance significatifs dans ces tâches. Surtout, notre analyse diagnostique démêle ces modes d'échec. Elle démontre que les déficits proviennent d'une compréhension contextuelle limitée plutôt que d'une capacité générative intrinsèque insuffisante. Pour combler cette lacune, nous proposons une stratégie d'intervention attentionnelle sans apprentissage. En définitive, GENIUS établit un standard rigoureux pour la GFI, guidant le domaine au-delà de l'utilisation des connaissances vers un raisonnement dynamique et généraliste. Notre jeu de données et notre code seront publiés à l'adresse : https://github.com/arctanxarc/GENIUS{https://github.com/arctanxarc/GENIUS}.
Avec le développement rapide des grands modèles multimodaux, des modèles évaluateurs et critiques fiables sont devenus essentiels pour l'évaluation ouverte et l'alignement des préférences, fournissant des préférences par paires, des scores numériques et des justifications explicatives pour évaluer les réponses générées par les modèles. Cependant, les critiques existants sont principalement entraînés dans des domaines visuels généraux tels que la légende d'images ou le question-réponse visuel, laissant les tâches d'IA physique impliquant la perception, le raisonnement causal et la planification largement sous-explorées. Nous présentons PhyCritic, un modèle critique multimodal optimisé pour l'IA physique grâce à un pipeline RLVR en deux étapes : une phase d'échauffement des compétences physiques qui améliore la perception et le raisonnement orientés vers le physique, suivie d'un affinage critique autoréférentiel, où le critique génère sa propre prédiction comme référence interne avant de juger les réponses candidates, améliorant ainsi la stabilité du jugement et l'exactitude physique. Sur des benchmarks d'évaluation multimodaux à la fois physiques et généralistes, PhyCritic obtient des gains de performance significatifs par rapport aux solutions open-source de référence et, lorsqu'il est appliqué comme modèle de politique, améliore encore la perception et le raisonnement dans les tâches ancrées dans le physique.
L'adaptation des agents LLM à l'utilisation d'outils spécifiques à un domaine reste particulièrement fragile face à des interfaces en évolution. L'ingénierie de prompts et de schémas est facile à déployer mais souvent instable face aux décalages de distribution et aux analyseurs stricts, tandis que le fine-tuning continu à efficacité paramétrique améliore la fiabilité au prix d'un entraînement, d'une maintenance et d'un oubli potentiel. Nous identifions un mode de défaillance critique de l'Agent Paresseux où la nécessité d'utiliser un outil est presque parfaitement déchiffrable à partir des activations des couches intermédiaires, mais où le modèle reste conservateur pour entrer en mode outil, révélant un écart entre représentation et comportement. Nous proposons l'Adaptateur de Pilotage par Activation (ASA), un contrôleur non entraîné fonctionnant à l'inférence qui effectue une intervention unique sur les couches intermédiaires et cible les domaines d'outils via un mélange conditionné par un routeur de vecteurs de pilotage avec une porte signée guidée par une sonde pour amplifier l'intention réelle tout en supprimant les déclencheurs parasites. Sur MTU-Bench avec Qwen2.5-1.5B, ASA améliore le F1 strict d'utilisation d'outils de 0,18 à 0,50 tout en réduisant le taux de faux positifs de 0,15 à 0,05, en utilisant seulement environ 20 Ko d'actifs portables et sans mise à jour des poids.
Les récents progrès des modèles fondateurs ont donné naissance à des systèmes de raisonnement capables d'atteindre un niveau médaille d'or aux Olympiades Internationales de Mathématiques. Cependant, la transition entre la résolution de problèmes de niveau compétitif et la recherche professionnelle nécessite de naviguer dans une vaste littérature et de construire des preuves à long horizon. Dans ce travail, nous présentons Aletheia, un agent de recherche mathématique qui génère, vérifie et révise itérativement des solutions de bout en bout en langage naturel. Plus précisément, Aletheia est propulsé par une version avancée de Gemini Deep Think pour les problèmes de raisonnement complexes, une nouvelle loi d'échelle au moment de l'inférence qui va au-delà des problèmes de niveau Olympiade, et une utilisation intensive d'outils pour naviguer dans les complexités de la recherche mathématique. Nous démontrons les capacités d'Aletheia, des problèmes d'Olympiade aux exercices de niveau doctoral, et plus notablement, à travers plusieurs jalons distincts dans la recherche mathématique assistée par IA : (a) un article de recherche (Feng26) généré par l'IA sans aucune intervention humaine pour calculer certaines constantes structurelles en géométrie arithmétique appelées poids propres ; (b) un article de recherche (LeeSeo26) démontrant une collaboration humain-IA pour prouver des bornes sur des systèmes de particules en interaction appelés ensembles indépendants ; et (c) une évaluation semi-autonome extensive (Feng et al., 2026a) de 700 problèmes ouverts de la base de données des conjectures d'Erdos de Bloom, incluant des solutions autonomes à quatre questions ouvertes. Afin d'aider le public à mieux comprendre les développements liés à l'IA et aux mathématiques, nous suggérons de codifier des niveaux standard quantifiant l'autonomie et la nouveauté des résultats assistés par l'IA. Nous concluons par des réflexions sur la collaboration humain-IA en mathématiques.
Bien que le raisonnement sur de longs contextes soit crucial pour diverses applications réelles, il reste un défi pour les grands modèles de langage (LLM), car leurs performances se dégradent avec l'augmentation de la longueur du contexte. Les travaux récents sur MemAgent ont tenté de résoudre ce problème en traitant le contexte morceau par morceau dans une boucle de type RNN et en mettant à jour une mémoire textuelle pour la réponse finale. Cependant, cette mise à jour récurrente naïve de la mémoire présente deux inconvénients majeurs : (i) la mémoire peut exploser rapidement car elle se met à jour de manière indiscriminée, même sur des segments sans preuve ; et (ii) la boucle ne dispose pas d'un mécanisme de sortie, entraînant des calculs inutiles même après que des preuves suffisantes aient été recueillies. Pour résoudre ces problèmes, nous proposons GRU-Mem, qui intègre deux portes contrôlées par le texte pour un raisonnement sur contexte long plus stable et efficace. Concrètement, dans GRU-Mem, la mémoire ne se met à jour que lorsque la porte de mise à jour est ouverte, et la boucle récurrente se termine immédiatement une fois la porte de sortie ouverte. Pour doter le modèle de telles capacités, nous introduisons deux signaux de récompense, r^{update} et r^{exit}, dans un apprentissage par renforcement de bout en bout, récompensant respectivement les comportements corrects de mise à jour et de sortie. Les expériences sur diverses tâches de raisonnement en contexte long démontrent l'efficacité et l'efficience de GRU-Mem, qui surpasse généralement le MemAgent standard avec une accélération de vitesse d'inférence pouvant atteindre 400 %.
Ce travail propose l'Omni Dense Captioning, une nouvelle tâche conçue pour générer des narrations audio-visuelles continues, fines et structurées avec des horodatages explicites. Pour assurer une couverture sémantique dense, nous introduisons un schéma structurel à six dimensions afin de créer des légendes « semblables à un script », permettant aux lecteurs d'imaginer vivement le contenu vidéo scène par scène, à la manière d'un scénario cinématographique. Pour faciliter la recherche, nous construisons OmniDCBench, un benchmark de haute qualité annoté manuellement, et proposons SodaM, une métrique unifiée qui évalue les descriptions détaillées sensibles au temps tout en atténuant l'ambiguïté des limites de scène. De plus, nous constituons un jeu de données d'entraînement, TimeChatCap-42K, et présentons TimeChat-Captioner-7B, une base solide entraînée via SFT et GRPO avec des récompenses spécifiques à la tâche. Des expériences approfondies démontrent que TimeChat-Captioner-7B atteint des performances de pointe, surpassant Gemini-2.5-Pro, tandis que ses descriptions denses générées améliorent significativement les capacités en aval dans le raisonnement audio-visuel (DailyOmni et WorldSense) et l'ancrage temporel (Charades-STA). Tous les jeux de données, modèles et codes seront rendus publics à l'adresse https://github.com/yaolinli/TimeChat-Captioner.
Les grands modèles de langage de type décodeur uniquement sont de plus en plus utilisés comme encodeurs comportementaux pour l'apprentissage de représentations d'utilisateurs, mais l'impact du masquage de l'attention sur la qualité des embeddings utilisateurs reste peu exploré. Dans ce travail, nous menons une étude systématique des masques d'attention causals, hybrides et bidirectionnels dans un cadre d'apprentissage par contraste unifié, entraîné sur des données Alipay à grande échelle intégrant des comportements utilisateurs hétérogènes sur le long terme. Pour améliorer la dynamique d'entraînement lors de la transition entre l'attention causale et bidirectionnelle, nous proposons le Masquage Souple Guidé par Gradient, un préchauffage basé sur les gradients appliqué avant un planificateur linéaire qui ouvre progressivement l'attention future durant l'optimisation. Évaluée sur 9 benchmarks industriels de cognition utilisateur couvrant des tâches de prédiction, de préférence et de sensibilité marketing, notre approche produit systématiquement un entraînement plus stable et des représentations bidirectionnelles de meilleure qualité comparée aux bases de référence causales, hybrides et utilisant uniquement un planificateur, tout en restant compatible avec le pré-entraînement des décodeurs. Globalement, nos résultats soulignent l'importance de la conception du masquage et de la transition d'entraînement pour adapter les LLMs de type décodeur uniquement à un apprentissage efficace des représentations utilisateurs. Notre code est disponible à l'adresse https://github.com/JhCircle/Deepfind-GGSM.
Si les grands modèles de langage (LLM) ont récemment montré des résultats prometteurs dans la conception automatisée d'heuristiques (AHD), les approches existantes formulent généralement l'AHD autour de règles de priorité constructives ou de guides de recherche locale paramétrés, limitant ainsi l'espace de recherche à des formes heuristiques fixes. Ces conceptions offrent une capacité limitée d'exploration structurelle, rendant difficile l'échappement d'optima locaux profonds dans les problèmes d'optimisation combinatoire (POC) complexes. Dans ce travail, nous proposons G-LNS, un cadre évolutionnaire génératif qui étend l'AHD basée sur les LLM à la conception automatisée d'opérateurs de recherche à grand voisinage (LNS). Contrairement aux méthodes antérieures qui font évoluer les heuristiques de manière isolée, G-LNS utilise les LLM pour co-évoluer des paires étroitement couplées d'opérateurs de destruction et de réparation. Un mécanisme d'évaluation coopératif capture explicitement leur interaction, permettant la découverte de logiques opératoires complémentaires qui réalisent conjointement une perturbation et une reconstruction structurelles efficaces. Des expériences approfondies sur des benchmarks exigeants de POC, tels que les problèmes du voyageur de commerce (PVC) et les problèmes de tournées de véhicules capacités (CVRP), démontrent que G-LNS surpasse significativement les méthodes AHD basées sur les LLM ainsi que les solvers classiques robustes. Les heuristiques découvertes atteignent non seulement des solutions quasi-optimales avec des budgets computationnels réduits, mais présentent également une généralisation robuste sur des distributions d'instances diverses et inédites.
Les agents pilotés par des modèles de langage de grande taille (LLM) sont de plus en plus adoptés dans l'industrie du logiciel, contribuant au code en tant que collaborateurs ou même en tant que développeurs autonomes. Leur présence grandissante rend nécessaire l'évaluation des limites actuelles de leurs capacités en matière de programmation. Cependant, les benchmarks existants pour le codage agentique couvrent un champ de tâches limité, par exemple, la correction de bogues dans une seule demande de tirage (PR), et reposent souvent sur des évaluations non exécutables ou manquent d'une approche automatisée pour mettre à jour continuellement la couverture de l'évaluation. Pour résoudre ces problèmes, nous proposons FeatureBench, un benchmark conçu pour évaluer les performances de codage agentique dans le développement de logiciels orienté fonctionnalité, de bout en bout. FeatureBench intègre un protocole d'évaluation basé sur l'exécution et une méthode pilotée par les tests, évolutive, qui dérive automatiquement les tâches à partir de dépôts de code avec un effort humain minimal. En remontant des tests unitaires le long d'un graphe de dépendances, notre approche peut identifier des tâches de codage au niveau fonctionnalité, couvrant de multiples commits et PR dispersés sur la chronologie de développement, tout en garantissant le bon fonctionnement des autres fonctionnalités après la séparation. En utilisant ce cadre, nous avons constitué 200 tâches d'évaluation difficiles et 3825 environnements exécutables à partir de 24 dépôts open-source dans la première version de notre benchmark. L'évaluation empirique révèle que le modèle agentique de pointe, tel que Claude 4.5 Opus, qui atteint un taux de résolution de 74,4 % sur SWE-bench, ne réussit que 11,0 % des tâches, ouvrant de nouvelles opportunités pour faire progresser le codage agentique. De plus, grâce à notre boîte à outils automatisée de collecte de tâches, FeatureBench peut être facilement mis à l'échelle et actualisé au fil du temps pour atténuer les fuites de données. La vérifiabilité inhérente des environnements construits rend également notre méthode potentiellement précieuse pour l'entraînement des agents.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est apparu comme une approche efficace pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Malgré son efficacité, le RLVR se heurte à un goulot d'étranglement en méta-apprentissage : il manque de mécanismes d'attribution d'erreur et d'intériorisation de l'expérience, intrinsèques au cycle d'apprentissage humain au-delà de la pratique et de la vérification, limitant ainsi l'attribution fine du crédit et la formation de connaissances réutilisables. Nous désignons ces représentations de connaissances réutilisables, dérivées d'erreurs passées, comme la méta-expérience. Sur la base de cette idée, nous proposons l'apprentissage par méta-expérience (MEL), un nouveau cadre qui intègre une méta-expérience auto-distillée dans la mémoire paramétrique du modèle. En s'appuyant sur le RLVR standard, nous introduisons une conception supplémentaire qui exploite la capacité d'auto-vérification du LLM pour mener une analyse contrastive sur des trajectoires correctes et incorrectes appariées, identifier les points de bifurcation précis où surviennent les erreurs de raisonnement, et les synthétiser en une méta-expérience généralisable. La méta-expérience est ensuite internalisée dans la mémoire paramétrique du LLM en minimisant la log-vraisemblance négative, ce qui induit un signal de récompense modélisé par le langage. Ce signal fait le pont entre les trajectoires de raisonnement correctes et incorrectes et facilite la réutilisation efficace des connaissances. Les résultats expérimentaux démontrent que MEL permet des améliorations constantes sur les benchmarks, avec des gains Pass@1 de 3,92 % à 4,73 % pour différentes tailles de modèles.
Dans le paysage actuel des modèles de langage de grande taille (LLM), la curation de données d'entraînement à grande échelle et de haute qualité est un facteur clé de performance des modèles. Un levier essentiel est la recette de données, qui comprend un pipeline de traitement pour transformer des sources brutes en corpus d'entraînement. Malgré l'utilisation croissante des LLMs pour automatiser des étapes individuelles de traitement des données, telles que la synthèse et le filtrage, la conception globale des recettes de données reste largement manuelle et laborieuse, nécessitant une expertise humaine substantielle et des itérations. Pour combler cette lacune, nous formalisons la génération de recettes de données de bout en bout pour l'adaptation des LLMs. Étant donné un benchmark cible et un pool de sources de données disponibles, un modèle doit produire une recette de données complète qui adapte un LLM de base à la tâche cible. Nous présentons DataChef-32B, qui réalise un apprentissage par renforcement en ligne en utilisant une récompense proxy prédisant la performance en aval des recettes candidates. Sur six tâches de test, DataChef-32B produit des recettes pratiques atteignant des performances comparables à celles élaborées par des experts humains. Notamment, la recette de DataChef-32B adapte Qwen3-1.7B-Base au domaine mathématique, atteignant 66,7 sur AIME'25 et surpassant Qwen3-1.7B. Ce travail ouvre de nouvelles perspectives sur l'automatisation de l'entraînement des LLMs et le développement de systèmes d'IA auto-évolutifs.
Nous présentons ROCKET, une méthode de compression de modèles ne nécessitant aucun entraînement, qui atteint des performances de pointe comparée à des méthodes de référence basées sur la factorisation, la sparsification structurée et la compression dynamique. Fonctionnant avec un budget de compression global, ROCKET repose sur deux innovations clés. Premièrement, elle formule l'allocation de la compression couche par couche comme un problème de sac à dos multi-choix, sélectionnant le niveau de compression optimal pour chaque couche afin de minimiser l'erreur de reconstruction totale tout en respectant une taille de modèle cible. Deuxièmement, elle introduit une factorisation de matrice creuse en une seule étape, inspirée par l'apprentissage de dictionnaire : en utilisant seulement un petit jeu de calibration, elle sparsifie les coefficients de pondération en fonction de la sensibilité activations-poids, puis met à jour le dictionnaire sous forme close via les moindres carrés, contournant ainsi entièrement l'optimisation itérative, le codage sparse ou la rétropropagation. ROCKET surpasse systématiquement les approches de compression existantes sur différentes architectures de modèle pour des taux de compression de 20 à 50 %. Fait notable, elle conserve plus de 90 % des performances du modèle original à 30 % de compression, sans aucun ajustement fin. De plus, l'application d'une phase d'ajustement fin léger améliore substantiellement la récupération : par exemple, compresser Qwen3-14B en un modèle de 8 milliards de paramètres et le "soigner" avec seulement 30 millions de tokens donne des performances quasi équivalentes à celles du Qwen3-8B original. Le code de ROCKET est disponible sur github.com/mts-ai/ROCKET/tree/main.
L'apprentissage par renforcement pour les grands modèles de langage souffre de ratios d'échantillonnage d'importance (IS) à haut niveau de variance au niveau des tokens, ce qui déstabiliserait l'optimisation des politiques à grande échelle. Pour améliorer la stabilité, les méthodes récentes utilisent généralement un ratio IS fixe au niveau de la séquence pour tous les tokens d'une séquence ou ajustent séparément le ratio IS de chaque token, négligeant ainsi la dérivation hors politique temporelle entre les tokens d'une séquence. Dans cet article, nous identifions d'abord empiriquement que la déviation hors politique locale est structurellement incohérente au niveau du token, ce qui peut fausser les mises à jour du gradient de politique entre les tokens adjacents et conduire à un effondrement de l'entraînement. Pour résoudre ce problème, nous proposons le Filtrage de Kalman Causal en Ligne pour une Optimisation de Politique stable et efficace (KPO). Concrètement, nous modélisons le ratio IS souhaité comme un état latent qui évolue à travers les tokens et appliquons un filtre de Kalman pour mettre à jour cet état en ligne et de manière autorégressive en fonction des états des tokens passés, indépendamment des tokens futurs. Les ratios IS filtrés qui en résultent préservent une variation locale consciente de la structure au niveau du token tout en lissant fortement les pics de bruit, produisant des mises à jour de politique plus stables et efficaces. Expérimentalement, KPO obtient des résultats supérieurs sur des ensembles de données complexes de raisonnement mathématique par rapport aux méthodes état de l'art.
Les Transformers à boucle sont apparus comme une classe de modèles efficace et puissante pour le raisonnement dans le domaine du langage. Des études récentes montrent que ces modèles obtiennent de solides performances sur des tâches algorithmiques et de raisonnement, suggérant que les architectures à boucle possèdent un biais inductif favorisant un raisonnement latent. Cependant, les approches antérieures fixent le nombre d'itérations de la boucle pendant l'entraînement et l'inférence, laissant ouverte la question de savoir si ces modèles peuvent adapter flexiblement leur profondeur computationnelle sous des budgets de calcul variables. Nous présentons LoopFormer, un Transformer à boucle entraîné sur des trajectoires de longueur variable pour permettre un raisonnement conditionné par le budget. Notre contribution principale est un schéma d'entraînement par cohérence de raccourci qui aligne les trajectoires de différentes longueurs, garantissant que des boucles plus courtes produisent des représentations informatives tandis que des boucles plus longues continuent de les affiner. LoopFormer conditionne chaque boucle sur le temps actuel et la taille du pas, permettant aux représentations d'évoluer de manière cohérente sur des trajectoires de longueur variable plutôt que de dériver ou de stagner. Empiriquement, LoopFormer démontre des performances robustes sur des benchmarks de modélisation du langage et de raisonnement, même sous des contraintes de calcul agressives, tout en s'adaptant harmonieusement à un budget supplémentaire. Ces résultats montrent que les Transformers à boucle sont intrinsèquement adaptés à la modélisation du langage adaptive, ouvrant une voie vers des grands modèles de langage contrôlables et conscients du budget.
Malgré les progrès rapides réalisés sur les agents de codage, les avancées concernant leurs équivalents multimodaux sont à la traîne. Un défi majeur réside dans la rareté des bancs d'évaluation qui combinent la complexité du développement logiciel et la nécessité d'une compréhension multimodale approfondie. Le développement de jeux vidéo constitue un tel banc d'essai, car les agents doivent naviguer dans des bases de code vastes et denses tout en manipulant des ressources intrinsèquement multimodales, telles que les shaders, les sprites et les animations, au sein d'une scène de jeu visuelle. Nous présentons GameDevBench, le premier benchmark conçu pour évaluer les agents sur des tâches de développement de jeux. GameDevBench se compose de 132 tâches dérivées de tutoriels web et vidéo. Ces tâches nécessitent une compréhension multimodale significative et sont complexes : la solution moyenne requiert plus de trois fois le nombre de lignes de code et de modifications de fichiers par rapport aux benchmarks de développement logiciel antérieurs. Les agents éprouvent encore des difficultés avec le développement de jeux, le meilleur agent ne résolvant que 54,5 % des tâches. Nous observons une forte corrélation entre la difficulté perçue d'une tâche et sa complexité multimodale, les taux de réussite chutant de 46,9 % pour les tâches axées sur le gameplay à 31,6 % pour les tâches graphiques 2D. Pour améliorer les capacités multimodales, nous introduisons deux mécanismes de rétroaction simples pour les agents, basés sur l'image et la vidéo. Malgré leur simplicité, ces méthodes améliorent constamment les performances, la plus forte augmentation étant une amélioration des performances de Claude Sonnet 4.5, passant de 33,3 % à 47,7 %. Nous rendons GameDevBench public pour soutenir les recherches futures sur le développement de jeux par des agents.
Le réglage fin supervisé (SFT) sur des données de chaîne de raisonnement est une étape post-formation essentielle pour les modèles de langage dédiés au raisonnement. L'intuition classique en apprentissage automatique suggère que l'entraînement avec un plus grand nombre d'échantillons uniques améliore la généralisation. De manière contre-intuitive, nous montrons que le SFT bénéficie de la répétition : avec un budget de mises à jour fixe, un entraînement sur plus d'époques avec des jeux de données plus petits surpasse l'entraînement sur une seule époque avec des jeux de données plus vastes. Sur les benchmarks AIME'24/25 et GPQA, Olmo3-7B entraîné pendant 128 époques sur 400 échantillons surpasse l'équivalent d'une époque sur 51200 échantillons par 12 à 26 points de pourcentage, sans oubli catastrophique supplémentaire. Nous constatons que la précision des tokens d'entraînement indique de manière fiable quand la répétition est saturée ; les gains liés aux époques supplémentaires plafonnent à la mémorisation complète, un schéma cohérent dans tous les paramètres. Ces résultats offrent une approche pratique pour le SFT en raisonnement, où l'augmentation du nombre d'époques avec la précision des tokens comme critère d'arrêt peut remplacer un coûteux accroissement non dirigé des données. Nous posons l'avantage de la répétition, où la mémorisation complète coïncide avec une meilleure généralisation, comme un nouveau problème ouvert pour la communauté afin de comprendre la dynamique d'entraînement des grands modèles de langage.
L'optimisation de politique relative au groupe (GRPO) attribue un avantage scalaire unique à tous les tokens d'une complétion. Pour les générations structurées avec des segments et objectifs explicites, cela couple des signaux de récompense non liés à travers les segments, conduisant à une interférence d'objectifs et à une attribution erronée du crédit. Nous proposons l'Estimation d'Avantage par Blocs, une famille de méthodes compatibles avec GRPO qui attribue à chaque objectif son propre avantage et l'applique uniquement aux tokens du bloc de texte correspondant, réduisant la dépendance aux récompenses scalaires conçues manuellement et s'étendant naturellement à des objectifs supplémentaires. Un défi majeur est l'estimation des avantages pour les blocs ultérieurs dont les récompenses sont conditionnées par des préfixes échantillonnés ; les approches standard non biaisées nécessitent des rollouts imbriqués coûteux à partir d'états intermédiaires. Concrètement, nous introduisons une Ligne de Base Conditionnée par le Résultat qui approxime les valeurs d'état intermédiaires en utilisant uniquement des statistiques intra-groupes, en stratifiant les échantillons selon un résultat intermédiaire dérivé du préfixe. Sur des tâches mathématiques avec estimation de l'incertitude, notre méthode atténue l'interférence des récompenses, est compétitive avec une approche de pointe conçue avec des récompenses, et préserve les gains en temps de test obtenus par l'assemblage pondéré par la confiance. Plus généralement, elle fournit une recette modulaire pour optimiser des objectifs séquentiels dans des générations structurées sans rollouts supplémentaires.
Dans l'univers d'Harry Potter, lorsque l'esprit de Dumbledore est trop encombré, il extrait des souvenirs dans une Pensine pour les revoir plus tard. Dans le monde de l'IA, si nous possédons l'équivalent de la Pensine – des bases de données matures et des systèmes de récupération – nos modèles manquent inexplicablement de la « baguette magique » pour l'utiliser. Ils restent comme un Dumbledore sans autonomie, acceptant passivement un contexte élaboré manuellement comme leur mémoire entière. Ce travail place enfin la baguette dans la main du modèle. Nous présentons StateLM, une nouvelle classe de modèles de fondation dotés d'une boucle de raisonnement interne pour gérer leur propre état. Nous équipons notre modèle d'une suite d'outils de mémoire, tels que l'élagage de contexte, l'indexation de documents et la prise de notes, et nous l'entraînons à gérer activement ces outils. En apprenant à concevoir dynamiquement son propre contexte, notre modèle s'émancipe de la prison architecturale d'une fenêtre fixe. Des expériences sur diverses tailles de modèles démontrent l'efficacité de StateLM dans des scénarios variés. Sur les tâches de QA de documents longs, les StateLM surclassent systématiquement les LLM standards à toutes les échelles ; sur la tâche de mémoire de chat, ils obtiennent des améliorations de précision absolue de 10 % à 20 % par rapport aux LLM standards. Sur la tâche de recherche approfondie BrowseComp-Plus, l'écart de performance devient encore plus marqué : StateLM atteint jusqu'à 52 % de précision, tandis que les LLM standards peinent autour de 5 %. Au final, notre approche transforme les LLM de prédicteurs passifs en agents conscients de leur état, où le raisonnement devient un processus dynamique et gérable.
Le déploiement des grands modèles de langage (LLM) dans des contextes cliniques à haut risque exige une évaluation rigoureuse et fiable. Cependant, les benchmarks médicaux existants restent statiques et souffrent de deux limitations critiques : (1) la contamination des données, où les ensembles de test fuient involontairement dans les corpus d'entraînement, conduisant à des estimations de performance gonflées ; et (2) le décalage temporel, qui ne permet pas de capturer l'évolution rapide des connaissances médicales. De plus, les métriques d'évaluation actuelles pour le raisonnement clinique à réponse libre reposent souvent soit sur un chevauchement lexical superficiel (par exemple, ROUGE), soit sur une notation subjective par un LLM-juge, toutes deux inadéquates pour vérifier l'exactitude clinique. Pour combler ces lacunes, nous présentons LiveMedBench, un benchmark continuellement mis à jour, exempt de contamination et basé sur une grille d'évaluation, qui collecte hebdomadairement des cas cliniques réels provenant de communautés médicales en ligne, garantissant une séparation temporelle stricte avec les données d'entraînement des modèles. Nous proposons un Cadre de Curation Clinique Multi-Agent qui filtre le bruit des données brutes et valide l'intégrité clinique par rapport à des principes médicaux fondés sur des preuves. Pour l'évaluation, nous développons un Cadre d'Évaluation Automatisé Basé sur une Grille qui décompose les réponses des médecins en critères granulaires et spécifiques à chaque cas, obtenant un alignement bien plus fort avec les médecins experts qu'avec le LLM-juge. À ce jour, LiveMedBench comprend 2 756 cas réels couvrant 38 spécialités médicales et plusieurs langues, associés à 16 702 critères d'évaluation uniques. L'évaluation approfondie de 38 LLM révèle que même le modèle le plus performant n'atteint que 39,2 %, et que 84 % des modèles présentent une dégradation des performances sur les cas postérieurs à une date de coupure, confirmant les risques omniprésents de contamination des données. L'analyse des erreurs identifie en outre l'application contextuelle – et non les connaissances factuelles – comme le principal goulot d'étranglement, 35 à 48 % des échecs provenant de l'incapacité à adapter les connaissances médicales aux contraintes spécifiques du patient.
L'apprentissage par renforcement (RL) constitue une étape cruciale dans le post-entraînement des grands modèles de langage (LLM), impliquant une interaction répétée entre la génération de rollouts, l'évaluation des récompenses et l'apprentissage centralisé. La distribution de l'exécution des rollouts offre la possibilité d'exploiter des ressources d'inférence plus économiques, mais introduit des défis en matière de coordination géographiquement distribuée et de diffusion des politiques. Nous présentons ECHO-2, un cadre RL distribué pour le post-entraînement utilisant des workers d'inférence distants et présentant une latence de diffusion non négligeable. ECHO-2 combine un apprentissage centralisé avec des rollouts distribués et traite le décalage borné de la politique comme un paramètre contrôlable par l'utilisateur, permettant un chevauchement entre la génération des rollouts, leur diffusion et l'entraînement. Nous introduisons un modèle de capacité basé sur le chevauchement qui relie le temps d'entraînement, la latence de diffusion et le débit des rollouts, produisant une règle d'approvisionnement pratique pour maintenir l'utilisation du learner. Pour atténuer les goulots d'étranglement de diffusion et réduire les coûts, ECHO-2 emploie une diffusion en pipeline assistée par les pairs et une activation hétérogène des workers tenant compte des coûts. Les expériences sur le post-entraînement GRPO de modèles de 4B et 8B paramètres, dans des régimes de bande passante réalistes en réseau étendu, montrent qu'ECHO-2 améliore significativement l'efficacité économique tout en préservant une récompense RL comparable à celle de bases de référence solides.
Les modèles de langage de grande taille (LLM) capables de s'améliorer continuellement au-delà de leur budget d'entraînement peuvent résoudre des problèmes de plus en plus difficiles en s'adaptant au moment du test, une propriété que nous appelons extrapolation. Cependant, l'apprentissage par renforcement (RL) standard opère sur des distributions de problèmes et des budgets d'entraînement fixes, ce qui limite l'extrapolation face aux changements de distribution lors du test. Pour résoudre ce problème, nous introduisons RC, un algorithme de décodage itératif qui remplace le décodage autorégressif standard pendant l'entraînement et l'inférence. RC exploite une asymétrie entre les capacités de génération de réponses et de synthèse des LLM pour construire des chaînes de raisonnement qui s'améliorent constamment au fil des itérations. Les modèles entraînés à utiliser RC peuvent extrapoler et s'améliorer continuellement sur des horizons de raisonnement dépassant de plus d'un ordre de grandeur ceux observés pendant l'entraînement. Empiriquement, l'entraînement d'un modèle de 4B avec RC en utilisant un budget d'entraînement de 16k tokens améliore les performances sur HMMT 2025 de 40% à près de 70% avec 0,5 million de tokens au moment du test, surpassant à la fois des modèles de taille comparable et de nombreux LLM de raisonnement plus grands. Enfin, nous montrons également que les modèles entraînés avec RC peuvent exploiter plus efficacement les échafaudages existants pour améliorer davantage les performances lors du test, grâce aux capacités de génération conditionnée par synthèse améliorées acquises pendant l'entraînement.
Les grands modèles de langage omnimodaux (OLLM) visent à unifier la compréhension et la génération multimodales, mais l'intégration de la parole avec l'animation faciale 3D reste largement inexplorée malgré son importance pour une interaction naturelle. Un défi majeur provient de l'inadéquation de représentation entre le raisonnement sémantique discret au niveau des tokens dans les LLM et la dynamique temporelle dense et fine requise pour le mouvement facial 3D, ce qui rend la modélisation directe difficile à optimiser avec des données limitées. Nous proposons Expressive Omni (Ex-Omni), un cadre omnimodal open-source qui augmente les OLLM avec une animation faciale 3D accompagnée de parole. Ex-Omni réduit la difficulté d'apprentissage en découplant le raisonnement sémantique de la génération temporelle, en exploitant les unités de parole comme échafaudage temporel et un mécanisme unifié de fusion contrôlée par requête de tokens (TQGF) pour l'injection sémantique contrôlée. Nous présentons également InstructEx, un jeu de données visant à faciliter l'augmentation des OLLM avec une animation faciale 3D accompagnée de parole. Des expériences approfondies démontrent qu'Ex-Omni obtient des performances compétitives par rapport aux OLLM open-source existants tout en permettant une génération stable et alignée de la parole et de l'animation faciale.
La planification à long terme est largement reconnue comme une capacité fondamentale des agents autonomes basés sur les LLM. Cependant, les cadres d'évaluation actuels souffrent d'être largement épisodiques, spécifiques à un domaine ou insuffisamment ancrés dans des dynamiques économiques persistantes. Nous présentons EcoGym, un benchmark généralisable pour la prise de décision continue de type « planifier-exécuter » dans des économies interactives. EcoGym comprend trois environnements diversifiés : Vente automatique, Freelance et Opération, implémentés selon un processus de prise de décision unifié avec des interfaces standardisées et des actions budgétisées sur un horizon effectivement illimité (plus de 1000 étapes pour des boucles d'évaluation de 365 jours). L'évaluation d'EcoGym repose sur des résultats pertinents pour les entreprises (par exemple, la valeur nette, le revenu et les utilisateurs actifs quotidiens), visant une cohérence stratégique à long terme et une robustesse face à l'observabilité partielle et à la stochasticité. Des expériences menées sur onze LLM de premier plan révèlent une tension systématique : aucun modèle unique ne domine dans les trois scénarios. De manière critique, nous constatons que les modèles présentent une sous-optimalité significative, que ce soit dans les stratégies de haut niveau ou dans l'exécution efficace des actions. EcoGym est publié comme une plateforme de test ouverte et extensible pour une évaluation transparente des agents sur le long terme et pour l'étude des compromis entre contrôlabilité et utilité dans des contextes économiques réalistes.
Le codage agentique nécessite que les agents interagissent efficacement avec des environnements d'exécution, tels que les interfaces en ligne de commande (CLI), afin d'accomplir des tâches comme la résolution de problèmes de dépendances ou la correction de dysfonctionnements système. Cependant, la manière d'obtenir à grande échelle de telles tâches intensives en environnement pour renforcer les capacités des agents reste peu explorée. Pour y remédier, en nous appuyant sur une analogie entre le Dockerfile et la tâche agentique, nous proposons d'utiliser des agents pour simuler et explorer des historiques d'environnement, guidés par des retours d'exécution. En retraçant l'historique d'un environnement sain, son état peut être inversé vers un état antérieur présentant des erreurs d'exécution, à partir duquel une tâche peut être dérivée en encapsulant l'état défaillant et les messages d'erreur correspondants. Grâce à notre méthode, nommée CLI-Gym, un total de 1 655 tâches intensives en environnement a été généré, constituant la plus vaste collection de ce type. Par ailleurs, avec des trajectoires de réussite soigneusement sélectionnées, notre modèle fine-tuné, LiberCoder, obtient une amélioration absolue substantielle de +21,1 % (pour atteindre 46,1 %) sur Terminal-Bench, surpassant diverses bases de référence solides. À notre connaissance, il s'agit de la première pipeline publique permettant une dérivation scalable de tâches intensives en environnement.
Les ressources 3D articulées sont fondamentales pour la déformation et l'animation 3D. Cependant, les méthodes de génération 3D existantes rencontrent des difficultés à produire une géométrie animable, tandis que les techniques de rigging manquent de contrôle structurel granulaire sur la création du squelette. Pour pallier ces limitations, nous présentons Stroke3D, un nouveau cadre de travail qui génère directement des maillages articulés à partir de saisies utilisateur : des traits dessinés en 2D et une invite textuelle descriptive. Notre approche innove avec un pipeline en deux étapes qui sépare la génération en : 1) Génération de squelette contrôlable, nous utilisons le Skeletal Graph VAE (Sk-VAE) pour encoder la structure graphique du squelette dans un espace latent, où le Skeletal Graph DiT (Sk-DiT) génère un plongement squelettique. Le processus de génération est conditionné à la fois par le texte pour la sémantique et par les traits 2D pour un contrôle structurel explicite, le décodeur du VAE reconstruisant le squelette 3D final de haute qualité ; et 2) Synthèse de maillage améliorée via TextuRig et SKA-DPO, où nous synthétisons ensuite un maillage texturé conditionné par le squelette généré. Pour cette étape, nous améliorons d'abord un modèle existant de squelette-vers-maillage en enrichissant ses données d'entraînement avec TextuRig : un ensemble de données de maillages texturés et articulés avec légendes, constitué à partir d'Objaverse-XL. De plus, nous employons une stratégie d'optimisation des préférences, SKA-DPO, guidée par un score d'alignement squelette-maillage, pour further améliorer la fidélité géométrique. Ensemble, notre cadre de travail permet un workflow plus intuitif pour créer du contenu 3D prêt à animer. À notre connaissance, notre travail est le premier à générer des maillages 3D articulés conditionnés par des traits 2D dessinés par l'utilisateur. Des expériences approfondies démontrent que Stroke3D produit des squelettes plausibles et des maillages de haute qualité.
Alors que les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans les applications en langue polonaise, la nécessité de classificateurs de sécurité des contenus efficaces et précis est devenue primordiale. Nous présentons Bielik Guard, une famille de classificateurs de sécurité compacts pour la langue polonaise comprenant deux variantes de modèles : un modèle de 0,1 milliard de paramètres basé sur MMLW-RoBERTa-base et un modèle de 0,5 milliard de paramètres basé sur PKOBP/polish-roberta-8k. Fine-tunés sur un jeu de données annoté par la communauté de 6 885 textes polonais, ces modèles classent le contenu selon cinq catégories de sécurité : Haine/Aggression, Vulgarités, Contenu Sexuel, Criminalité et Automutilation. Notre évaluation démontre que les deux modèles atteignent de solides performances sur plusieurs benchmarks. La variante de 0,5 milliard de paramètres offre la meilleure capacité de discrimination globale avec des scores F1 de 0,791 (micro) et 0,785 (macro) sur l'ensemble de test, tandis que la variante de 0,1 milliard de paramètres démontre une efficacité exceptionnelle. Notamment, Bielik Guard 0.1B v1.1 atteint une précision supérieure (77,65 %) et un taux de faux positifs très faible (0,63 %) sur des invites d'utilisateurs réels, surpassant HerBERT-PL-Guard (31,55 % de précision, 4,70 % de FPR) malgré une taille de modèle identique. Les modèles sont publics et conçus pour fournir des réponses appropriées plutôt qu'un simple blocage de contenu, en particulier pour les catégories sensibles comme l'automutilation.
Le traitement des requêtes (QP) constitue un pont entre l'intention de l'utilisateur et l'offre de contenu dans les moteurs de recherche des services de réseaux sociaux (SNS) à grande échelle. Les systèmes QP traditionnels s'appuient sur des pipelines de modèles discriminatifs isolés (par exemple, BERT), souffrant d'une compréhension sémantique limitée et d'une charge de maintenance élevée. Bien que les modèles de langage de grande taille (LLM) offrent une solution potentielle, les approches existantes optimisent souvent les sous-tâches de manière isolée, négligeant la synergie sémantique intrinsèque et nécessitant des itérations indépendantes. De plus, les méthodes génératives standard manquent souvent d'ancrage dans les scénarios SNS, échouant à combler l'écart entre les corpus ouverts et les patterns linguistiques informels des SNS, tout en peinant à respecter des définitions métier rigoureuses. Nous présentons QP-OneModel, un LLM génératif unifié pour la compréhension multi-tâches des requêtes dans le domaine des SNS. Nous reformulons les sous-tâches hétérogènes en un paradigme unifié de génération de séquences, adoptant une stratégie d'alignement progressive en trois étapes culminant par un apprentissage par renforcement à récompenses multiples. Par ailleurs, QP-OneModel génère des descriptions d'intention comme nouveau signal sémantique à haute fidélité, augmentant efficacement des tâches en aval telles que la reformulation et le classement des requêtes. Les évaluations hors ligne montrent que QP-OneModel obtient un gain global de 7,35 % par rapport aux modèles de référence discriminatifs, avec des améliorations significatives du F1 pour la reconnaissance d'entités nommées (+9,01 %) et la pondération de termes (+9,31 %). Il présente également une généralisation supérieure, dépassant un modèle de 32B de 7,60 % en précision sur des tâches non vues. Entièrement déployé sur Xiaohongshu, les tests A/B en ligne confirment sa valeur industrielle, optimisant la pertinence du recouvrage (DCG) de 0,21 % et augmentant la rétention des utilisateurs de 0,044 %.
Les récentes avancées des modèles d'édition d'image de grande taille ont fait évoluer le paradigme des instructions basées sur le texte vers l'édition par incitation visuelle, où l'intention de l'utilisateur est déduite directement d'entrées visuelles telles que des marques, des flèches et des invites visuo-textuelles. Bien que ce paradigme élargisse considérablement la facilité d'utilisation, il introduit également un risque de sécurité critique et insuffisamment exploré : la surface d'attaque devient elle-même visuelle. Dans ce travail, nous proposons l'attaque par déverrouillage à vocation visuelle (VJA), la première attaque de type déverrouillage visuo-visuel qui transmet des instructions malveillantes purement par des entrées visuelles. Pour étudier systématiquement cette menace émergente, nous introduisons IESBench, un banc d'essai axé sur la sécurité pour les modèles d'édition d'image. Des expériences approfondies sur IESBench démontrent que VJA compromet efficacement les modèles commerciaux de pointe, atteignant des taux de réussite d'attaque allant jusqu'à 80,9 % sur Nano Banana Pro et 70,1 % sur GPT-Image-1.5. Pour atténuer cette vulnérabilité, nous proposons une défense sans apprentissage basée sur un raisonnement multimodal introspectif, qui améliore considérablement la sécurité des modèles faiblement alignés pour atteindre un niveau comparable aux systèmes commerciaux, sans modèles de protection auxiliaires et avec une surcharge computationnelle négligeable. Nos résultats exposent de nouvelles vulnérabilités, fournissent à la fois un banc d'essai et une défense pratique pour faire progresser les systèmes modernes d'édition d'image sûrs et dignes de confiance. Avertissement : Cet article contient des images offensantes créées par de grands modèles d'édition d'image.
Les graphes de connaissances (KG) stockent des connaissances factuelles structurées en reliant des entités par des relations, ce qui est crucial pour de nombreuses applications. Ces applications dépendent de la précision factuelle du KG, ce qui rend la vérification des faits essentielle, mais difficile. La vérification manuelle par des experts est idéale mais impraticable à grande échelle. Les méthodes automatisées sont prometteuses mais pas encore adaptées aux KG du monde réel. Les grands modèles de langage (LLM) offrent un potentiel grâce à leur compréhension sémantique et leur accès aux connaissances, mais leur adéquation et leur efficacité pour la validation des faits dans les KG restent largement inexplorées. Dans cet article, nous présentons FactCheck, un benchmark conçu pour évaluer les LLM pour la validation des faits dans les KG selon trois dimensions clés : (1) les connaissances internes des LLM ; (2) les preuves externes via le *Retrieval-Augmented Generation* (RAG) ; et (3) les connaissances agrégées utilisant une stratégie de consensus multi-modèles. Nous avons évalué des LLM open-source et commerciaux sur trois KG réels et diversifiés. FactCheck inclut également un jeu de données RAG avec plus de 2 millions de documents spécifiquement adaptés à la validation des faits dans les KG. De plus, nous proposons une plateforme d'exploration interactive pour analyser les décisions de vérification. Les analyses expérimentales démontrent que si les LLM produisent des résultats prometteurs, ils ne sont pas encore suffisamment stables et fiables pour être utilisés dans des scénarios réels de validation de KG. L'intégration de preuves externes via les méthodes RAG donne des performances fluctuantes, offrant des améliorations incohérentes par rapport aux approches plus simples – et ce à un coût computationnel plus élevé. De même, les stratégies basées sur un consensus multi-modèles ne surclassent pas systématiquement les modèles individuels, soulignant l'absence de solution universelle. Ces résultats soulignent davantage la nécessité d'un benchmark comme FactCheck pour évaluer systématiquement et faire progresser cette tâche difficile mais cruciale.
Bien que le raisonnement en chaîne explicite (Chain-of-Thought, CoT) dote les grands modèles de langage (LLM) de solides capacités de raisonnement, il les contraint à verbaliser chaque étape intermédiaire en tokens textuels, limitant ainsi les pensées du modèle à l'espace discret du vocabulaire. Récemment, le raisonnement dans un espace latent continu est apparu comme une alternative prometteure, permettant une inférence plus robuste et un calcul flexible au-delà des contraintes des tokens discrets. Cependant, les paradigmes latents actuels souffrent souvent d'un effondrement des caractéristiques et d'une instabilité, provenant d'inadéquations de distribution lors de l'utilisation récurrente des états cachés comme embeddings d'entrée, ou de problèmes d'alignement lors du recours à des modèles assistants. Pour remédier à cela, nous proposons le Réglage par Pensées Latentes (LT-Tuning), un cadre qui redéfinit la construction et le déploiement des pensées latentes. Au lieu de reposer uniquement sur les états cachés bruts, notre méthode introduit un mécanisme de Contexte-Prédiction-Fusion qui exploite conjointement les états cachés contextuels et un guidage sémantique prédictif provenant de l'espace d'embedding du vocabulaire. Combiné à un pipeline d'apprentissage curriculaire progressif en trois étapes, LT-Tuning permet également de basculer dynamiquement entre les modes de pensée latent et explicite. Les expériences démontrent que notre méthode surpasse les bases de référence existantes en raisonnement latent, atténuant efficacement l'effondrement des caractéristiques et atteignant une précision de raisonnement robuste.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a récemment renforcé le raisonnement des LLM, mais son accent sur l'exactitude de la réponse finale laisse une lacune critique : il ne garantit pas la robustesse du processus de raisonnement lui-même. Nous adoptons une vision philosophique simple : un raisonnement robuste devrait rester utile au-delà de l'esprit qui l'a produit, et nous traitons le raisonnement comme une forme de transfert de sens qui doit survivre à la troncation, la réinterprétation et la continuation. Sur la base de ce principe, nous introduisons l'apprentissage par renforcement avec récompense transférable (RLTR), qui opérationnalise la robustesse via une récompense de transfert testant si un préfixe de raisonnement partiel d'un modèle peut guider un modèle distinct vers la bonne réponse. Cela encourage les LLM à produire un raisonnement stable, interprétable et véritablement généralisable. Notre approche améliore la cohérence de l'échantillonnage tout en augmentant la précision de la réponse finale, et elle atteint des performances comparables en un nombre d'étapes d'entraînement substantiellement réduit. Par exemple, sur MATH500, RLTR obtient un gain de +3,6 points de pourcentage en Maj@64 par rapport au RLVR et égalise la précision moyenne du RLVR avec environ 2,5 fois moins d'étapes d'entraînement, fournissant à la fois un raisonnement plus fiable et une efficacité d'échantillonnage significativement supérieure.
Les modèles de raisonnement améliorent la résolution de problèmes en augmentant la puissance de calcul au moment du test, mais ils sont confrontés à un paradoxe critique : un nombre excessif de tokens de réflexion dégrade souvent les performances plutôt que de les améliorer. Nous attribuons cela à une faille architecturale fondamentale : les LLM standards fonctionnent comme des moteurs à "allocation unique", accumulant continuellement des étapes valides et redondantes sans mécanisme pour élaguer les informations obsolètes. Pour briser ce cycle, nous proposons Free()LM, un modèle qui introduit une capacité d'auto-oubli intrinsèque via le Free-Module, un adaptateur LoRA plug-and-play. En alternant itérativement entre les modes de raisonnement et de nettoyage, Free()LM identifie et élimine dynamiquement les segments de contexte inutiles, maintenant un état compact et exempt de bruit. Des expériences approfondies montrent que Free()LM apporte des améliorations constantes à toutes les échelles de modèles (8B à 685B). Il obtient une amélioration moyenne de 3,3 % par rapport aux meilleurs modèles de référence en raisonnement, établissant même un nouveau state-of-the-art sur IMOanswerBench avec DeepSeek V3.2-Speciale. Plus notablement, dans les tâches à long terme où le modèle standard Qwen3-235B-A22B subit un effondrement total (0 % de précision), Free()LM rétablit les performances à 50 %. Nos résultats suggèrent qu'une intelligence durable nécessite autant la liberté d'oublier que le pouvoir de penser.
Les agents basés sur de grands modèles de langage (LLM) sont de plus en plus appelés à négocier, coordonner et effectuer des transactions de manière autonome. Pourtant, les bancs d'essai existants manquent de cadres principés pour évaluer l'interaction économique médiée par le langage entre plusieurs agents. Nous présentons AgenticPay, un banc d'essai et un cadre de simulation pour la négociation multi-agents entre acheteurs et vendeurs, pilotée par le langage naturel. AgenticPay modélise des marchés dans lesquels acheteurs et vendeurs possèdent des contraintes privées et des valorisations dépendantes des produits, et doivent parvenir à des accords par une négociation linguistique en plusieurs tours, et non par le seul enchérissement numérique. Le cadre prend en charge une gamme variée de plus de 110 tâches, allant de la négociation bilatérale aux marchés à plusieurs contre plusieurs, avec une extraction d'actions structurée et des métriques pour la faisabilité, l'efficacité et le bien-être. L'évaluation des LLM propriétaires et à poids ouverts les plus performants révèle des écarts substantiels dans les performances de négociation et met en lumière les défis du raisonnement stratégique à long terme, établissant AgenticPay comme une base pour l'étude du commerce agentiel et de l'interaction marchande basée sur le langage. Le code et le jeu de données sont disponibles à l'adresse : https://github.com/SafeRL-Lab/AgenticPay.
Les agents de code basés sur des modèles de langage de grande taille (LLM) résolvent de plus en plus des problèmes au niveau du dépôt en modifiant itérativement le code, en invoquant des outils et en validant des correctifs candidats. Dans ces flux de travail, les agents écrivent souvent des tests à la volée, un paradigme adopté par de nombreux agents bien classés au classement SWE-bench. Cependant, nous observons que GPT-5.2, qui n'écrit quasiment aucun nouveau test, peut même atteindre des performances comparables aux agents les mieux classés. Cela soulève une question cruciale : ces tests améliorent-ils significativement la résolution des problèmes ou se contentent-ils d'imiter les pratiques de test humaines tout en consommant un budget d'interactions substantiel ? Pour révéler l'impact des tests écrits par les agents, nous présentons une étude empirique qui analyse les trajectoires des agents sur six LLM de pointe dans SWE-bench Verified. Nos résultats montrent que si l'écriture de tests est couramment adoptée, les tâches résolues et non résolues au sein d'un même modèle présentent des fréquences d'écriture de tests similaires. De plus, ces tests servent généralement de canaux de rétroaction observationnelle, les agents préférant significativement les instructions d'affichage révélant des valeurs aux vérifications formelles basées sur des assertions. Sur la base de ces observations, nous menons une expérience contrôlée en modifiant les prompts de quatre agents pour soit augmenter, soit réduire l'écriture de tests. Les résultats suggèrent que les changements dans le volume de tests écrits par les agents n'altèrent pas significativement les résultats finaux. Dans leur ensemble, notre étude révèle que les pratiques actuelles d'écriture de tests pourraient n'offrir qu'une utilité marginale dans les tâches de génie logiciel autonome.
Les grands modèles de langage (LLM) sont de plus en plus utilisés pour la génération de code dans des workflows de développement rapides et informels, souvent qualifiés de « programmation à l'instinct » (vibe coding), où la vitesse et la commodité sont prioritaires, et où les exigences de sécurité sont rarement explicites. Dans ce contexte, les modèles produisent fréquemment du code fonctionnellement correct mais non sécurisé, créant un risque de sécurité croissant. Les approches existantes pour améliorer la sécurité du code reposent sur un fine-tuning complet des paramètres ou des adaptations paramétriquement efficaces, qui sont soit coûteuses et sujettes à l'oubli catastrophique, soit opèrent à une granularité grossière avec une interprétabilité et un contrôle limités. Nous présentons GoodVibe, un cadre au niveau neuronal pour améliorer par défaut la sécurité des modèles de langage dédiés au code. GoodVibe repose sur l'idée fondamentale que le raisonnement lié à la sécurité est localisé dans un petit sous-ensemble de neurones. Nous identifions ces neurones en utilisant l'attribution par gradient à partir d'une tâche de sécurité supervisée et effectuons un fine-tuning neuronal sélectif qui ne met à jour que ce sous-espace critique pour la sécurité. Pour réduire davantage le coût d'entraînement, nous introduisons un regroupement de neurones piloté par l'activation, permettant des mises à jour structurées avec une surcharge minimale. Nous évaluons GoodVibe sur six LLM couvrant des langages de programmation critiques pour la sécurité, notamment C++, Java, Swift et Go. GoodVibe améliore considérablement la sécurité du code généré tout en préservant l'utilité générale du modèle, obtenant jusqu'à une amélioration de 2,5x par rapport aux modèles de base, égalant ou dépassant le fine-tuning complet avec plus de 4700x moins de paramètres entraînables, et réduisant le calcul d'entraînement de plus de 3,6x par rapport à la baseline paramétriquement efficace (LoRA). Nos résultats démontrent que l'optimisation au niveau neuronal offre une approche efficace et évolutive pour sécuriser la génération de code sans sacrifier l'efficacité ou la généralité.
La mémoire auto-évolutive sert de paramètres entraînables pour les agents basés sur les grands modèles de langage (LLM), où l'extraction (distiller les insights de l'expérience) et la gestion (mettre à jour la banque de mémoire) doivent être étroitement coordonnées. Les méthodes existantes optimisent principalement la gestion de la mémoire tout en traitant l'extraction de mémoire comme un processus statique, ce qui entraîne une mauvaise généralisation, où les agents accumulent du bruit spécifique aux instances plutôt que des mémoires robustes. Pour résoudre ce problème, nous proposons l'Extraction et Gestion Unifiée de la Mémoire (UMEM), un cadre d'agent auto-évolutif qui optimise conjointement un grand modèle de langage pour extraire et gérer simultanément les mémoires. Pour atténuer le surapprentissage à des instances spécifiques, nous introduisons la Modélisation des Voisinages Sémantiques et optimisons le modèle avec une récompense d'utilité marginale au niveau du voisinage via GRPO. Cette approche assure la généralisabilité de la mémoire en évaluant l'utilité de la mémoire sur des clusters de requêtes sémantiquement liées. Des expériences approfondies sur cinq benchmarks démontrent qu'UMEM surpasse significativement des bases de référence très compétitives, atteignant une amélioration allant jusqu'à 10,67 % dans les tâches interactives multi-tours. De plus, UMEM maintient une courbe de croissance monotone lors de l'évolution continue. Les codes et modèles seront publiquement disponibles.
Les robots évoluant dans des environnements dynamiques centrés sur l'humain doivent suivre des instructions linguistiques tout en maintenant un contrôle réactif en temps réel. Les modèles vision-langage-action (VLA) offrent un cadre prometteur, mais ils supposent un raisonnement et un contrôle temporellement alignés, bien que l'inférence sémantique soit intrinsèquement retardée par rapport à l'action en temps réel. Nous présentons Think-in-Control (TIC)-VLA, un cadre conscient de la latence qui modélise explicitement le raisonnement sémantique retardé lors de la génération d'actions. TIC-VLA définit une interface sémantique-contrôle retardée qui conditionne la génération d'actions sur des états sémantiques vision-langage retardés et des métadonnées de latence explicites, en plus des observations courantes, permettant aux politiques de compenser le raisonnement asynchrone. Nous proposons en outre un pipeline d'entraînement cohérent avec la latence qui injecte des délais d'inférence de raisonnement pendant l'apprentissage par imitation et l'apprentissage par renforcement en ligne, alignant ainsi l'entraînement sur un déploiement asynchrone. Pour permettre une évaluation réaliste, nous présentons DynaNav, une suite de simulation photoréaliste et physiquement précise pour la navigation guidée par le langage dans des environnements dynamiques. Des expériences approfondies en simulation et sur un robot réel montrent que TIC-VLA surpasse constamment les modèles VLA antérieurs tout en maintenant un contrôle robuste en temps réel sous une latence de raisonnement de plusieurs secondes. Site web du projet : https://ucla-mobility.github.io/TIC-VLA/
Les modèles de diffusion ont atteint une qualité de génération remarquable, mais ils souffrent d'un coût d'inférence élevé en raison de leur dépendance à de multiples étapes de débruîtage séquentielles, ce qui motive les récents efforts pour distiller ce processus d'inférence en un régime à faible nombre d'étapes. Cependant, les méthodes de distillation existantes approximent généralement la trajectoire de l'enseignant en utilisant des raccourcis linéaires, ce qui rend difficile l'alignement avec ses directions tangentes en constante évolution, les vitesses variant au fil des pas de temps, conduisant ainsi à une dégradation de la qualité. Pour remédier à cette limitation, nous proposons ArcFlow, un cadre de distillation à faible nombre d'étapes qui emploie explicitement des trajectoires d'écoulement non linéaires pour approximer les trajectoires pré-entraînées de l'enseignant. Concrètement, ArcFlow paramétrise le champ de vitesse sous-jacent à la trajectoire d'inférence comme un mélange de processus de momentum continus. Cela permet à ArcFlow de capturer l'évolution de la vitesse et d'extrapoler des vitesses cohérentes pour former une trajectoire non linéaire continue au sein de chaque étape de débruîtage. Fait important, cette paramétrisation admet une intégration analytique de cette trajectoire non linéaire, ce qui contourne les erreurs de discrétisation numérique et aboutit à une approximation de haute précision de la trajectoire de l'enseignant. Pour entraîner cette paramétrisation en un générateur à faible nombre d'étapes, nous implémentons ArcFlow via une distillation de trajectoire sur des modèles enseignants pré-entraînés en utilisant des adaptateurs légers. Cette stratégie assure une convergence rapide et stable tout en préservant la diversité et la qualité génératives. Construit sur des modèles à grande échelle (Qwen-Image-20B et FLUX.1-dev), ArcFlow n'effectue qu'un réglage fin sur moins de 5 % des paramètres originaux et atteint une accélération de 40x avec seulement 2 évaluations de fonction de bruit (NFE) par rapport aux enseignants multi-étapes originaux, sans dégradation significative de la qualité. Les expériences sur des benchmarks montrent l'efficacité d'ArcFlow à la fois qualitativement et quantitativement.
L'adoption rapide des architectures Mixture-of-Experts (MoE) marque un tournant majeur dans le déploiement des grands modèles de langage (LLM). Les LLM à base de MoE améliorent l'efficacité de la mise à l'échelle en n'activant qu'un petit sous-ensemble de paramètres par token, mais leur structure de routage introduit de nouvelles surfaces d'attaque liées à la sécurité. Nous constatons que les comportements critiques pour la sécurité dans les MoE LLM (par exemple, le refus de répondre) sont concentrés dans un petit ensemble d'experts plutôt que d'être uniformément distribués. En nous appuyant sur cela, nous proposons la Lobotomie des Grands Modèles de Langage (L^3), une attaque agnostique à l'architecture et ne nécessitant pas d'entraînement, qui compromet l'alignement de sécurité en exploitant la dynamique de routage des experts. L^3 apprend les motifs de routage corrélés au refus, attribue le comportement de sécurité à des experts spécifiques et réduit au silence de manière adaptative les experts les plus pertinents pour la sécurité jusqu'à ce que des sorties nuisibles soient produites. Nous évaluons L^3 sur huit MoE LLM open-source de pointe et montrons que notre réduction au silence adaptative des experts augmente le taux de réussite moyen des attaques de 7,3 % à 70,4 %, atteignant jusqu'à 86,3 %, surpassant les méthodes de jailbreak MoE antérieures ne nécessitant pas d'entraînement. De plus, contourner les garde-fous nécessite généralement de réduire au silence moins de 20 % des experts par couche, tout en préservant largement l'utilité linguistique générale. Ces résultats révèlent une tension fondamentale entre la conception des MoE axée sur l'efficacité et un alignement de sécurité robuste, et motivent une distribution plus robuste des mécanismes de sécurité dans les futurs MoE LLM grâce à des méthodes conscientes de l'architecture et du routage.
Le paradigme dominant dans le développement des grands modèles de langage (LLM) consiste à pré-entraîner un modèle de base, puis à effectuer un apprentissage supplémentaire pour améliorer les performances et le comportement du modèle. Cependant, l'optimisation des hyperparamètres et les lois d'échelle ont été étudiées principalement du point de vue de la perte de validation du modèle de base, ignorant l'adaptabilité en aval. Dans ce travail, nous étudions le pré-entraînement sous l'angle de la plasticité du modèle, c'est-à-dire sa capacité à s'adapter avec succès à des tâches en aval via un apprentissage fin. Nous nous concentrons sur le rôle de la décroissance de poids, un paramètre de régularisation clé pendant le pré-entraînement. Par des expériences systématiques, nous montrons que les modèles entraînés avec des valeurs plus élevées de décroissance de poids sont plus plastiques, c'est-à-dire qu'ils présentent des gains de performance plus importants lorsqu'ils sont affinés sur des tâches en aval. Ce phénomène peut conduire à des compromis contre-intuitifs où des modèles de base moins performants après le pré-entraînement peuvent devenir plus performants après l'affinage. Une investigation plus poussée des effets mécanistes de la décroissance de poids sur le comportement du modèle révèle qu'elle encourage les représentations linéairement séparables, régularise les matrices d'attention et réduit le surapprentissage sur les données d'entraînement. En conclusion, ce travail démontre l'importance d'utiliser des métriques d'évaluation au-delà de la perte d'entropie croisée pour l'optimisation des hyperparamètres et met en lumière le rôle multidimensionnel qu'un seul hyperparamètre d'optimisation joue dans la formation du comportement du modèle.
Les agents d'utilisation informatique (CUA) ont réalisé des progrès considérables au cours de l'année écoulée, mais ils produisent encore fréquemment des actions non alignées qui s'écartent de l'intention initiale de l'utilisateur. Ces actions non alignées peuvent provenir d'attaques externes (par exemple, l'injection indirecte d'invites) ou de limitations internes (par exemple, un raisonnement erroné). Non seulement elles exposent les CUA à des risques de sécurité, mais elles dégradent également l'efficacité et la fiabilité des tâches. Ce travail constitue la première tentative de définition et d'étude de la détection des actions non alignées dans les CUA, avec une couverture complète des actions non alignées induites de l'extérieur et provenant de l'intérieur. Nous identifions en outre trois catégories courantes dans le déploiement réel des CUA et construisons MisActBench, un benchmark de trajectoires réalistes avec des étiquettes d'alignement au niveau de l'action annotées par des humains. De plus, nous proposons DeAction, un garde-fou pratique et universel qui détecte les actions non alignées avant leur exécution et les corrige itérativement par un retour structuré. DeAction surpasse toutes les bases de référence existantes lors d'évaluations hors ligne et en ligne avec une surcharge de latence modérée : (1) Sur MisActBench, il surpasse les bases de référence de plus de 15 % en score F1 absolu ; (2) Lors de l'évaluation en ligne, il réduit le taux de réussite des attaques de plus de 90 % dans des contextes adverses tout en préservant, voire en améliorant, le taux de réussite des tâches dans des environnements bénins.
Au cours de la dernière décennie, l'IA explicable s'est principalement concentrée sur l'interprétation des prédictions individuelles des modèles, produisant des explications post-hoc qui relient les entrées aux sorties selon une structure décisionnelle fixe. Les récents progrès des grands modèles de langage (LLM) ont permis le développement de systèmes d'IA agentiques dont le comportement se déploie sur des trajectoires à plusieurs étapes. Dans ces contextes, le succès et l'échec sont déterminés par des séquences de décisions plutôt que par une sortie unique. Bien qu'utiles, on ignore encore comment les approches explicatives conçues pour des prédictions statiques se transposent aux contextes agentiques où le comportement émerge dans le temps. Dans ce travail, nous comblons le fossé entre l'explicabilité statique et agentique en comparant les explications basées sur l'attribution avec les diagnostics basés sur la trace dans les deux contextes. Pour rendre cette distinction explicite, nous comparons empiriquement les explications par attribution utilisées dans les tâches de classification statique avec les diagnostics par trace utilisés dans les benchmarks agentiques (TAU-bench Airline et AssistantBench). Nos résultats montrent que si les méthodes d'attribution obtiennent des classements de caractéristiques stables dans les contextes statiques (Spearman ρ = 0,86), elles ne peuvent pas être appliquées de façon fiable pour diagnostiquer les échecs au niveau de l'exécution dans les trajectoires agentiques. En revanche, l'évaluation par rubrique ancrée dans la trace pour les contextes agentiques localise systématiquement les ruptures de comportement et révèle que l'incohérence du suivi de l'état est 2,7 fois plus fréquente dans les exécutions échouées et réduit la probabilité de succès de 49 %. Ces résultats motivent une transition vers une explicabilité au niveau de la trajectoire pour les systèmes agentiques lors de l'évaluation et du diagnostic du comportement autonome de l'IA. Ressources : https://github.com/VectorInstitute/unified-xai-evaluation-framework https://vectorinstitute.github.io/unified-xai-evaluation-framework
L'apprentissage fédéré (FL) permet à plusieurs parties d'entraîner collaborativement des modèles d'apprentissage automatique sans partager les données brutes. Cependant, avant l'entraînement, les données doivent être prétraitées pour résoudre les problèmes de valeurs manquantes, de formats incohérents et d'échelles de caractéristiques hétérogènes. Cette étape de prétraitement est cruciale pour les performances du modèle mais est largement négligée dans la recherche sur le FL. Dans les systèmes FL pratiques, les contraintes de confidentialité interdisent la centralisation des données brutes, tandis que l'efficacité de la communication introduit des défis supplémentaires pour le prétraitement distribué. Nous présentons FedPS, un cadre unifié pour le prétraitement des données fédérées basé sur des statistiques agrégées. FedPS exploite des techniques d'esquisse de données pour résumer efficacement les jeux de données locaux tout en préservant les informations statistiques essentielles. Sur la base de ces résumés, nous concevons des algorithmes fédérés pour la mise à l'échelle des caractéristiques, l'encodage, la discrétisation et l'imputation des valeurs manquantes, et étendons des modèles liés au prétraitement tels que k-Means, k-plus proches voisins et la régression linéaire bayésienne aux settings de FL horizontal et vertical. FedPS fournit des pipelines de prétraitement flexibles, efficaces en communication et cohérents pour les déploiements FL pratiques.
La recommandation générative via modèles autorégressifs a unifié la recherche et le classement dans un cadre unique de génération conditionnelle. Cependant, le fine-tuning de ces modèles par Apprentissage par Renforcement (RL) souffre souvent d'une incompatibilité fondamentale entre probabilité et récompense. Le décodage conventionnel dominé par la vraisemblance (ex: recherche en faisceau) présente un biais myope en faveur des préfixes localement probables, causant deux échecs critiques : (1) une exploration insuffisante, où les items à forte récompense dans les branches peu probables sont prématurément élagués et rarement échantillonnés, et (2) une compression d'avantage, où les trajectoires partageant des préfixes hautement probables reçoivent des récompenses fortement corrélées avec une faible variance intra-groupe, produisant un signal comparatif faible pour le RL. Pour résoudre ces défis, nous proposons V-STAR, un cadre de Renforcement par Avantage Arborescent et Échantillonnage Guidé par la Valeur. V-STAR forme une boucle auto-évolutive via deux composants synergiques. D'abord, un Décodage Efficace Guidé par la Valeur (VED) identifie les nœuds décisifs et approfondit sélectivement les préfixes à fort potentiel. Ceci améliore l'efficacité de l'exploration sans recherche arborescente exhaustive. Ensuite, nous proposons Sibling-GRPO, qui exploite la topologie arborescente induite pour calculer des avantages relatifs entre frères et concentre les signaux d'apprentissage sur les décisions de branchement décisives. Des expériences approfondies sur des jeux de données hors ligne et en ligne démontrent que V-STAR surpasse les méthodes de référence, offrant une précision supérieure et une diversité d'ensemble de candidats sous de strictes contraintes de latence.
Le problème d'ordonnancement sur machines parallèles non identiques (UPMSP) avec dates de disponibilité, temps de configuration et contraintes d'éligibilité représente un défi multi-objectif significatif. Les méthodes traditionnelles peinent à équilibrer la minimisation du retard pondéré total (TWT) et du temps de configuration total (TST). Cet article propose un cadre d'apprentissage par renforcement profond utilisant l'optimisation de politique proximale (PPO) et un réseau de neurones graphiques (GNN). Le GNN représente efficacement l'état complexe des tâches, des machines et des configurations, permettant à l'agent PPO d'apprendre une politique d'ordonnancement directe. Guidé par une fonction de récompense multi-objectif, l'agent minimise simultanément le TWT et le TST. Les résultats expérimentaux sur des instances de référence démontrent que notre agent PPO-GNN surpasse significativement une règle d'ordonnancement standard et une métaheuristique, atteignant un compromis supérieur entre les deux objectifs. Cela fournit une solution robuste et évolutive pour l'ordonnancement complexe en milieu manufacturier.
Les détecteurs de texte IA font face à un défi crucial de robustesse : les attaques par paraphrase adversariales qui préservent la sémantique tout en échappant à la détection. Nous présentons StealthRL, un cadre d'apprentissage par renforcement qui teste la robustesse des détecteurs dans des conditions adversariales réalistes. StealthRL entraîne une politique de paraphrase contre un ensemble multi-détecteurs en utilisant l'Optimisation de Politique Relative par Groupe (GRPO) avec des adaptateurs LoRA sur Qwen3-4B, optimisant une récompense composite qui équilibre l'évasion des détecteurs avec la préservation sémantique. Nous évaluons six scénarios d'attaque (M0-M5) contre trois familles de détecteurs (RoBERTa, FastDetectGPT et Binoculars) au point de fonctionnement critique de 1% de taux de faux positifs. StealthRL atteint une détection quasi nulle (TPR@1%FPR moyen de 0,001), réduit l'AUROC moyen de 0,74 à 0,27 et obtient un taux de réussite d'attaque de 99,9%. Fait crucial, les attaques se transfèrent à une famille de détecteurs exclue de l'entraînement, révélant des vulnérabilités architecturales partagées plutôt qu'une fragilité spécifique aux détecteurs. Nous menons également une évaluation de qualité basée sur les LLM via un score de Likert, analysons les distributions des scores des détecteurs pour expliquer pourquoi l'évasion réussit, et fournissons l'AUROC par détecteur avec des intervalles de confiance bootstrap. Nos résultats exposent des lacunes significatives de robustesse dans la détection actuelle de texte IA et établissent StealthRL comme un protocole d'évaluation adversarial principié. Le code et la pipeline d'évaluation sont disponibles publiquement à l'adresse https://github.com/suraj-ranganath/StealthRL.