Articles de recherche IA sélectionnés quotidiennement avec traductions
Malgré les progrès rapides de la reconnaissance automatique de la parole (RAP) et des grands modèles audio-langage, la reconnaissance robuste en environnements réels reste limitée par un « goulot d'étranglement de robustesse acoustique » : les modèles perdent souvent leur ancrage acoustique et produisent des omissions ou des hallucinations sous des distorsions sévères et compositionnelles. Nous proposons Mega-ASR, un cadre unifié de RAP en conditions réelles combinant une construction de données composées scalable avec une optimisation progressive acoustique-sémantique. Nous introduisons Voices-in-the-Wild-2M, couvrant 7 phénomènes acoustiques classiques et 54 scénarios composés physiquement plausibles, et entraînons Mega-ASR grâce à une optimisation supervisée fine progressive acoustique-sémantique et une optimisation de politique par seuil WER à double granularité. Des expériences approfondies démontrent que Mega-ASR atteint des avantages significatifs par rapport aux systèmes de pointe antérieurs sur des benchmarks de RAP en conditions défavorables (45,69 % contre 54,01 % sur VOiCES R4-B-F, et 21,49 % contre 29,34 % sur NOIZEUS Sta-0). Sur des scénarios acoustiques compositionnels complexes, Mega-ASR offre en outre une réduction relative du WER de plus de 30 % par rapport à des références open-source et propriétaires solides, établissant un paradigme scalable pour une RAP robuste en conditions réelles.
Les récentes avancées dans les modèles de langage multimodaux de grande taille ont suscité un intérêt croissant pour les agents d'interface utilisateur graphique (GUI), mais leur généralisation reste limitée par la rareté des données d'entraînement à grande échelle couvrant un large éventail d'applications réelles. Les ensembles de données existants reposent largement sur des annotations manuelles coûteuses et sont généralement confinés à des domaines restreints. Pour relever ce défi, nous proposons Video2GUI, un cadre entièrement automatisé qui extrait des trajectoires d'interaction GUI ancrées directement à partir de vidéos Internet non annotées. Video2GUI utilise une stratégie de filtrage grossier à fin pour identifier les vidéos tutoriels GUI de haute qualité et les convertir en trajectoires d'agents structurées. En appliquant ce pipeline à 500 millions d'entrées de métadonnées vidéo, nous construisons WildGUI, un ensemble de données à grande échelle contenant 12 millions de trajectoires d'interaction couvrant plus de 1 500 applications et sites web. Le pré-entraînement de Qwen2.5-VL et Mimo-VL sur WildGUI produit des améliorations constantes de 5 à 20 % sur plusieurs benchmarks d'ancrage et d'action GUI, atteignant ou surpassant les performances de pointe. Nous publierons à la fois l'ensemble de données WildGUI et le pipeline Video2GUI pour soutenir les futures recherches sur les agents GUI.
Sans engendrer de surcharge de calcul significative, la génération de vidéos longues sans entraînement vise à permettre aux modèles fondamentaux de génération vidéo de produire des séquences plus longues. Les cadres autorégressifs au niveau des trames, tels que FIFO-diffusion, présentent l'avantage de générer des vidéos infiniment longues avec une consommation mémoire constante. Cependant, le décalage entre l'entraînement et l'inférence, associé au défi du maintien de la cohérence à long terme, limite l'utilisation efficace des modèles fondamentaux. Pour atténuer ces problèmes, nous proposons MIGA, une nouvelle méthode de génération de vidéos longues à trames infinies. Premièrement, nous proposons un mécanisme d'alignement en deux étapes efficace qui réduit l'écart entre l'entraînement et l'inférence en diminuant l'étendue excessive de bruit fournie au modèle. Nous introduisons ensuite un mécanisme innovant de double renforcement de la cohérence, où l'approche d'auto-réflexion corrige les premières trames à fort bruit et l'approche de guidage par trames à longue portée exploite les dernières trames à faible bruit avec une large couverture pour orienter la génération, améliorant conjointement la cohérence temporelle. Des expériences approfondies sur VBench et NarrLV démontrent les performances de pointe de MIGA. Notre page de projet est disponible à l'adresse https://xiaokunfeng.github.io/miga_homepage/.
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré une capacité remarquable à faire le lien entre la perception visuelle et le raisonnement textuel, permettant une compréhension zero-shot dans divers scénarios industriels. Cependant, leurs performances en détection d'anomalies industrielles (IAD) à vocabulaire ouvert sont souvent limitées par un raisonnement non aligné sur le domaine et des inférences structurelles hallucinées. Pour relever ces défis, nous proposons IndusAgent, un cadre agentique augmenté d'outils pour l'IAD à vocabulaire ouvert. Plus précisément, nous construisons d'abord Indus-CoT, un ensemble de données structuré qui intègre des observations visuelles globales, des patches locaux à haute résolution et des a priori de normalité issus d'experts, fournissant une supervision pour l'ajustement fin du modèle sur des trajectoires d'inspection industrielle rigoureuses. Sur cette base, IndusAgent orchestre dynamiquement un ensemble d'outils externes, incluant le recadrage dynamique de régions, l'amélioration des caractéristiques haute fréquence et la récupération d'a priori, permettant ainsi à l'agent de résoudre activement les ambiguïtés visuelles et de démêler les anomalies subtiles. De plus, nous introduisons un objectif d'apprentissage par renforcement à porte qui optimise conjointement la classification des anomalies, la précision de localisation, le raisonnement sur le type d'anomalie et l'utilisation efficace des outils, garantissant que l'invocation des outils n'a lieu que lorsque cela est bénéfique. Des évaluations approfondies sur cinq benchmarks d'anomalies industrielles, notamment MVTec-AD, VisA, MPDD, DTD et SDD, démontrent qu'IndusAgent atteint des performances zero-shot de pointe parmi toutes les méthodes existantes, validant ainsi notre robustesse et notre capacité de généralisation.
L’apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme dominant pour améliorer le raisonnement dans les grands modèles de langage (LLMs), mais la géométrie sous-jacente des trajectoires paramétriques résultantes reste peu explorée. Dans ce travail, nous démontrons que les trajectoires des poids en RLVR sont de très faible rang et hautement prédictibles. Plus précisément, nous constatons que la majorité des gains de performance en aval sont capturés par une approximation de rang 1 des deltas de paramètres, où l’amplitude de cette projection évolue de façon quasi linéaire avec le nombre d’étapes d’entraînement. Motivés par cette observation, nous proposons une méthode simple et économiquement efficace en calcul, RELEX (REinforcement Learning EXtrapolation), qui estime le sous-espace de rang 1 à partir d’une courte fenêtre d’observation et extrapole les points de contrôle futurs par régression linéaire, sans nécessiter de modèle appris. Sur trois modèles (à savoir Qwen2.5-Math-1.5B, Qwen3-4B-Base et Qwen3-8B-Base), RELEX produit des points de contrôle qui égalent ou surpassent les performances du RLVR sur des benchmarks intra-domaine et hors domaine, en ne nécessitant qu’environ 15 % des étapes d’un entraînement RLVR complet. Fait remarquable, RELEX est capable d’extrapoler bien au-delà de la fenêtre d’observation sans coût d’entraînement, prédisant des points de contrôle jusqu’à 10 à 20 fois au-delà du préfixe observé avec une amélioration continue (par exemple, n’observer que les 50 premières étapes et extrapoler jusqu’à 1000 étapes). Notre analyse d’ablation confirme la suffisance minimaliste de RELEX : ni l’augmentation du rang du sous-espace ni l’emploi d’une modélisation non linéaire n’apportent de gains supplémentaires en extrapolation. Enfin, nous montrons que le succès de RELEX provient d’un effet de « débruitage » : en projetant les mises à jour sur le sous-espace de rang 1, le modèle élimine le bruit d’optimisation stochastique qui autrement dégraderait les performances lors de l’extrapolation. Notre code est disponible à l’adresse https://github.com/weizhepei/RELEX.
Les progrès rapides vers le raisonnement à long contexte et l'intelligence multimodale ont fait de l'empreinte mémoire du cache Key-Value (KV) un goulot d'étranglement mémoire dominant pour un déploiement efficace. Bien que la quantification établie par canal s'accommode efficacement des valeurs aberrantes intrinsèques par canal dans les tenseurs Key, son efficacité diminue sous une compression extrême. Dans ce travail, nous réexaminons les limitations inhérentes du paradigme de quantification par canal d'un point de vue tant empirique que théorique. Notre analyse identifie le Déséquilibre de Norme des Tokens (TNI) comme le principal goulot d'étranglement pour la fidélité de la quantification. Nous démontrons que le TNI amplifie systématiquement les erreurs lorsque des paramètres de quantification partagés doivent couvrir des groupes de tokens présentant des disparités de norme substantielles. Sans recourir à des pipelines de quantification complexes (par exemple, TurboQuant), nous proposons OScaR (Omni-Scaled Canalized Rotation), un cadre précis et léger de compression de cache KV pour les X-LLM (c'est-à-dire les LLM textuels, multimodaux et omnimodaux). Prolongeant le paradigme par canal, OScaR utilise la Rotation Canalysée suivie d'une Mise à l'échelle Omni-Token pour atténuer la variance dimensionnelle de séquence induite par le TNI de manière à la fois efficace et efficiente, soutenue en outre par notre conception système optimisée et nos noyaux CUDA. Des évaluations approfondies sur des X-LLM montrent qu'OScaR surpasse systématiquement les méthodes existantes et atteint des performances quasi sans perte sous quantification INT2, ce qui en fait un cadre robuste, de faible complexité et universel, définissant un nouveau front de Pareto. Comparé à la référence BF16 FlashDecoding-v2, notre implémentation d'OScaR atteint un gain de vitesse notable allant jusqu'à 3,0x lors du décodage, réduit l'empreinte mémoire de 5,3x et augmente le débit de 4,1x. Le code d'OScaR est disponible publiquement à l'adresse https://github.com/ZunhaiSu/OScaR-KV-Quant.
Les capacités fondamentales établies par les grands modèles de langage (LLMs) ont ouvert la voie aux modèles de langage multimodaux de grande taille (MLLMs), parmi lesquels les grands modèles de langage audio (LALMs) sont essentiels pour réaliser une intelligence auditive universelle. Malgré leurs performances remarquables, l’escalade des capacités des LALMs a considérablement dépassé le développement de cadres systémiques visant à garantir leur fiabilité. Cette étude propose une investigation approfondie des mécanismes endogènes des LALMs, en détaillant les innovations architecturales et les algorithmes d’alignement qui facilitent le raisonnement émergent. Plus précisément, nous analysons comment la transition vers des cadres unifiés de bout en bout et l’intégration de signaux acoustiques continus élargissent intrinsèquement la surface d’attaque. Afin d’évaluer rigoureusement les risques inhérents à ces paradigmes, nous établissons une taxonomie complète de la fiabilité, catégorisant les vulnérabilités critiques telles que le jailbreaking intermodal, les portes dérobées acoustiques latentes et les fuites de confidentialité biométrique. Nous passons en revue l’état de l’art à travers six piliers analytiques : l’hallucination, la robustesse, la sécurité, la confidentialité, l’équité et l’authentification. Le profond déséquilibre entre un paysage offensif mature et des défenses sous-développées valide davantage les lacunes critiques en matière de fiabilité et les risques multidimensionnels auxquels est confrontée l’intelligence audio-centrique. Enfin, nous proposons une feuille de route stratégique préconisant des architectures de « défense en profondeur », une modélisation causale du monde auditif et une ingénierie des représentations intrinsèques pour combler l’écart entre la performance empirique et une intelligence audio intrinsèquement digne de confiance. Notre projet a été mis en ligne sur GitHub à l’adresse https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.
L'Intégrité Contextuelle (IC) définit la vie privée non pas simplement comme le fait de garder l'information cachée, mais comme la régulation des flux d'information conformément aux normes d'un contexte donné. Alors que les grands modèles de langage sont de plus en plus déployés en tant qu'agents personnels traitant des flux de travail sensibles, le respect de l'IC devient crucial. Cependant, même les modèles de pointe restent peu fiables dans leurs décisions de divulgation, et les stratégies d'atténuation existantes dégradent souvent les performances de la tâche sous-jacente. Pour surmonter ce compromis entre vie privée et utilité, nous proposons SELFCI, un cadre complémentaire d'auto-distillation qui dissocie la suppression d'informations de la résolution de tâche. SELFCI optimise conjointement deux divergences KL inverses indépendantes sur des distributions d'enseignants distinctes dérivées du retour d'information : l'une encourage la préservation des informations pertinentes à la tâche pour l'utilité, tandis que l'autre impose une divulgation minimale et appropriée. Cette formulation complémentaire induit une cible de type Produit d'Experts (PdE), alignant la politique sur l'intersection des exigences de capacité et de confidentialité. Les évaluations empiriques montrent que SELFCI, sans recourir à une supervision externe coûteuse, surpasse systématiquement les bases de référence concurrentes telles que les algorithmes d'apprentissage par renforcement en ligne (par exemple, GRPO). Ces tendances s'étendent également à des contextes hors domaine impliquant des flux de travail agentiques et un contexte privé accumulé, suggérant que SELFCI offre une voie pratique vers l'alignement avec l'IC.
Nous montrons que les modèles fondamentaux de séries temporelles passent à l’échelle : une recette d’entraînement unique produit des améliorations fiables de la qualité des prévisions, de 4 millions à 2,5 milliards de paramètres. Nous publions Toto 2.0, une famille de cinq modèles de prévision à poids ouverts entraînés selon cette recette. La famille Toto 2.0 établit un nouvel état de l’art sur trois benchmarks de prévision : BOOM, notre benchmark d’observabilité ; GIFT-Eval, le benchmark standard polyvalent ; et le récent benchmark TIME résistant à la contamination. Ce rapport décrit nos résultats expérimentaux et détaille les décisions de conception derrière Toto 2.0 : son architecture et sa recette d’entraînement, les données d’entraînement, et le pipeline de transfert d’hyperparamètres u-muP. Les cinq points de contrôle de base sont publiés sous licence Apache 2.0.
Les agents LLM ont récemment émergé comme un paradigme puissant pour résoudre des tâches complexes grâce à la planification, l'utilisation d'outils, la récupération mémoire et l'interaction multi-étapes. Cependant, ces flux de travail agentiques introduisent souvent une surcharge substantielle côté entrée, faisant de la phase de préremplissage, intensive en calcul, un goulot d'étranglement clé dans l'inférence à long contexte et à plusieurs tours. Dans ce travail, nous proposons Mix-Quant, un cadre de quantification simple et efficace, conscient de la phase, pour une inférence agentique rapide. Nous examinons d'abord la quantification FP4 dans les flux de travail agentiques des LLM et observons que quantifier l'ensemble du processus d'inférence peut entraîner une dégradation significative des performances. En revanche, la phase de préremplissage présente une redondance de quantification substantielle et peut donc être quantifiée avec une perte de précision minimale, bien qu'elle soit la source dominante de calcul. Sur la base de cette observation, nous appliquons la quantification NVFP4 à haut débit à la phase de préremplissage tout en conservant la précision BF16 pour le décodage. En dissociant l'accélération du préremplissage de la qualité du décodage, Mix-Quant combine une quantification algorithmique consciente de la phase avec une exécution NVFP4 efficace sur le plan matériel pour atténuer le goulot d'étranglement de l'inférence dans les agents LLM. Des expériences approfondies sur des benchmarks à long contexte et agentiques démontrent que Mix-Quant préserve largement les performances des tâches tout en offrant des améliorations significatives de l'efficacité, atteignant jusqu'à 3 fois d'accélération lors du préremplissage.
Comment les futurs systèmes de raisonnement neuronal devraient-ils implémenter le calcul étendu ? Les modèles de raisonnement récursif (RRM) offrent une alternative prometteuse à l'extension de séquence autorégressive en effectuant un raffinement itératif des états latents avec des fonctions de transition partagées. Cependant, les RRM existants sont largement déterministes, suivant une seule trajectoire latente et convergeant vers une prédiction unique. Nous présentons les modèles de raisonnement récursif génératifs (GRAM), un cadre qui transforme le raisonnement latent récursif en un calcul probabiliste à trajectoires multiples. GRAM modélise le raisonnement comme une trajectoire latente stochastique, permettant de multiples hypothèses, des stratégies de solution alternatives et une mise à l'échelle au moment de l'inférence à la fois par la profondeur récursive et l'échantillonnage parallèle de trajectoires. Cela donne un modèle génératif à variables latentes supportant le raisonnement conditionnel via p_θ(y | x) et, avec des entrées fixes ou absentes, la génération inconditionnelle via p_θ(x). Entraîné avec l'inférence variationnelle amortie, GRAM surpasse les références déterministes récurrentes et récursives sur des tâches de raisonnement structuré et de satisfaction de contraintes à solutions multiples, tout en démontrant une capacité de génération inconditionnelle. https://ahn-ml.github.io/gram-website
Bien que les agents d'interface graphique (GUI) aient réalisé des progrès significatifs dans la navigation sur le Web et l'exécution de tâches élémentaires sur les systèmes d'exploitation, leurs capacités dans les workflows créatifs professionnels restent largement sous-explorées. Pour combler cette lacune, nous présentons Cutverse, un benchmark conçu pour évaluer systématiquement les agents GUI autonomes dans des environnements réalistes de post-production médiatique. Nous rassemblons des démonstrations d'experts sur 7 applications professionnelles (par exemple, Premiere Pro, Photoshop), couvrant 186 tâches complexes et à long horizon ancrées dans des workflows de montage authentiques, impliquant des interfaces multimodales denses et des séquences d'interactions étroitement couplées. Pour soutenir une évaluation à grande échelle, nous développons un analyseur léger qui transforme les enregistrements d'écran bruts et les journaux d'interaction de bas niveau en trajectoires d'actions GUI structurées et compositionnelles, avec un ancrage précis. Des évaluations approfondies révèlent que les agents existants n'atteignent qu'un taux de succès de 36,0 % sur des tâches réalistes de montage média, soulignant les défis posés par les workflows complexes et à long horizon de la post-production médiatique dans notre benchmark. Bien que les modèles actuels démontrent un ancrage spatial prometteur, un alignement multimodal et une exécution coordonnée des actions, ils restent limités en termes de fiabilité à long horizon et de planification spécifique au domaine.
Actuellement, l'amélioration des Modèles Multimodaux Unifiés (UMM) avec des capacités de compréhension, génération et édition d'images repose principalement sur un entraînement multitâche mixte. En raison de conflits inhérents entre les tâches, cette stratégie nécessite des pipelines multi-étapes complexes, un mélange massif de données et des astuces d'équilibrage, aboutissant simplement à un compromis de performance plutôt qu'à un véritable renforcement mutuel. Pour briser ce paradigme, nous proposons Uni-Edit, une tâche intelligente d'édition d'images qui sert de première tâche générale pour le réglage des UMM. Contrairement aux pipelines mixtes complexes, Uni-Edit améliore simultanément les trois capacités en utilisant une seule tâche, une seule étape d'entraînement et un seul ensemble de données. Plus précisément, nous identifions d'abord l'édition d'images comme une tâche générale idéale intrinsèquement, car elle exige naturellement à la fois la compréhension visuelle et la génération. Cependant, les données d'édition existantes reposent sur des instructions simplistes qui sous-utilisent gravement la capacité de compréhension d'un modèle. Pour remédier à cela, nous introduisons le premier pipeline automatisé et évolutif de synthèse de données pour l'édition intelligente, transformant diverses données VQA en instructions d'édition complexes et efficaces intégrant des questions et une logique imbriquée. Cela donne Uni-Edit-148k, associant des instructions diversifiées et intensives en raisonnement à des images éditées de haute qualité. Des expériences approfondies sur BAGEL et Janus-Pro démontrent que le réglage uniquement sur Uni-Edit permet des améliorations complètes des trois capacités sans aucune opération auxiliaire.
L'évaluation des grands modèles de langage (LLMs) sur le raisonnement logique en langage naturel est essentielle, car les tâches régies par des règles exigent que les conclusions découlent strictement des prémisses énoncées. De nombreux bancs d'essai existants pour le raisonnement logique sont générés par la modélisation d'éléments en langage naturel à partir de formules échantillonnées, ne fournissent que des annotations formelles grossières ou non vérifiées, et sont désormais rapidement saturés par les modèles de raisonnement de pointe. Nous présentons LLMEval-Logic, un banc d'essai de raisonnement logique en chinois construit à partir de scénarios situationnels réalistes. Son pipeline génère en amont des éléments en langage naturel ainsi que leurs formalisations de référence, les fait expertiser, vérifie les réponses annotées avec Z3, élabore des grilles d'évaluation expertes pour la notation du naturel au formel, et renforce les éléments sélectionnés grâce à un workflow adversarial en boucle fermée. Le banc d'essai est publié en deux sous-ensembles appariés : un sous-ensemble Base de 246 éléments accompagné de 1 400 atomes de grille d'évaluation développés par des experts, et un sous-ensemble Hard de 190 éléments avec 938 sous-questions multi-étapes couvrant des espaces de modèles fermés. L'évaluation de 14 LLMs de pointe sur LLMEval-Logic révèle des lacunes substantielles dans les modèles actuels : le meilleur modèle n'atteint que 37,5 % de précision sur les éléments Hard, et même avec des symboles de référence, le score de formalisation conjoint Z3+Grille le plus élevé parmi les modèles évalués n'atteint que 60,16 %. Notre banc d'essai est accessible publiquement à l'adresse https://github.com/llmeval/LLMEval-Logic.
Le paradigme actuel de pré-entraînement pour les grands modèles de langage repose sur des calculs massifs et du texte brut à l'échelle d'Internet, créant une barrière importante pour la recherche fondamentale. En revanche, les systèmes biologiques démontrent un apprentissage très efficace en termes d'échantillons grâce à un traitement multi-échelle temporelle, comme l'organisation fonctionnelle de la boucle frontopariétale. En prenant cela comme inspiration, nous introduisons HRM-Text, qui remplace les Transformers standards par un modèle récurrent hiérarchique (HRM) qui découple le calcul en couches stratégiques à évolution lente et couches d'exécution à évolution rapide. Pour stabiliser cette récurrence profonde pour la modélisation du langage, nous introduisons MagicNorm et le warmup de l'assignation de crédit profond. De plus, au lieu du pré-entraînement standard sur texte brut, nous entraînons exclusivement sur des paires instruction-réponse en utilisant un objectif d'achèvement de tâche et un masquage PrefixLM. Servant de preuve empirique d'existence d'un pré-entraînement efficace, un modèle HRM-Text de 1 milliard de paramètres entraîné à partir de zéro sur seulement 40 milliards de tokens uniques et un budget de 1 500 dollars atteint 60,7 % sur MMLU, 81,9 % sur ARC-C, 82,2 % sur DROP, 84,5 % sur GSM8K et 56,2 % sur MATH. Bien qu'il utilise environ 100 à 900 fois moins de tokens d'entraînement et 96 à 432 fois moins de puissance de calcul estimée que les bases de référence standards, HRM-Text obtient des performances compétitives avec des modèles ouverts de 2 à 7 milliards de paramètres. Ces résultats démontrent que la co-conception d'architectures et d'objectifs peut réduire radicalement le rapport calcul/performance, rendant le pré-entraînement à partir de zéro accessible à la communauté de recherche plus large.
Les workflows d'exploitation d'actifs industriels sont sensibles à la latence, car une seule requête utilisateur peut nécessiter la coordination de données de capteurs, d'ordres de travail, de modes de défaillance, d'outils de prévision et d'agents spécialisés par domaine. Nous évaluons ce problème sur AssetOpsBench (AOB), un benchmark d'agents industriels dont le pipeline planifier-exécuter expose une surcharge répétée liée à la découverte d'outils, à la planification par LLM, à l'exécution d'outils MCP et à la synthèse finale. Les techniques de mise en cache de LLM existantes, telles que la réutilisation du cache KV et le cache sémantique basé sur les embeddings, ont été conçues pour le service de chatbots et échouent lorsque la validité des sorties dépend de paramètres temporels, d'actifs ou de capteurs. Nous proposons deux couches d'optimisation complémentaires pour les pipelines planifier-exécuter d'AOB : un cache sémantique temporel et un ensemble d'optimisations de workflows MCP combinant la mise en cache de la découverte d'outils sur disque et l'exécution parallèle des étapes tenant compte des dépendances. Les optimisations de workflows MCP ont entraîné une accélération d'un facteur 1,67 et une réduction d'environ 40,0 % de la latence médiane de bout en bout, tandis que le benchmark du cache temporel a atteint une accélération médiane d'un facteur 30,6 lors des hits de cache. Au-delà de l'accélération, nos résultats mettent en évidence un mode de défaillance concret du cache sémantique pur pour les requêtes industrielles riches en paramètres, fournissant une analyse critique de la manière dont les choix de mise en cache interagissent avec l'exactitude de l'évaluation dans les benchmarks d'agents utilisant MCP.
Avec les progrès des capacités de l'IA, des réviseurs IA commencent à être déployés dans l'évaluation scientifique par les pairs, mais leur compétence et leur crédibilité restent en question : de nombreux scientifiques les considèrent simplement comme des systèmes probabilistes dépourvus de l'expertise nécessaire pour évaluer la recherche, tandis que d'autres chercheurs sont plus optimistes quant à leur niveau de préparation, sans preuves concrètes. Il est essentiel de comprendre ce que les réviseurs IA réussissent bien, où ils échouent et quels défis subsistent. Cependant, les évaluations existantes des réviseurs IA se sont concentrées sur la concordance de leurs verdicts avec ceux des humains (par exemple, alignement des scores, prédiction d'acceptation), ce qui est insuffisant pour caractériser leurs capacités et leurs limites. Dans cet article, nous comblons cette lacune par le biais d'une étude d'annotation experte à grande échelle, dans laquelle 45 scientifiques spécialisés dans les sciences physiques, biologiques et de la santé ont passé 469 heures à évaluer 2 960 critiques individuelles (chacune ciblant un aspect spécifique d'un article) provenant de révisions rédigées par des humains et générées par l'IA de 82 articles de la famille Nature, selon les critères de correction, de significativité et de suffisance des preuves. Sur un composite des trois dimensions, un agent de révision alimenté par GPT-5.2 obtient un score supérieur à celui du réviseur humain le mieux noté pour chaque article (60,0 % contre 48,2 %, p = 0,009), tandis que les trois réviseurs IA (y compris Gemini 3.0 Pro et Claude Opus 4.5) surpassent le réviseur humain le moins bien noté dans toutes les dimensions. Les critiques précises des réviseurs IA sont également plus souvent jugées significatives et bien étayées, et mettent en lumière 26 % de problèmes distincts qu'aucun humain ne soulève. Cependant, les réviseurs IA se chevauchent beaucoup plus que les humains (21 % contre 3 % pour les paires de réviseurs), et présentent 16 faiblesses récurrentes que les humains ne partagent pas, telles qu'une connaissance limitée du sous-domaine, un manque de gestion du contexte long sur plusieurs fichiers, et une attitude trop critique sur des questions mineures. Dans l'ensemble, nos résultats positionnent les réviseurs IA actuels comme des compléments, et non des substituts, des réviseurs humains.
Les récents modèles de mise en page à image ont réalisé des progrès remarquables en matière de contrôlabilité spatiale. Cependant, ils peinent toujours face à l'occlusion inter-objets. Lorsque les boîtes englobantes se chevauchent, la plupart des méthodes existantes manquent d'informations explicites sur l'occlusion, ce qui rend la génération dans les zones d'intersection intrinsèquement ambiguë et entrave la détermination de relations d'occlusion complexes. Par conséquent, elles produisent souvent des textures entremêlées ou un empilement physiquement incohérent dans les régions superposées. Pour résoudre ce problème, nous construisons d'abord SA-Z, un jeu de données à grande échelle enrichi d'un ordre d'occlusion explicite et d'annotations au niveau pixel. En nous appuyant sur ce jeu de données proposé, nous introduisons OcclusionFormer, un nouveau cadre de transformateur de diffusion conscient de l'occlusion qui modélise explicitement la priorité d'ordre Z en découplant les instances et en les composant via un rendu volumique. De plus, pour garantir une précision spatiale fine, nous introduisons une perte d'alignement interrogée qui supervise explicitement les instances individuelles et renforce la cohérence sémantique. La méthode proposée réduit efficacement l'ambiguïté dans les régions superposées, impose des dépendances d'occlusion correctes et préserve l'intégrité structurelle, ce qui conduit à des gains substantiels en précision dans divers scénarios.
Stable Audio 3 est une famille de modèles de diffusion latents rapides (petit, moyen, grand) destinés à la génération et à l'édition de contenus audio de durée variable. Étant donné que nos modèles peuvent générer plusieurs minutes d’audio, les générations de longueur variable sont essentielles pour éviter le coût d’une production de segments complets pour des sons courts. Nous prenons également en charge l’inpainting, ce qui permet une édition audio ciblée et la prolongation de courts enregistrements. Nos modèles de diffusion latents fonctionnent au-dessus d’un nouvel autoencodeur sémantique-acoustique qui projette l’audio dans un espace latent compact, permettant une génération efficace par diffusion tout en préservant la fidélité audio et en favorisant une structure sémantique dans l’espace latent. Enfin, nous effectuons un post-entraînement adversarial pour accélérer l’inférence et améliorer la qualité de la génération, réduisant le nombre d’étapes d’inférence tout en améliorant la fidélité et le respect des consignes. Les modèles Stable Audio 3 sont entraînés sur des données sous licence et Creative Commons pour générer de la musique et des sons en moins de 2 secondes sur un GPU H200 et en moins de quelques secondes sur un MacBook Pro M4. Nous publions les poids des modèles petit et moyen, qui peuvent fonctionner sur du matériel grand public, ainsi que leur pipeline d’entraînement et d’inférence.
Pour une utilisation pratique, les modèles génératifs basés sur la diffusion ou le flux doivent être alignés sur des récompenses spécifiques à la tâche, telles que la fidélité à la consigne ou la préférence esthétique. Cet alignement est difficile car la récompense est définie pour des images de sortie propres, mais la procédure d’alignement nécessite des estimations de la fonction de valeur sur des latents intermédiaires bruités. Les méthodes existantes recourent à des approximations de type Tweedie ou Monte Carlo, faisant un compromis entre le biais de l’estimateur et le coût de calcul : les estimations de Tweedie sont efficaces mais biaisées, tandis que celles de Monte Carlo sont plus précises mais nécessitent des déploiements coûteux. Une alternative naturelle serait une fonction de valeur apprise, mais il reste une question ouverte de savoir comment entraîner efficacement un modèle de valeur robuste et général, spécifiquement pour les latents bruités. Nous proposons ici StitchVM, un cadre d’assemblage de modèles qui transfère efficacement les modèles de récompense pré-entraînés pour des images propres au régime des latents bruités. StitchVM part d’un modèle de récompense existant, tronqué dans l’espace pixel, et y attache un backbone de diffusion figé comme tête. Du modèle dans l’espace pixel, l’hybride résultant conserve une capacité de récompense robuste et soigneusement pré-entraînée ; du backbone de diffusion, il hérite de sa capacité native à traiter les latents bruités. La procédure d’assemblage est exceptionnellement légère : par exemple, assembler et affiner CLIP ViT-L et SD 3.5 Medium ne prend que 10 heures GPU. En élevant des modèles de récompense puissants de l’espace pixel à l’espace latent, StitchVM ouvre un nouveau style d’alignement par diffusion : au lieu d’une approximation approximative mais coûteuse par échantillon de la fonction de valeur, la fonction correcte pour les latents réels et bruités est construite une fois puis amortie sur de nombreux échantillons et itérations. Nous montrons que cette approche apporte des améliorations dans un large éventail de méthodes de guidage et de post-entraînement en aval : DPS devient 3,2 fois plus rapide tout en réduisant de moitié la mémoire GPU de pointe, et DiffusionNFT devient 2,3 fois plus rapide.
La mémoire cache clé-valeur (KV) domine la largeur de bande et l'empreinte mémoire dans l'inférence autorégressive à contexte long. Les codecs récents préconditionnés par rotation (TurboQuant, PolarQuant) montrent qu'une rotation aléatoire structurée suivie d'un quantificateur scalaire par coordonnée adapté à une marginale analytiquement tractable constitue une recette quasi-optimale pour la compression de la cache KV. OCTOPUS fait progresser ce paradigme grâce à la quantification conjointe de triplets de coordonnées rotatées. La direction de chaque triplet est projetée sur un carré via une paramétrisation octaédrique, et les deux coordonnées résultantes ainsi que la norme du triplet sont quantifiées selon Lloyd-Max face à des marginales adaptées à l'implémentation. L'optimisation de l'erreur quadratique par triplet conduit à une allocation de bits strictement non uniforme, dépendant uniquement de la dimensionnalité totale des clés. Nous constatons, par balayages, que l'optimum de qualité en dimension finie est constant sur tous les décodeurs réels que nous testons. Le codec est indépendant des données, en ligne et déterministe étant donné une graine. Pour le texte, la vidéo et l'audio, OCTOPUS égale ou surpasse tous les codecs à rotation antérieurs à chaque largeur de bit et métrique rapportée, avec un écart qui croît lorsque le nombre de bits diminue pour une compression extrême. De plus, une implémentation Triton fusionnée reconstruit les clés à la volée sans matérialiser la clé non compressée, de sorte que le codec n'ajoute aucune bande passante ni latence de décodage par rapport à la déquantification existante. Page du projet : https://octopus-quant.github.io/
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) souffre de signaux de résultat épars, créant des goulots d'étranglement d'exploration sévères sur des tâches de raisonnement complexes. Les méthodes récentes d'auto-distillation sur politique tentent d'y remédier en utilisant un feedback linguistique pour générer une supervision dense au niveau des tokens. Cependant, ces approches reposent sur un enseignant fixe et passif pour interpréter le feedback. À mesure que la politique de l'étudiant s'améliore, les capacités d'évaluation zero-shot de l'enseignant plafonnent, arrêtant ainsi tout apprentissage ultérieur. Pour surmonter cela, nous proposons la Distillation Variationnelle de Politique (VPD), un cadre qui formalise l'apprentissage à partir de feedback linguistique comme un problème d'Espérance-Maximisation (EM) variationnelle. VPD fait co-évoluer les deux politiques : dans l'étape E, l'enseignant est activement affiné sur les trajectoires observées via une mise à jour adaptative de région de confiance, traduisant le feedback textuel en une distribution cible de tokens dynamiquement améliorée. Dans l'étape M, l'étudiant internalise cette guidance distributionnelle dense sur ses propres rollouts sur politique. En améliorant continuellement la capacité de l'enseignant à extraire des signaux exploitables de la critique textuelle, VPD surmonte les limites de la distillation passive. Évalué sur diverses sources de feedback diagnostique pour des tâches de raisonnement scientifique et de génération de code, VPD surpasse systématiquement à la fois le RLVR standard et les bases de référence d'auto-distillation existantes. Enfin, en soumettant notre cadre à des tests de résistance sur le raisonnement mathématique rigide et les régimes de démarrage à froid, nous éclairons les limites fondamentales de l'auto-distillation guidée par feedback par rapport au RL purement piloté par l'environnement.
Les agents LLM organisent leur comportement via des compétences — des spécifications structurées en langage naturel régissant la manière dont un agent raisonne, récupère de l'information et répond. Contrairement aux prompts monolithiques, les compétences sont des artefacts multi-champs soumis à des contraintes matérielles strictes de plateforme : les champs de description sont tronqués pour le routage, les corps d'instruction sont condensés par divulgation progressive, et les compétences co-résidentes se disputent des fenêtres de contexte limitées. Ces contraintes rendent l'optimisation des compétences intrinsèquement multi-objectifs : une compétence doit simultanément maximiser sa performance sur la tâche et satisfaire les limites de la plateforme. Pourtant, les optimiseurs de prompts existants ignorent ces compromis ou les réduisent à une somme pondérée, manquant ainsi les variantes Pareto-optimales dans les régions d'objectifs non convexes. Nous introduisons MOCHA (Multi-Objective Chebyshev Annealing), qui remplace la sélection mono-objectif par une scalarisation de Chebyshev — couvrant l'ensemble du front de Pareto, y compris les régions non convexes — combinée à un recuit exponentiel qui passe de l'exploration à l'exploitation. Dans nos expériences menées sur six compétences d'agent diverses — où toutes les méthodes partagent le même opérateur de mutation multi-objectif et les lignes de base reçoivent un retour textuel identique par objectif — les optimiseurs existants ne parviennent pas à améliorer la compétence initiale sur 4 des 6 tâches : 1000 déploiements ne produisent aucun progrès. MOCHA réussit sur chaque tâche, obtenant une amélioration relative de 7,5 % de la précision moyenne par rapport à la ligne de base la plus performante (jusqu'à 14,9 % sur FEVER et 10,4 % sur TheoremQA), tout en découvrant deux fois plus de variantes de compétences Pareto-optimales.
La génération d'une visite VR cohérente à l'échelle d'une maison entière à partir d'un plan d'étage et d'une référence stylistique nécessite à la fois des panoramas photoréalistes et une cohérence spatiale inter-vues. Les générateurs purement 2D produisent des panoramas uniques attrayants mais réinventent la géométrie et les matériaux lorsque le point de vue change, tandis que la génération 3D monolithique devient coûteuse et perd les détails fins à l'échelle de plusieurs pièces. Nous présentons PanoWorld, un modèle génératif de monde spatial qui traite la synthèse d'une maison entière comme une génération autorégressive de panoramas à 360 degrés basés sur des nœuds, correspondant à la navigation discrète utilisée par les produits réels de visites VR. PanoWorld utilise une coque 3D dérivée du plan d'étage comme proxy géométrique global et un cache dynamique de 3D Gaussian Splatting comme mémoire spatiale rendue. Un LRM panoramique feed-forward conçu pour des entrées 360 degrés multi-pièces à l'échelle métrique élève les panoramas générés en mises à jour locales du 3DGS, tandis que l'Attention Groupée par Pièce (Room-aware Group Attention) supprime les interférences de caractéristiques entre pièces. Une stratégie de mise en cache progressive consciente de la topologie fusionne ces mises à jour locales sans reconstruire répétitivement l'historique complet. En dissociant le guidage géométrique basé sur la coque de la mémoire visuelle rendue par cache, PanoWorld préserve la qualité de synthèse 2D haute fréquence tout en améliorant la cohérence de la disposition et des matériaux entre les nœuds. Le lien du projet est https://jjrcn.github.io/PanoWorld-project-home/
L'apprentissage par renforcement avec récompense vérifiable (RLVR) s'est révélé efficace pour améliorer la capacité de raisonnement des grands modèles de langage (LLM). Cependant, la dynamique d'apprentissage du RLVR reste peu explorée. Dans cet article, nous mettons en lumière un phénomène contre-intuitif : parmi les exemples difficiles avec lesquels le modèle peine initialement, une sous-catégorie substantielle demeure impossible à apprendre même lorsque des rollouts corrects sont disponibles. Pour comprendre ce phénomène, nous montrons d'abord que les techniques d'optimisation et d'échantillonnage existantes ne parviennent pas à résoudre cette inapprenabilité. Grâce à une analyse des gradients inter-exemples, nous démontrons que les exemples inapprenables présentent un problème fondamental de représentation, caractérisé par une faible similarité de gradient avec les autres exemples et des schémas de raisonnement non généralisables. Nous montrons en outre que ces défauts de représentation sont difficiles à atténuer en RL, car l'augmentation des données n'améliore pas la similarité des gradients. Notre étude fournit la première caractérisation systématique des données inapprenables dans l'entraînement RLVR et révèle les limitations fondamentales des approches RL actuelles pour les tâches de raisonnement. Le code et les données sont disponibles sur https://github.com/yulinchen99/unlearnability-rlvr.
À mesure que les agents de codage à long horizon produisent plus de code que ne peut en réviser un développeur, la supervision se réduit à une seule surface : la suite de tests automatisés. Le contournement de la récompense émerge naturellement dans cette configuration, l'agent optimisant la réussite des tests tout en s'écartant du véritable objectif de l'utilisateur. Nous étudions ce phénomène de contournement de la récompense en décomposant les tâches de génie logiciel en trois parties : (i) une description en langage naturel de la spécification, (ii) des tests de validation visibles qui exécutent les fonctionnalités spécifiées de manière isolée, et (iii) des tests cachés qui composent ces mêmes fonctionnalités pour simuler une utilisation réelle. Sur la base de la spécification et des suites de tests de validation visibles, un agent authentique serait capable de générer une solution qui réussit également tous les tests cachés. Nous utilisons donc l'écart des taux de réussite sur ces deux suites pour quantifier le contournement de la récompense. Sur la base de cette méthodologie, nous introduisons SpecBench, un banc d'essai comprenant 30 tâches de programmation au niveau système, allant de tâches à horizon court comme la construction d'un analyseur JSON à des tâches à horizon très long comme la construction d'un noyau de système d'exploitation complet à partir de zéro. Des expériences à grande échelle révèlent un schéma constant : alors que chaque agent de pointe sature la suite visible, le contournement de la récompense persiste, les modèles plus petits présentant des écarts plus importants sur les suites cachées. L'écart augmente également fortement avec la longueur de la tâche : il croît de 28 points de pourcentage pour chaque multiplication par dix de la taille du code. Les échecs vont de l'isolation subtile de fonctionnalités à des exploitations délibérées, notamment un « compilateur » de table de hachage de 2 900 lignes qui mémorise les entrées de test. SpecBench offre un banc d'essai fondé sur des principes pour mesurer si les agents de codage construisent de véritables systèmes fonctionnels ou se contentent de contourner les suites de tests que les développeurs leur remettent.
Les agents du monde réel opèrent sur des horizons temporels longs et évolutifs, où les informations sont mises à jour de manière répétée et peuvent interférer entre les souvenirs, nécessitant un rappel précis et un raisonnement agrégé sur plusieurs éléments d'information. Cependant, les benchmarks existants se concentrent sur un rappel statique et indépendant, et ne parviennent pas à capturer ces interactions dynamiques entre des souvenirs en évolution. Dans cet article, nous étudions comment les agents actuels à mémoire augmentée se comportent dans des contextes réalistes, à forte interférence et sur de longs horizons, à travers divers domaines et types de questions. Nous présentons MINTEval (Évaluation de la mémoire à long horizon sous interférence), un benchmark qui propose (1) des contextes longs et fortement interconnectés, avec des informations fréquemment mises à jour qui induisent une interférence substantielle, (2) des domaines variés (suivi d'état, dialogue multi-tours, révisions Wikipédia et commits GitHub), permettant d'évaluer la généralisation entre domaines, et (3) divers types de questions qui évaluent la robustesse face aux interférences, incluant (i) des tâches de rappel d'une cible unique nécessitant l'extraction d'une cible spécifique dans de longs contextes, et (ii) des tâches d'agrégation multi-cibles nécessitant un raisonnement sur plusieurs éléments d'information pertinents. Globalement, MINTEval comprend 15 600 paires question-réponse sur des contextes à long horizon, d'une longueur moyenne de 138 800 tokens et pouvant atteindre jusqu'à 1,8 million de tokens par instance. Nous évaluons 7 systèmes représentatifs, incluant des LLM à contexte long classiques, des systèmes RAG et des frameworks d'agents à mémoire augmentée. Sur l'ensemble des systèmes, nous observons des performances constamment faibles (précision moyenne de 27,9 %), en particulier sur les questions nécessitant un raisonnement agrégé sur plusieurs éléments de preuve. Notre analyse montre que les performances sont principalement limitées par la récupération et la construction de la mémoire. De plus, les systèmes de mémoire actuels peinent à rappeler et à raisonner sur des faits antérieurs qui sont révisés ou interférés par un contexte ultérieur, avec une dégradation de la précision à mesure que le nombre de mises à jour intermédiaires augmente.
L'Optimisation Directe des Préférences (DPO) est devenue une alternative populaire à l'Apprentissage par Renforcement à partir du Retour Humain (RLHF), offrant une équivalence théorique avec une implémentation plus simple. Nous démontrons que cette équivalence est conditionnelle plutôt qu'universelle, dépendant d'une hypothèse implicite fréquemment violée en pratique : la politique optimale selon RLHF doit préférer les réponses préférées par les humains. Lorsque cette hypothèse est en défaut, DPO optimise l'avantage relatif par rapport à la politique de référence plutôt que l'alignement absolu avec les préférences humaines, conduisant à une convergence pathologique où les politiques réduisent la perte DPO tout en préférant les réponses non préférées. Nous caractérisons les cas où cette hypothèse est violée, montrons l'existence d'un espace de solutions indésirables, et prouvons que DPO et RLHF optimisent des objectifs fondamentalement différents dans ces circonstances. Pour y remédier, nous introduisons l'Optimisation Contrainte des Préférences (CPO), qui enrichit RLHF avec des contraintes pour un alignement prouvable. Nous fournissons également une interprétation géométrique via un classement à marge souple, révélant que DPO implémente un classement à marge avec des cibles potentiellement négatives. Notre analyse théorique établit quand les garanties de DPO sont valides et propose des solutions préservant la simplicité avec un alignement prouvable. Des expériences complètes sur des benchmarks standards montrent que CPO atteint des performances de pointe. Le code est disponible à l'adresse : https://github.com/visitworld123/CPO.
Nous présentons Mem-π, un cadre de mémoire adaptative pour les agents à base de grands modèles de langage (LLM), dans lequel des directives utiles sont générées à la demande plutôt que récupérées depuis des mémoires externes. Les agents à mémoire augmentée existants s’appuient généralement sur une recherche par similarité dans des banques de mémoire épisodique ou des bibliothèques de compétences, renvoyant des entrées statiques souvent inadaptées au contexte courant. En revanche, Mem-π utilise un modèle de langage ou de langage-vision dédié, avec ses propres paramètres, distinct de l’agent aval, pour générer des directives spécifiques au contexte pour des tâches complexes. Conditionné par le contexte actuel de l’agent, le modèle décide conjointement quand produire des directives et quelles directives produire. Nous l’entraînons avec un objectif d’apprentissage par renforcement (RL) découplé entre décision et contenu, ce qui lui permet de s’abstenir si la génération n’est pas utile, et sinon de produire des directives concises et pertinentes. Sur divers benchmarks agentiques couvrant la navigation web, l’utilisation d’outils en terminal et l’interaction incarnée basée sur du texte, Mem-π surpasse systématiquement les méthodes de référence basées sur la recherche ou optimisées par RL antérieures, avec une amélioration relative de plus de 30 % sur les tâches de navigation web.
Les récents modèles feed-forward ont considérablement amélioré la perception géométrique pour l'inférence de structures 3D denses à partir d'observations sensorielles. Cependant, leurs capacités essentielles restent fragmentées entre des paradigmes incompatibles multiples, incluant la perception en ligne, la reconstruction hors ligne, l'intégration multimodale, la scalabilité à long horizon et l'estimation d'échelle métrique. Nous présentons UniT, un modèle unifié construit autour d'un nouveau Transformateur Auto-Régressif par Groupes, qui reformule ces capacités apparemment disparates au sein d'un cadre unique. L'idée clé est de traiter des groupes d'observations sensorielles comme les unités auto-régressives de base et de prédire les cartes de points correspondantes de manière sans ancrage et adaptable à l'échelle. Plus spécifiquement, les diverses configurations de vues, tant en ligne que hors ligne, sont naturellement unifiées au sein d'un seul processus d'auto-régression par groupes. En faisant varier la taille du groupe, le mode en ligne opère sur plusieurs étapes auto-régressives avec des groupes d'une seule image, tandis que le mode hors ligne agrège un groupe multi-image en un seul passage avant. Parallèlement, un mécanisme de mise en cache KV de type file d'attente garantit une mémoire auto-régressive bornée sur de longs horizons. Ceci est rendu possible en réduisant les dépendances à long terme sur les images précoces grâce à une modélisation relationnelle sans ancrage, permettant ainsi de rejeter à la volée la mémoire obsolète. Pour améliorer la généralisation de l'échelle métrique à travers les scènes, une perte géométrique adaptable à l'échelle est en outre introduite dans ce cadre. Elle couple des contraintes géométriques relatives avec un terme d'échelle absolue partielle, régularisant implicitement l'échelle globale et induisant une transition progressive de la géométrie invariante d'échelle vers des solutions d'échelle métrique. Associé à un module d'attention modal dédié pour intégrer les modalités auxiliaires, UniT atteint des performances de pointe en perception géométrique unifiée, comme validé sur dix bancs d'essai couvrant sept tâches représentatives.
Alors que les agents de codage autonomes deviennent capables de gérer des tâches à horizon de plus en plus long, ils ont progressivement démontré leur potentiel à réaliser un développement logiciel de bout en bout. Bien que les référentiels existants aient récemment évolué, passant de l'édition localisée de code à la génération de projets à partir de zéro, ils restent confinés à des applications à pile unique et structurellement simplifiées. Par conséquent, ils ne parviennent pas à capturer les environnements hétérogènes, l'orchestration de la pile complète et la complexité au niveau système des véritables systèmes SaaS (Software as a Service) d'entreprise, laissant un vide critique dans l'évaluation des agents dans des conditions d'ingénierie réalistes. Pour combler ce vide, nous présentons SaaSBench, le premier référentiel conçu pour explorer les limites des agents d'IA dans l'ingénierie SaaS d'entreprise. Couvrant 30 tâches complexes dans 6 domaines SaaS avec 5 370 nœuds de validation, il intègre 8 langages de programmation, 6 bases de données et 13 frameworks pour refléter minutieusement l'hétérogénéité logicielle du monde réel. De plus, nous concevons un paradigme d'évaluation hybride tenant compte des dépendances, adapté aux systèmes complexes à long horizon et à couplage multi-composants, permettant une évaluation fine et reproductible. Surtout, nos expériences approfondies révèlent une observation frappante : le principal goulet d'étranglement pour les agents de pointe n'est pas la génération de logique de code isolée, mais la configuration et l'intégration réussies d'un système multi-composants. Plus de 95 % des échecs de tâches surviennent avant même que les agents n'atteignent la logique métier profonde, les modèles étant souvent victimes d'un excès de confiance et s'arrêtant prématurément lors de la configuration système fondamentale, ou se retrouvant piégés dans des boucles de débogage inefficaces. Nous espérons que SaaSBench servira de banc d'essai pratique et stimulant pour favoriser l'évolution d'agents de codage fiables au niveau système. Le code est disponible à l'adresse https://github.com/ShadeCloak/SaaSbench.
La planification est une capacité fondamentale pour les grands modèles de langage (LLMs), car ces tâches complexes exigent que les modèles coordonnent objectifs, contraintes, ressources et conséquences à long terme en solutions exécutables et vérifiables. Les bancs d’essai de planification existants, cependant, traitent généralement les données de planification comme des collections fixes d’instances plutôt que comme des cibles de génération contrôlables. Cela limite la couverture des scénarios, associe la difficulté à des proxies de surface plutôt qu’à des sources structurelles, et offre un soutien limité pour la génération évolutive, la vérification automatique ou l’entraînement orienté planification. Nous introduisons PlanningBench, un cadre pour générer des données de planification évolutives, diverses et vérifiables, destinées à la fois à l’évaluation et à l’entraînement. PlanningBench part de scénarios de planification réels et abstrait les flux de travail pratiques en une taxonomie structurée de plus de 30 types de tâches, sous‑tâches, familles de contraintes et facteurs de difficulté. Guidé par cette taxonomie, un pipeline de synthèse piloté par contraintes instancie des problèmes de planification autonomes avec un contrôle adaptatif de la difficulté, un filtrage de qualité et des listes de vérification au niveau des instances. Cela déplace la construction des données de planification d’une collecte fixe de bancs d’essai vers une génération contrôlable, tout en préservant un ancrage réaliste des tâches. Nous utilisons PlanningBench pour évaluer des LLMs de pointe open‑source et closed‑source, et constatons que les modèles actuels peinent encore à produire des solutions complètes sous contraintes couplées. Au‑delà de l’évaluation, l’apprentissage par renforcement sur les données vérifiées de PlanningBench améliore les performances sur des bancs d’essai de planification inédits et sur des tâches plus larges de suivi d’instructions. Des analyses supplémentaires suggèrent que des solutions optimales déterminées ou bien spécifiées fournissent des signaux de récompense plus clairs et des dynamiques d’entraînement plus stables. Dans l’ensemble, PlanningBench offre une source contrôlable de données de planification pour diagnostiquer et améliorer les capacités de planification généralisables des LLMs.
Le post-entraînement à la sécurité peut améliorer la nocivité et la conformité aux politiques des grands modèles de langage (LLMs), mais peut également réduire l'utilité générale, un phénomène souvent décrit comme la taxe d'alignement. Nous étudions ce compromis sous l'angle de l'apprentissage continu : les étapes d'alignement séquentielles exposent le modèle à des distributions de données et des objectifs décalés, et leurs gradients peuvent interférer avec les directions qui soutiennent des capacités générales précédemment acquises. Cette perspective ne prétend pas que toute dégradation liée à l'alignement ait une cause unique ; elle fournit plutôt un mécanisme de premier ordre utile pour atténuer une source importante de régression des capacités. Nous proposons la Projection de Gradient Orthogonal pour l’Alignement de Sécurité (OGPSA), une règle de mise à jour légère qui estime un sous-espace de référence de faible rang à partir des gradients sur un petit ensemble de données de capacités générales et supprime de chaque gradient de sécurité la composante située dans ce sous-espace. La mise à jour résultante est la direction de descente locale de sécurité la plus raide, soumise à des contraintes de préservation du premier ordre sur les objectifs de référence. OGPSA est compatible avec les pipelines standard de post-entraînement et évite la relecture à grande échelle, bien qu'elle introduise un calcul périodique des gradients de référence. À travers les configurations de Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO) et SFT→DPO séquentielle, OGPSA améliore le compromis observé entre sécurité et utilité par rapport aux références standards. Sous le pipeline SFT→DPO séquentiel, le gain de performance moyen passe de 33,98 % à 42,74 % sur Qwen2.5-7B-Instruct et de 19,74 % à 32,98 % sur Llama3.1-8B-Instruct. Nous avons rendu notre code open source à l'adresse https://github.com/SunGL001/OGPSA.
L'entraînement des modèles de langage modernes est de plus en plus exposé à l'instabilité, aux exécutions dégradées et au gaspillage de calcul, en particulier dans des conditions agressives de taux d'apprentissage, d'échelle et de stress temporel d'exécution. Cet article présente Learn-by-Wire Guard (LBW-Guard), une couche de gouvernance de contrôle d'entraînement autonome et bornée qui opère au-dessus d'AdamW. Plutôt que de remplacer la règle de mise à jour de l'optimiseur, LBW-Guard observe la télémesure de l'entraînement, interprète les régimes sensibles à l'instabilité et applique un contrôle borné à l'exécution de l'optimiseur tout en préservant les objectifs d'entraînement fixes. Nous évaluons LBW-Guard dans une suite de robustesse et de stress centrée sur Qwen2.5 à l'aide de WikiText-103, avec Qwen2.5-7B comme ancrage empirique, des comparaisons de taille de modèle avec Qwen2.5-3B et Qwen2.5-14B, des tests de stress du taux d'apprentissage, des références d'écrêtage de gradient, et une vérification de cohérence en paramètres complets sans LoRA sur TinyLlama-1B. Dans le cadre de référence 7B, LBW-Guard réduit la perplexité finale de 13,21 à 10,74, soit une amélioration de 18,7 %, tout en réduisant le temps de bout en bout de 392,54 s à 357,02 s, soit une accélération de 1,10x. Sous un stress plus fort du taux d'apprentissage, AdamW se dégrade à une perplexité finale de 1885,24 à LR=3e-3 et de 659,76 à LR=1e-3, tandis que LBW-Guard reste entraînable à 11,57 et 10,33 respectivement. Les références d'écrêtage de gradient ne reproduisent pas cet effet. Ces résultats confortent une conclusion systémique ciblée selon laquelle un entraînement des LLM sensible à la stabilité peut bénéficier d'un plan de gouvernance au-dessus de l'optimiseur. LBW-Guard apporte la preuve qu'un contrôle d'exécution borné peut préserver le calcul productif sous stress tout en restant distinct du remplacement de l'optimiseur et de la suppression locale de gradient.
Les Modèles de Langage de Grande Taille par Diffusion (dLLMs) sont devenus une alternative compétitive aux modèles autorégressifs (AR), offrant une meilleure utilisation du matériel et un contexte bidirectionnel grâce au décodage parallèle par blocs. Cependant, alors que les dLLMs continuent de monter en échelle avec des architectures à mélange d’experts (MoE), leur déploiement sur des dispositifs à ressources limitées reste un défi ouvert. Les méthodes AR existantes entraînent souvent soit des surcoûts d’E/S prohibitifs, soit des goulots d’étranglement de calcul significatifs. Dans ce travail, nous proposons TIDE, un nouveau système d’inférence économe en ressources qui exploite la stabilité temporelle des activations des experts au cours du processus de diffusion à l’intérieur du bloc. Plus précisément, nous exploitons la stabilité temporelle des activations des experts pendant la diffusion intra-bloc et introduisons une stratégie de rafraîchissement des experts basée sur des intervalles, qui met à jour le placement des experts en tenant compte des E/S. Pour garantir des performances optimales, nous formulons l’ordonnancement de l’inférence comme un problème de programmation mathématique, résolvant l’intervalle optimal qui minimise le trafic d’E/S et le calcul CPU. Le plus important est que TIDE constitue une optimisation sans perte ne nécessitant aucun entraînement de modèle, offrant ainsi une accélération « repas gratuit » pour l’inférence des dLLMs. Sur un système à un seul GPU-CPU, nous démontrons que TIDE atteint des améliorations de débit allant jusqu’à 1,4 fois et 1,5 fois par rapport aux références antérieures sur les modèles LLaDA2.0-mini et LLaDA2.0-flash, respectivement.
L'essayage virtuel vidéo (VVT) vise à remplacer de manière transparente un vêtement porté par une personne dans une vidéo par un nouveau. Bien que les méthodes existantes aient réalisé des progrès significatifs dans le maintien de la cohérence temporelle, elles sont principalement limitées à des scénarios non interactifs où les modèles se contentent de présenter les vêtements. Cette limite néglige un aspect crucial de la présentation vestimentaire dans le monde réel : l'interaction active entre l'humain et le vêtement. Pour combler cette lacune, nous introduisons et formalisons une nouvelle tâche ambitieuse : l'essayage virtuel vidéo interactif (VVT interactif), où les sujets de la vidéo interagissent activement avec leurs vêtements. Cette tâche pose des défis uniques qui dépassent la simple préservation des textures, notamment : (1) résoudre l'ambiguïté sémantique des interactions à partir des informations de pose standard, et (2) apprendre des déformations complexes du vêtement à partir de vidéos où les moments interactifs sont rares et brefs. Pour relever ces défis, nous proposons iTryOn, un nouveau cadre basé sur un Transformateur de diffusion vidéo à grande échelle. iTryOn introduit un mécanisme d'injection d'interaction multi-niveaux pour guider la génération de dynamiques complexes. Au niveau spatial, nous introduisons un a priori 3D de main indépendant du vêtement afin de fournir un guidage fin pour un contact précis main-vêtement, résolvant ainsi efficacement l'ambiguïté spatiale. Au niveau sémantique, iTryOn exploite des légendes globales pour le contexte général et des légendes d'actions horodatées pour les interactions localisées, synchronisées grâce à notre nouvel Embedding de Position Rotationnelle Sensible à l'Action (A-RoPE). Des expériences approfondies démontrent qu'iTryOn atteint non seulement des performances de pointe sur les bancs d'essai VVT traditionnels, mais établit également une avance décisive dans le nouveau cadre interactif, marquant une étape importante vers des expériences d'essayage virtuel plus dynamiques et contrôlables.
Les grands modèles de langage avec vision (LVLM) montrent un certain potentiel dans les applications médicales, mais leur incapacité à ancrer fidèlement leurs réponses dans des preuves visuelles soulève de sérieuses inquiétudes quant à leur fiabilité clinique. Bien que les méthodes d'attribution visuelle soient largement utilisées pour expliquer les prédictions des LVLM, la question de savoir si ces explications reflètent réellement les preuves visuelles sous-jacentes à la décision du modèle reste largement non vérifiée, car les annotations de vérité terrain pour le raisonnement interne du modèle ne sont généralement pas disponibles. Nous abordons cette question pour le raisonnement sur les radiographies thoraciques (CXR) en développant un cadre d'évaluation causale qui ne retient que les échantillons CXR-VQA pour lesquels la région annotée par l'expert est vérifiée, via une édition contrefactuelle, comme étant causalement responsable de la prédiction du modèle. En utilisant ce cadre sur 11 méthodes d'attribution, six LVLM open-source et deux modes de sortie (réponse directe et raisonnement pas à pas), nous constatons que les méthodes d'attribution existantes échouent souvent à identifier les preuves utilisées par les LVLM. Pour remédier à cet échec, nous proposons MedFocus, une méthode d'attribution basée sur les concepts qui localise des régions anatomiques cliniquement significatives via un transport optimal non équilibré et mesure leur effet causal sur les sorties du modèle à travers des interventions ciblées. MedFocus produit des attributions spatiales, au niveau des concepts et au niveau des tokens, et surpasse largement les méthodes précédentes, constituant un pas vers une attribution plus fiable pour les LVLM médicaux. Nos données et notre code sont disponibles à l'adresse https://github.com/gzxiong/medfocus/.
La génération de mouvement à partir de texte, qui traduit des descriptions textuelles en mouvements humains, est confrontée au défi que les utilisateurs ont souvent du mal à exprimer précisément leurs intentions de mouvement uniquement par le texte. Pour résoudre ce problème, cet article présente DrawMotion, un cadre efficace basé sur la diffusion conçu pour des scénarios multi-conditions. DrawMotion génère des mouvements à partir à la fois d'une condition textuelle conventionnelle et d'une nouvelle condition de dessin à main levée, qui assurent respectivement un contrôle sémantique et spatial sur les mouvements générés. Plus précisément, nous abordons la tâche de génération de mouvement à grain fin sous trois angles : 1) la condition de dessin à main levée. Afin de capturer avec précision les mouvements souhaités par les utilisateurs sans nécessiter une saisie textuelle fastidieuse, nous développons un algorithme pour générer automatiquement des croquis de bonhommes allumettes dessinés à la main dans différents formats de jeux de données ; 2) la fusion multi-conditions. Nous proposons un Module Multi-Conditions (MCM) intégré dans le processus de diffusion, permettant au modèle d'exploiter toutes les combinaisons possibles de conditions tout en réduisant la complexité de calcul par rapport aux approches conventionnelles ; et 3) l'orientation sans entraînement. Notamment, le MCM dans DrawMotion garantit que ses caractéristiques intermédiaires se situent dans un espace continu, permettant aux gradients de guidage par classifieur de mettre à jour les caractéristiques et ainsi d'aligner les mouvements générés sur les intentions des utilisateurs tout en préservant la fidélité. Des expériences quantitatives et des études utilisateurs démontrent que l'approche de dessin à main levée réduit le temps utilisateur d'environ 46,7 % lors de la génération de mouvements conformes à leur imagination. Le code, les démonstrations et les données pertinentes sont disponibles publiquement à l'adresse https://github.com/InvertedForest/DrawMotion.
Le regroupement de requêtes organise les requêtes en groupes reflétant des demandes latentes de capacité partagées, permettant une évaluation des LLM sensible aux capacités. Les méthodes de regroupement existantes, qui reposent principalement sur des taxonomies sémantiques ou des plongements, échouent souvent à capturer ces exigences latentes de capacité en raison d'un décalage entre la sémantique de surface et les performances réelles des modèles. Nous proposons ECC, un algorithme qui calibre les plongements sémantiques a priori à l'aide de comparaisons limitées de modèles a posteriori afin de combler l'écart entre la sémantique de surface et les exigences latentes de capacité. ECC caractérise chaque cluster par un profil de capacité paramétré par un modèle de Bradley-Terry et utilise des poids de mélange entraînables pour prendre en compte les requêtes aux exigences de capacité mixtes, apprenant conjointement une structure de regroupement flexible et sensible aux capacités qui prend en charge l'inférence des capacités des LLM spécifique à chaque requête. Des évaluations quantitatives et qualitatives approfondies montrent qu'ECC améliore significativement la qualité du classement des capacités des LLM, surpassant les références basées sur des annotations humaines et des plongements respectivement de 17,64 et 18,02 points de pourcentage en moyenne, et se révèle efficace dans des tâches en aval telles que le routage de requêtes.
Le désaccord d’ensemble est largement utilisé comme indicateur de l’incertitude épistémique dans la segmentation d’images médicales. En pratique, de nombreuses études forment des ensembles via une validation croisée à K plis (CV), mais les désignent pourtant comme des « deep ensembles » (DE). Étant donné que les membres du CV sont entraînés sur différents sous-ensembles de données, leur désaccord mélange la variabilité due aux graines aléatoires avec les effets d’exposition aux données, ce qui peut modifier l’interprétation de l’incertitude. Nous examinons des études récentes sur l’incertitude en segmentation et constatons que les décalages entre terminologie et implémentation sont courants. Nous comparons ensuite un ensemble CV standard à 5 plis avec un DE à 5 membres (ensemble d’entraînement fixe, graines aléatoires différentes) sous des configurations par ailleurs identiques, sur trois jeux de données de segmentation multi-évaluateurs couvrant trois modalités. Nous évaluons l’incertitude pour le calibrage, la détection d’échecs, la modélisation de l’ambiguïté et la robustesse sous décalage de distribution. Les DE égalent la précision de segmentation tout en améliorant le calibrage et la détection d’échecs, tandis que les ensembles CV sont parfois plus fortement corrélés à la variabilité inter-évaluateurs sur les jeux de données étudiés. Ainsi, la construction de l’ensemble doit être choisie en fonction de la question de recherche : les DE pour une utilisation axée sur la fiabilité (par exemple, orientation sélective/détection d’échecs) et les ensembles CV comme indicateur de l’ambiguïté. Nous fournissons une modification légère de nnU‑Net permettant l’entraînement des DE dans le pipeline par défaut.
Ces dernières années, Muon est devenu la méthode dominante pour l'entraînement des grands modèles de langage, et plus largement des transformeurs. La différence essentielle, par rapport aux méthodes de descente de gradient standard, consiste à remplacer la matrice de mise à jour usuelle \( M = U\Sigma V^\top \) par son facteur polaire \( UV^\top \). Dans ce travail, nous considérons une classe de mises à jour de type Muon, où nous remplaçons \( M \) par \( U\Sigma^p V^\top \) pour un certain paramètre \( p \). Nous appelons cette opération une "mise en forme spectrale" et développons une théorie permettant de choisir \( p \) en fonction (a) de la courbure locale de la fonction de perte, (b) du bruit provenant des gradients stochastiques et du bruit d'étiquetage, et (c) de l'étape d'entraînement. Notre théorie et nos expérimentations révèlent un comportement jusqu'alors négligé : un \( p \) positif aide en début d'entraînement en accentuant les directions à forte courbure et en accélérant la contraction du signal, tandis qu'un \( p \) légèrement négatif aide en fin d'entraînement en réallouant la force de mise à jour vers les directions à faible courbure qui contiennent encore des signaux d'entraînement utiles. Forts de cette observation, nous proposons DynMuon, une méthode efficace de mise en forme spectrale dynamique qui fait évoluer \( p \) de valeurs positives à légèrement négatives au cours de l'entraînement. Des expériences approfondies sur différentes tailles de modèles, architectures et configurations d'entraînement montrent que DynMuon atteint systématiquement une perte de validation plus faible que Muon, tout en nécessitant 10,6 à 26,5 % d'étapes en moins pour atteindre la même perte cible.
La tokenisation en sous-mots est un élément essentiel des grands modèles de langage modernes (LLMs), mais ses contributions spécifiques à l'efficacité d'entraînement et aux performances du modèle restent mal comprises. Dans ce travail, nous dissocions les effets de la tokenisation en sous-mots en les isolant au sein d'un pipeline de pré-entraînement contrôlé au niveau des octets. Nous formulons et testons des hypothèses selon diverses dimensions, notamment le débit d'échantillons, la mise à l'échelle du vocabulaire et l'a priori linguistique des frontières de sous-mots. En simulant ces effets dans un contexte au niveau des octets, nous affinons notre compréhension des raisons pour lesquelles les modèles à sous-mots surpassent les modèles bruts en octets, et nous offrons des perspectives pour améliorer le pré-entraînement des futurs modèles au niveau des octets et à sous-mots. Plus précisément, nos expériences soulignent le rôle crucial de l'augmentation du débit d'entraînement et de l'intégration des frontières de sous-mots en tant qu'a priori explicites ou biais inductifs.