Articles de recherche IA sélectionnés quotidiennement avec traductions
Nous présentons GLM-5, un modèle de fondation de nouvelle génération conçu pour faire évoluer le paradigme de la programmation intuitive vers l'ingénierie agentique. S'appuyant sur les capacités agentiques, de raisonnement et de codage (ARC) de son prédécesseur, GLM-5 adopte l'architecture DSA pour réduire significativement les coûts d'entraînement et d'inférence tout en maintenant une fidélité contextuelle étendue. Pour faire progresser l'alignement et l'autonomie du modèle, nous mettons en œuvre une nouvelle infrastructure d'apprentissage par renforcement asynchrone qui améliore radicalement l'efficacité post-entraînement en découplant la génération de l'entraînement. De plus, nous proposons de nouveaux algorithmes asynchrones d'apprentissage par renforcement pour agents, qui améliorent davantage la qualité de l'apprentissage par renforcement, permettant au modèle d'apprendre plus efficacement à partir d'interactions complexes et de long terme. Grâce à ces innovations, GLM-5 obtient des performances de pointe sur les principaux benchmarks ouverts. Plus crucial encore, GLM-5 démontre une capacité sans précédent dans les tâches de codage réelles, surpassant les références antérieures dans la gestion des défis de l'ingénierie logicielle de bout en bout. Le code, les modèles et des informations supplémentaires sont disponibles à l'adresse https://github.com/zai-org/GLM-5.
Les Compétences d'Agent sont des ensembles structurés de connaissances procédurales qui améliorent les agents LLM au moment de l'inférence. Malgré une adoption rapide, il n'existe pas de méthode standard pour mesurer si elles sont réellement utiles. Nous présentons SkillsBench, un benchmark de 86 tâches réparties dans 11 domaines, associées à des Compétences sélectionnées et des vérificateurs déterministes. Chaque tâche est évaluée dans trois conditions : sans Compétences, avec des Compétences sélectionnées, et avec des Compétences auto-générées. Nous testons 7 configurations d'agents-modèles sur 7 308 trajectoires. Les Compétences sélectionnées augmentent le taux de réussite moyen de 16,2 points de pourcentage (pp), mais les effets varient considérablement selon le domaine (+4,5 pp pour le Génie Logiciel à +51,9 pp pour la Santé) et 16 tâches sur 84 présentent des écarts négatifs. Les Compétences auto-générées n'apportent en moyenne aucun bénéfice, montrant que les modèles ne peuvent pas créer de manière fiable les connaissances procédurales dont ils bénéficient en les consommant. Les Compétences ciblées avec 2 à 3 modules surpassent la documentation exhaustive, et les modèles plus petits dotés de Compétences peuvent égaler les modèles plus grands sans elles.
Les autoencodeurs parcimonieux (SAE) sont apparus comme un outil prometteur pour interpréter les réseaux de neurones en décomposant leurs activations en ensembles parcimonieux de caractéristiques interprétables par l'homme. Des travaux récents ont introduit plusieurs variantes de SAE et les ont appliqués avec succès à des modèles de pointe. Malgré l'enthousiasme, un nombre croissant de résultats négatifs dans des tâches en aval remet en question la capacité des SAE à identifier des caractéristiques significatives. Pour étudier directement cette question, nous réalisons deux évaluations complémentaires. Sur une configuration synthétique avec des caractéristiques de vérité terrain connues, nous démontrons que les SAE ne retrouvent que 9 % des vraies caractéristiques malgré un taux de variance expliquée de 71 %, montrant qu'ils échouent dans leur tâche fondamentale même lorsque la reconstruction est performante. Pour évaluer les SAE sur des activations réelles, nous introduisons trois lignes de base qui contraignent les directions des caractéristiques des SAE ou leurs motifs d'activation à des valeurs aléatoires. Par des expériences approfondies sur plusieurs architectures de SAE, nous montrons que nos lignes de base égalent les SAE entièrement entraînés en interprétabilité (0,87 contre 0,90), en sondage parcimonieux (0,69 contre 0,72) et en édition causale (0,73 contre 0,72). Ensemble, ces résultats suggèrent que les SAE dans leur état actuel ne décomposent pas de manière fiable les mécanismes internes des modèles.
Alors que les agents de grands modèles linguistiques peuplent de plus en plus les environnements en réseau, une question fondamentale se pose : les sociétés d'agents d'intelligence artificielle (IA) subissent-elles des dynamiques de convergence similaires aux systèmes sociaux humains ? Moltbook représente récemment un scénario futur plausible dans lequel des agents autonomes participent à une société en ligne ouverte et en évolution continue. Nous présentons le premier diagnostic systémique à grande échelle de cette société d'agents IA. Au-delà de l'observation statique, nous introduisons un cadre diagnostique quantitatif pour l'évolution dynamique des sociétés d'agents IA, mesurant la stabilisation sémantique, le renouvellement lexical, l'inertie individuelle, la persistance d'influence et le consensus collectif. Notre analyse révèle un système en équilibre dynamique dans Moltbook : bien que les moyennes sémantiques globales se stabilisent rapidement, les agents individuels conservent une grande diversité et un renouvellement lexical persistant, défiant l'homogénéisation. Cependant, les agents présentent une forte inertie individuelle et une réponse adaptative minimale aux partenaires d'interaction, empêchant l'influence mutuelle et le consensus. Par conséquent, l'influence reste transitoire sans super-nœuds persistants, et la société ne parvient pas à développer des ancrages d'influence collective stables en raison de l'absence de mémoire sociale partagée. Ces résultats démontrent que l'échelle et la densité d'interaction seules sont insuffisantes pour induire une socialisation, fournissant des principes actionnables de conception et d'analyse pour les prochaines sociétés d'agents IA de nouvelle génération.
Les modèles d'incorporation de texte sont largement utilisés pour les tâches de similarité sémantique, notamment la recherche d'information, le clustering et la classification. Les modèles généralistes sont généralement entraînés selon des processus à une ou plusieurs étapes utilisant des fonctions de perte contrastive. Nous introduisons un nouveau régime d'entraînement qui combine les techniques de distillation de modèles avec une perte contrastive spécifique à la tâche pour produire des modèles d'incorporation compacts et performants. Nos résultats suggèrent que cette approche est plus efficace pour l'entraînement de petits modèles que les paradigmes d'entraînement purement contrastifs ou basés uniquement sur la distillation. Les scores de référence pour les modèles résultants, jina-embeddings-v5-text-small et jina-embeddings-v5-text-nano, dépassent ou égalent l'état de l'art pour les modèles de taille similaire. Les modèles jina-embeddings-v5-text prennent également en charge les textes longs (jusqu'à 32 000 tokens) dans de nombreuses langues, et génèrent des incorporations qui restent robustes face à la troncation et à la quantification binaire. Les poids des modèles sont publiquement disponibles, ce qui, nous l'espérons, inspirera de nouvelles avancées dans le développement des modèles d'incorporation.
Clawdbot est un agent d'IA personnel auto-hébergé utilisant des outils, doté d'un large espace d'action couvrant l'exécution locale et les flux de travail médiés par le web, ce qui soulève des préoccupations accrues en matière de sécurité dans des contextes ambigus ou sous pilotage adverse. Nous présentons une évaluation centrée sur les trajectoires de Clawdbot selon six dimensions de risque. Notre suite de tests échantillonne et adapte légèrement des scénarios issus de benchmarks antérieurs sur la sécurité des agents (notamment ATBench et LPS-Bench) et les complète par des cas conçus manuellement, spécifiquement adaptés à la surface d'outillage de Clawdbot. Nous enregistrons les trajectoires d'interaction complètes (messages, actions, arguments des appels d'outils, sorties) et évaluons la sécurité à l'aide d'un juge automatique de trajectoires (AgentDoG-Qwen3-4B) et d'une revue humaine. Sur 34 cas canoniques, nous observons un profil de sécurité non uniforme : les performances sont généralement cohérentes sur les tâches axées sur la fiabilité, tandis que la plupart des échecs surviennent face à une intention sous-spécifiée, des objectifs ouverts ou des invites d'échappement (jailbreak) apparemment bénignes, où des interprétations erronées mineures peuvent dégénérer en actions d'outil à impact plus élevé. Nous avons complété les résultats globaux par des études de cas représentatives et résumé les points communs de ces cas, analysant les vulnérabilités de sécurité et les modes de défaillance typiques que Clawdbot tend à déclencher en pratique.
Nous présentons ResearchGym, un benchmark et un environnement d'exécution pour évaluer des agents d'IA sur la recherche de bout en bout. Pour le concrétiser, nous réaffectons cinq articles de type « oral » et « spotlight » provenant de l'ICML, de l'ICLR et de l'ACL. À partir du dépôt de code de chaque article, nous conservons les jeux de données, le cadre d'évaluation et les implémentations de référence, mais nous retenons la méthode proposée dans l'article. Il en résulte cinq environnants de tâches conteneurisés comprenant au total 39 sous-tâches. Dans chaque environnement, les agents doivent proposer de nouvelles hypothèses, exécuter des expériences et tenter de surpasser de solides références humaines sur les métriques de l'article. Lors d'une évaluation contrôlée d'un agent utilisant GPT-5, nous observons un écart marqué entre les capacités et la fiabilité. L'agent n'améliore les références fournies par le dépôt que dans 1 évaluation sur 15 (6,7 %), avec une amélioration de 11,5 %, et ne termine en moyenne que 26,5 % des sous-tâches. Nous identifions des modes d'échec récurrents sur le long terme, notamment l'impatience, une mauvaise gestion du temps et des ressources, une confiance excessive dans des hypothèses faibles, des difficultés à coordonner des expériences parallèles et des limites strictes dues à la longueur du contexte. Pourtant, lors d'une seule exécution, l'agent dépasse la solution d'une tâche « spotlight » de l'ICML 2025, indiquant que les agents de pointe peuvent occasionnellement atteindre des performances à l'état de l'art, mais de manière peu fiable. Nous évaluons également des plateformes d'agents propriétaires, notamment Claude Code (Opus-4.5) et Codex (GPT-5.2), qui présentent un écart similaire. ResearchGym fournit une infrastructure pour l'évaluation systématique et l'analyse d'agents autonomes sur la recherche en boucle fermée.
Les modèles unifiés peuvent traiter à la fois la compréhension et la génération multimodales au sein d'une même architecture, mais ils fonctionnent généralement en une seule passe sans affiner itérativement leurs résultats. De nombreuses tâches multimodales, en particulier celles impliquant des compositions spatiales complexes, des objets multiples en interaction ou des instructions évolutives, nécessitent de décomposer les instructions, de vérifier les résultats intermédiaires et d'effectuer des corrections itératives. Si la mise à l'échelle au moment du test (TTS) a démontré que l'allocation de ressources de calcul supplémentaires pour un raisonnement itératif améliore considérablement les performances des modèles de langage, l'extension de ce paradigme aux modèles multimodaux unifiés reste un défi ouvert. Nous présentons UniT, un cadre pour la mise à l'échelle test-time avec chaîne de pensée multimodale, permettant à un modèle unifié unique de raisonner, vérifier et affiner sur plusieurs rounds. UniT combine une synthèse de données agentique, un entraînement de modèle unifié et une inférence flexible au moment du test pour susciter des comportements cognitifs incluant la vérification, la décomposition en sous-buts et la mémorisation de contenu. Nos principales conclusions sont : (1) les modèles unifiés entraînés sur de courtes trajectoires de raisonnement généralisent à des chaînes d'inférence plus longues lors du test ; (2) le raisonnement séquentiel par chaîne de pensée offre une stratégie TTS plus évolutive et économe en calcul que l'échantillonnage parallèle ; (3) l'entraînement sur des trajectoires de génération et d'édition améliore le raisonnement visuel hors distribution. Ces résultats établissent la mise à l'échelle test-time multimodale comme un paradigme efficace pour faire progresser à la fois la génération et la compréhension dans les modèles unifiés.
L'hypothèse de représentation platonicienne suggère que les représentations des réseaux de neuronaux convergent vers un modèle statistique commun de la réalité. Nous démontrons que les métriques existantes utilisées pour mesurer la similarité représentationnelle sont biaisées par l'échelle du réseau : l'augmentation de la profondeur ou de la largeur du modèle peut systématiquement gonfler les scores de similarité représentationnelle. Pour corriger ces effets, nous introduisons un cadre de calibration nulle basé sur les permutations qui transforme toute métrique de similarité représentationnelle en un score calibré avec des garanties statistiques. Nous réexaminons l'hypothèse de représentation platonicienne avec notre cadre de calibration, ce qui révèle une image nuancée : la convergence apparente rapportée par les mesures spectrales globales disparaît largement après calibration, tandis que la similarité des voisinages locaux, mais pas les distances locales, conserve un accord significatif entre les différentes modalités. Sur la base de ces résultats, nous proposons l'hypothèse de représentation aristotélicienne : les représentations dans les réseaux de neuronaux convergent vers des relations de voisinage locales partagées.
Les modèles prédictifs du monde qui simulent des observations futures sous contrôle explicite de la caméra sont fondamentaux pour l'IA interactive. Malgré des progrès rapides, les systèmes actuels manquent de persistance spatiale : ils ne parviennent pas à maintenir des structures de scène stables sur de longues trajectoires, hallucinant fréquemment des détails lorsque les caméras revisitent des emplacements précédemment observés. Nous identifions que cette dérive géométrique provient de la dépendance aux embeddings positionnels dans l'espace écran, qui entrent en conflit avec la géométrie projective requise pour la cohérence 3D. Nous présentons ViewRope, un encodage géométriquement conscient qui injecte les directions des rayons de la caméra directement dans les couches d'auto-attention des transformeurs vidéo. En paramétrisant l'attention avec la géométrie relative des rayons plutôt qu'avec la localité des pixels, ViewRope fournit un biais inductif natif au modèle pour récupérer un contenu 3D cohérent à travers les écarts temporels. Nous proposons en outre l'Attention Éparse Inter-Images Géométriquement Consciente, qui exploite ces indices géométriques pour traiter sélectivement les images historiques pertinentes, améliorant l'efficacité sans sacrifier la cohérence mémoire. Nous présentons également ViewBench, une suite de diagnostic mesurant la fidélité de fermeture de boucle et la dérive géométrique. Nos résultats démontrent que ViewRope améliore substantiellement la cohérence à long terme tout en réduisant les coûts computationnels.
L'entraînement des grands modèles de langage (LLM) repose presque exclusivement sur des optimiseurs adaptatifs denses avec des préconditionneurs de plus en plus sophistiqués. Nous remettons cela en question en démontrant que le masquage aléatoire des mises à jour des paramètres peut être très efficace, une variante masquée de RMSProp surpassant constamment les optimiseurs récents les plus performants. Notre analyse révèle que le masquage aléatoire induit une régularisation géométrique dépendante de la courbure qui lisse la trajectoire d'optimisation. Motivés par cette découverte, nous introduisons le masquage de gradient aligné sur le momentum (Magma), qui module les mises à jour masquées en utilisant l'alignement momentum-gradient. Des expériences approfondies de pré-entraînement de LLM montrent que Magma est un remplacement simple et direct pour les optimiseurs adaptatifs, apportant des gains constants avec une surcharge computationnelle négligeable. Notamment, pour la taille de modèle de 1 milliard de paramètres, Magma réduit la perplexité de plus de 19 % et 9 % par rapport à Adam et Muon, respectivement.
L'examen final de l'humanité (HLE) est devenu un benchmark largement utilisé pour évaluer les grands modèles de langage de pointe sur des questions difficiles et multidomaines. Cependant, des analyses menées par la communauté ont soulevé des préoccupations quant au fait qu'HLE contient un nombre non négligeable d'éléments bruités, ce qui peut biaiser les résultats d'évaluation et fausser les comparaisons entre modèles. Pour relever ce défi, nous présentons HLE-Verified, une version vérifiée et révisée d'HLE avec un protocole de vérification transparent et une taxonomie fine des erreurs. Notre construction suit un processus en deux étapes de validation et de correction aboutissant à un benchmark certifié. À l'Étape I, chaque élément subit une validation binaire du problème et de la réponse finale via un examen par des experts du domaine et des contre-vérifications assistées par modèle, produisant 641 éléments vérifiés. À l'Étape II, les éléments défectueux mais réparables sont révisés sous des contraintes strictes préservant l'intention d'évaluation originale, via des corrections doubles et indépendantes par des experts, un audit assisté par modèle et un arbitrage final, aboutissant à 1 170 éléments révisés et certifiés. Les 689 éléments restants sont publiés sous forme d'un ensemble incertain documenté, avec des sources d'incertitude explicites et des étiquettes d'expertise pour un affinage futur. Nous évaluons sept modèles de langage state-of-the-art sur HLE et HLE-Verified, observant un gain de précision absolu moyen de 7 à 10 points de pourcentage sur HLE-Verified. L'amélioration est particulièrement marquée sur les éléments où l'énoncé du problème original et/ou la réponse de référence sont erronés, avec des gains de 30 à 40 points de pourcentage. Nos analyses révèlent en outre une forte association entre la confiance du modèle et la présence d'erreurs dans l'énoncé du problème ou la réponse de référence, confirmant l'efficacité de nos révisions. Globalement, HLE-Verified améliore les évaluations de type HLE en réduisant le bruit d'annotation et en permettant une mesure plus fidèle des capacités des modèles. Les données sont disponibles à l'adresse : https://github.com/SKYLENAGE-AI/HLE-Verified
Les modèles de langage de grande taille (LLM) transforment le paradigme de programmation, connu sous le nom de "vibe coding", mais la synthèse de code algorithmiquement sophistiqué et robuste reste un défi critique. Stimuler les capacités de raisonnement profond des LLM est essentiel pour surmonter cet obstacle. Le Reinforcement Fine-Tuning (RFT) s'est imposé comme une stratégie prometteuse pour répondre à ce besoin. Cependant, la plupart des approches existantes négligent l'hétérogénéité de difficulté et de granularité inhérente aux cas de test, conduisant à une distribution déséquilibrée des signaux de récompense et par conséquent à des mises à jour de gradient biaisées durant l'entraînement. Pour résoudre ce problème, nous proposons le Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT construit systématiquement, pour chaque problème, une suite de tests à quatre niveaux (basique, intermédiaire, complexe, edge), offrant un paysage de difficulté contrôlé pour la conception de curriculum et l'évaluation. Crucialement, TAROT découple la progression du curriculum des scores de récompense bruts, permettant une évaluation conditionnée par les capacités et une sélection raisonnée parmi un portefeuille de politiques de curriculum plutôt qu'une composition fortuite de difficulté des cas de test. Cette conception favorise une optimisation stable et une acquisition de compétences plus efficace. Des résultats expérimentaux approfondis révèlent que le curriculum optimal pour le RFT en génération de code est étroitement lié aux capacités inhérentes du modèle : les modèles moins performants obtiennent de meilleurs gains avec une progression facile-difficile, tandis que les modèles plus compétents excellent avec un curriculum difficile-facile. TAROT fournit une méthode reproductible qui adapte la conception du curriculum aux capacités du modèle, améliorant ainsi constamment la correction fonctionnelle et la robustesse du code généré. Tout le code et les données sont publiés pour favoriser la reproductibilité et faire progresser la recherche communautaire sur https://github.com/deep-diver/TAROT.
La compression post-entraînement des modèles Transformer repose généralement sur la décomposition en valeurs singulières (SVD) tronquée. Cependant, l'imposition d'un unique sous-espace partagé peut dégrader la précision, même pour une compression modérée. L'apprentissage de dictionnaire creux offre une représentation plus flexible par union de sous-espaces, mais les approches existantes souffrent souvent de mises à jour itératives du dictionnaire et des coefficients. Nous proposons COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), un cadre de compression sans entraînement qui utilise un petit jeu de données d'étalonnage pour estimer une factorisation creuse des poids. COMPOT emploie des dictionnaires orthogonaux qui permettent des mises à jour de Procrustes en forme fermée pour le dictionnaire et un codage creux analytique en une seule étape pour les coefficients, éliminant ainsi l'optimisation itérative. Pour gérer l'hétérogénéité de la sensibilité des couches sous un budget de compression global, COMPOT introduit en outre une stratégie d'allocation dynamique en une passe qui redistue de manière adaptative les taux de compression par couche. Des expériences approfondies sur diverses architectures et tâches montrent que COMPOT offre constamment un compromis qualité-compression supérieur à des bases de référence solides de faible rang et creuses, tout en restant entièrement compatible avec la quantification post-entraînement pour une compression extrême. Le code est disponible {ici} : https://github.com/mts-ai/COMPOT.
Les modèles du monde nécessitent une compréhension relationnelle robuste pour étayer la prédiction, le raisonnement et le contrôle. Bien que les représentations centrées sur les objets fournissent une abstraction utile, elles ne suffisent pas à capturer les dynamiques dépendantes des interactions. Nous proposons donc C-JEPA, un modèle du monde simple et flexible centré sur les objets, qui étend la prédiction par embedding conjoint masqué des patchs d'image aux représentations centrées sur les objets. En appliquant un masquage au niveau des objets qui nécessite de déduire l'état d'un objet à partir des autres objets, C-JEPA induit des interventions latentes ayant des effets similaires au contrefactuel et empêche les solutions de raccourci, rendant le raisonnement interactionnel essentiel. Empiriquement, C-JEPA conduit à des gains constants en réponse à des questions visuelles, avec une amélioration absolue d'environ 20 % dans le raisonnement contrefactuel par rapport à la même architecture sans masquage au niveau des objets. Sur les tâches de contrôle d'agent, C-JEPA permet une planification nettement plus efficace en n'utilisant que 1 % des caractéristiques latentes d'entrée totales requises par les modèles du monde basés sur des patchs, tout en atteignant des performances comparables. Enfin, nous fournissons une analyse formelle démontrant que le masquage au niveau des objets induit un biais inductif causal via des interventions latentes. Notre code est disponible à l'adresse https://github.com/galilai-group/cjepa.
Les recherches actuelles sur les modèles multimodaux rencontrent un défi majeur : l'amélioration des capacités génératives se fait souvent au détriment de la compréhension, et inversement. Nous avons analysé ce compromis et identifié que la cause principale réside dans le conflit potentiel entre génération et compréhension, créant une dynamique compétitive au sein du modèle. Pour y remédier, nous proposons le cadre Reason-Reflect-Refine (R3). Cet algorithme innovant transforme la tâche de génération en une étape unique en un processus multi-étapes de "générer-comprendre-regénérer". En exploitant explicitement la capacité de compréhension du modèle pendant la génération, nous atténuons efficacement le dilemme d'optimisation, obtenant ainsi de meilleurs résultats génératifs et une capacité de compréhension améliorée liée au processus de génération. Cette approche offre des perspectives précises pour la conception de modèles multimodaux unifiés de nouvelle génération. Le code est disponible à l'adresse https://github.com/sen-ye/R3.
Les modèles de langage sont de plus en plus utilisés pour raisonner sur des contenus sur lesquels ils n'ont pas été entraînés, tels que de nouveaux documents, des connaissances évolutives et des données spécifiques à l'utilisateur. Une approche courante est la génération augmentée par retrieval (RAG), qui stocke des documents textuels externes (sous forme de segments) et ne récupère qu'un sous-ensemble pertinent au moment de l'inférence pour qu'un LLM puisse raisonner dessus. Cependant, cela entraîne une utilisation inefficace des calculs au moment du test (le LLM raisonne à plusieurs reprises sur les mêmes documents) ; de plus, la récupération de segments peut injecter un contexte non pertinent qui augmente la génération non fondée. Nous proposons un cadre d'apprentissage continu non paramétrique semblable à l'humain, où le modèle de base reste fixe, et l'apprentissage se fait en intégrant chaque nouvelle expérience dans un état de mémoire sémantique externe qui s'accumule et se consolide continuellement. Nous présentons Panini, qui réalise cela en représentant les documents comme des Espaces Sémantiques Génératifs (GSW) – un réseau de paires question-réponse (QA) conscient des entités et des événements, suffisant pour qu'un LLM reconstruise les situations vécues et extraie des connaissances latentes via des chaînes d'inférence ancrées dans le raisonnement sur le réseau. Étant donné une requête, Panini ne parcourt que le GSW continuellement mis à jour (et non les documents ou segments textuels), et récupère les chaînes d'inférence les plus probables. Sur six benchmarks de QA, Panini obtient les performances moyennes les plus élevées, 5 % à 7 % supérieures à celles d'autres bases de référence compétitives, tout en utilisant 2 à 30 fois moins de tokens de contexte-réponse, en prenant en charge des pipelines entièrement open source et en réduisant les réponses non fondées sur des requêtes non solubles triées sur le volet. Les résultats montrent qu'une structuration efficace et précise des expériences au moment de l'écriture – telle que réalisée par le cadre GSW – permet des gains d'efficacité et de fiabilité au moment de la lecture. Le code est disponible à l'adresse https://github.com/roychowdhuryresearch/gsw-memory.
Le web est jonché d'images, créées à l'origine pour une consommation humaine et désormais de plus en plus interprétées par des agents utilisant des modèles vision-langage (VLM). Ces agents prennent des décisions visuelles à grande échelle, décidant quoi cliquer, recommander ou acheter. Pourtant, nous connaissons peu la structure de leurs préférences visuelles. Nous présentons un cadre pour étudier ce phénomène en plaçant les VLM dans des tâches de choix basées sur des images contrôlées et en perturbant systématiquement leurs entrées. Notre idée clé est de traiter la fonction de décision de l'agent comme une utilité visuelle latente qui peut être inférée par les préférences révélées : des choix entre des images modifiées de manière systématique. En partant d'images courantes, comme des photos de produits, nous proposons des méthodes pour l'optimisation de l'invite visuelle, adaptant les méthodes d'optimisation textuelle pour proposer et appliquer itérativement des modifications visuellement plausibles à l'aide d'un modèle de génération d'images (par exemple, la composition, l'éclairage ou l'arrière-plan). Nous évaluons ensuite quelles modifications augmentent la probabilité de sélection. Grâce à des expériences à grande échelle sur des VLM de pointe, nous démontrons que des modifications optimisées modifient significativement les probabilités de choix dans des comparaisons directes. Nous développons un pipeline d'interprétabilité automatique pour expliquer ces préférences, en identifiant des thèmes visuels cohérents qui motivent la sélection. Nous soutenons que cette approche offre un moyen pratique et efficace de révéler des vulnérabilités visuelles, des problèmes de sécurité qui pourraient autrement être découverts implicitement dans des conditions réelles, soutenant ainsi un audit et une gouvernance plus proactifs des agents IA basés sur l'image.
Pour le déploiement de modèles de fondation, les praticiens ont un besoin croissant de lois d'échelle prescriptives : étant donné un budget de calcul pour le pré-entraînement, quelle précision en aval est atteignable avec les pratiques contemporaines de post-entraînement, et quelle est la stabilité de cette correspondance à mesure que le domaine évolue ? En utilisant des évaluations observationnelles à grande échelle avec 5 000 données observationnelles et 2 000 nouvelles données échantillonnées sur les performances des modèles, nous estimons les frontières de capacité, c'est-à-dire les quantiles conditionnels élevés des scores de référence en fonction du logarithme des FLOPs de pré-entraînement, via une régression quantile lissée avec une paramétrisation sigmoïde monotone et saturante. Nous validons la fiabilité temporelle en ajustant le modèle sur des générations antérieures de modèles et en évaluant sur des versions ultérieures. Sur diverses tâches, les frontières estimées sont majoritairement stables, à l'exception du raisonnement mathématique qui présente une frontière en progression constante dans le temps. Nous étendons ensuite notre approche pour analyser la saturation dépendante de la tâche et pour sonder les décalages liés à la contamination sur les tâches de raisonnement mathématique. Enfin, nous introduisons un algorithme efficace qui retrouve des frontières de données quasi complètes en utilisant environ 20 % du budget d'évaluation. Ensemble, notre travail publie le Proteus 2k, la dernière base de données d'évaluation des performances des modèles, et introduit une méthodologie pratique pour traduire les budgets de calcul en attentes de performance fiables et pour surveiller les décalages des frontières de capacité dans le temps.
L'apprentissage par renforcement (RL) a considérablement amélioré le raisonnement des grands modèles de langage, mais les méthodes existantes de réglage fin par RL reposent fortement sur des techniques heuristiques telles que la régularisation par entropie et la pondération pour maintenir la stabilité. En pratique, elles subissent souvent un effondrement des performances en phase avancée, conduisant à une dégradation de la qualité du raisonnement et à un apprentissage instable. Nous démontrons que l'amplitude des gradients de politique par token en RL est négativement corrélée à la probabilité du token et à l'entropie locale de la politique. Sur la base de ce résultat, nous prouvons que l'instabilité de l'apprentissage est pilotée par une infime fraction de tokens, environ 0,01 %, que nous nommons tokens parasites. Lorsque de tels tokens apparaissent dans des réponses correctes, ils contribuent peu au résultat du raisonnement mais héritent de la récompense complète au niveau de la séquence, conduisant à des mises à jour de gradient anormalement amplifiées. Motivés par cette observation, nous proposons l'Optimisation de Politique Sensible aux Tokens Parasites (STAPO) pour le raffinement de modèles à grande échelle, qui masque sélectivement ces mises à jour et renormalise la perte sur les tokens valides. Sur six benchmarks de raisonnement mathématique utilisant les modèles de base Qwen 1.7B, 8B et 14B, STAPO démontre constamment une stabilité d'entropie supérieure et obtient une amélioration moyenne des performances de 7,13 % par rapport à GRPO, 20-Entropy et JustRL.
Le découpage d'actions permet aux modèles Vision-Langage-Action (VLA) de fonctionner en temps réel, mais une exécution naïve par segments présente souvent des discontinuités aux limites des segments. Le découpage temps réel (RTC) atténue ce problème mais reste externe à la politique, entraînant des commutations multimodales parasites et des trajectoires intrinsèquement non lisses. Nous proposons Legato, une méthode de continuation à l’entraînement pour les politiques VLA par flux basées sur des segments d’actions. Concrètement, Legato initialise le débruitage à partir d’un mélange, façonné par un planning, d’actions connues et de bruit, exposant ainsi le modèle à une information actionnelle partielle. De plus, Legato remodelle la dynamique de flux apprise pour garantir la cohérence du processus de débruitage entre l’entraînement et l’inférence sous guidage pas à pas. Legato utilise également un planning conditionnel aléatoire pendant l’entraînement pour supporter des délais d’inférence variables et atteindre une fluidité contrôlable. Empiriquement, Legato génère des trajectoires plus lisses et réduit les commutations multimodales parasites lors de l’exécution, conduisant à moins d’hésitation et à un temps d’accomplissement de tâche plus court. Des expériences approfondies en conditions réelles montrent que Legato surpasse constamment RTC sur cinq tâches de manipulation, avec une amélioration d’environ 10 % à la fois en fluidité de trajectoire et en temps d’exécution.
Les systèmes multi-agents (SMA) propulsés par les grands modèles de langage ont débloqué un raisonnement collaboratif avancé, mais restent entravés par l'inefficacité de la communication textuelle discrète, qui impose une surcharge d'exécution significative et une perte de quantification de l'information. Bien que le transfert d'état latent offre une alternative à haut débit, les approches existantes supposent soit des architectures homogènes émetteur-récepteur, soit reposent sur des traducteurs appris spécifiques à chaque paire, limitant l'évolutivité et la modularité entre des familles de modèles hétérogènes aux variétés disjointes. Dans ce travail, nous proposons le Vision Wormhole, un nouveau cadre qui réutilise l'interface visuelle des modèles vision-langage (VLM) pour permettre une communication indépendante du modèle et sans texte. En introduisant un Codec Visuel Universel, nous cartographions les traces de raisonnement hétérogènes dans un espace latent continu partagé et les injectons directement dans le chemin visuel du récepteur, utilisant ainsi efficacement l'encodeur visuel comme un port universel pour la télépathie inter-agents. Notre cadre adopte une topologie en étoile pour réduire la complexité d'alignement par paire de O(N²) à O(N) et tire parti d'un objectif de distillation enseignant-élève sans étiquette pour aligner le canal visuel haute vitesse avec les schémas de raisonnement robustes de la voie textuelle. Des expériences approfondies sur diverses familles de modèles hétérogènes (par exemple, Qwen-VL, Gemma) démontrent que le Vision Wormhole réduit le temps d'exécution réel de bout en bout dans des comparaisons contrôlées tout en maintenant une fidélité de raisonnement comparable aux SMA textuels standard. Le code est disponible à l'adresse https://github.com/xz-liu/heterogeneous-latent-mas
Bien que les grands modèles de langage (LLM) démontrent des connaissances médicales de niveau expert, l'alignement de leurs réponses ouvertes avec les préférences fines des cliniciens reste un défi. Les méthodes existantes reposent souvent sur des objectifs grossiers ou des évaluateurs automatisés peu fiables, faiblement ancrés dans les recommandations professionnelles. Nous proposons un cadre en deux étapes pour combler cette lacune. Premièrement, nous présentons HealthRubrics, un jeu de données de 7 034 exemples de préférences vérifiées par des médecins, dans lesquels des cliniciens améliorent des grilles d'évaluation rédigées par des LLM pour répondre à des standards médicaux rigoureux. Deuxièmement, nous distillons ces grilles en HealthPrinciples : 119 principes largement réutilisables, ancrés cliniquement et organisés par dimensions cliniques, permettant une supervision scalable au-delà de l'annotation manuelle. Nous utilisons HealthPrinciples pour (1) un alignement hors ligne en synthétisant des grilles pour des requêtes non labellisées et (2) un outil à l'inférence pour une auto-révision guidée. Un modèle de 30 milliards de paramètres n'activant que 3 milliards de paramètres à l'inférence, entraîné avec notre cadre, atteint 33,4 % sur HealthBench-Hard, surpassant des modèles bien plus grands comme Deepseek-R1 et o3, établissant ainsi une base de référence économe en ressources pour l'alignement clinique.
Le traitement efficace de contextes longs reste un défi crucial pour les grands modèles de langage (LLM) contemporains, particulièrement dans des environnements à ressources limitées. Les architectures de compression douce promettent d'étendre la longueur de contexte effective en remplaçant de longues séquences de tokens par des ensembles plus réduits de tokens compressés appris. Pourtant, les limites de la compressibilité – et le moment où la compression commence à effacer le contenu pertinent pour la tâche – restent insuffisamment explorées. Dans cet article, nous définissons le débordement de tokens comme un régime dans lequel les représentations compressées ne contiennent plus suffisamment d'informations pour répondre à une requête donnée, et nous proposons une méthodologie pour le caractériser et le détecter. Dans le cadre de la compression douce xRAG, nous constatons que les statistiques de saturation indépendantes de la requête séparent de manière fiable les représentations de tokens compressés des non compressés, fournissant un outil pratique pour identifier les tokens compressés mais montrant une capacité limitée de détection de débordement. Des classifieurs sonde légers appliqués aux représentations xRAG de la requête et du contexte détectent le débordement avec une AUC-ROC moyenne de 0,72 sur les jeux de données HotpotQA, SQuADv2 et TriviaQA, démontrant que l'intégration d'informations de la requête améliore les performances de détection. Ces résultats marquent une avancée des diagnostics indépendants de la requête vers des détecteurs sensibles à la requête, permettant un pré-filtrage peu coûteux en amont du LLM pour atténuer les erreurs induites par la compression.
Les grands modèles de langage (LLM) continuent de rencontrer des difficultés face à des questions exigeant des connaissances approfondies qui nécessitent des informations actualisées et un raisonnement à multiples étapes. L'enrichissement des LLM avec des connaissances externes hybrides, telles que du texte non structuré et des graphes de connaissances structurés, offre une alternative prometteuse au pré-entraînement continu coûteux. De ce fait, l'évaluation fiable de leurs capacités de recherche et de raisonnement devient cruciale. Cependant, de nombreux benchmarks existants se recoupent de plus en plus avec les données de pré-entraînement des LLM, ce qui signifie que les réponses ou les connaissances de support peuvent déjà être encodées dans les paramètres du modèle, rendant difficile la distinction entre une véritable recherche/raisonnement et un rappel paramétrique. Nous présentons HybridRAG-Bench, un cadre pour construire des benchmarks afin d'évaluer le raisonnement à multiples étapes et intensif en recherche sur des connaissances hybrides. HybridRAG-Bench associe automatiquement des représentations sous forme de texte non structuré et de graphes de connaissances structurés, dérivées d'articles scientifiques récents sur arXiv, et génère des paires question-réponse exigeantes en connaissances, fondées sur des chemins de raisonnement explicites. Le cadre prend en charge une sélection flexible du domaine et de la période, permettant une évaluation personnalisable et consciente de la contamination au fur et à mesure que les modèles et les connaissances évoluent. Des expériences menées dans trois domaines (intelligence artificielle, gouvernance et politiques, et bio-informatique) démontrent qu'HybridRAG-Bench récompense une véritable recherche et un véritable raisonnement plutôt qu'un rappel paramétrique, offrant ainsi un banc d'essai fondé pour évaluer les systèmes de raisonnement augmentés par des connaissances hybrides. Nous publions notre code et nos données sur github.com/junhongmit/HybridRAG-Bench.