Articles de recherche IA sélectionnés quotidiennement avec traductions
La génération en peu d'étapes constitue un objectif de longue date, les méthodes récentes de génération en une étape comme MeanFlow obtenant des résultats remarquables. Les recherches existantes sur MeanFlow se concentrent principalement sur la génération classe-vers-image. Cependant, une direction intuitive mais inexplorée consiste à étendre la condition d'étiquettes de classe fixes à des entrées textuelles flexibles, permettant une création de contenu plus riche. Comparées aux étiquettes de classe limitées, les conditions textuelles posent de plus grands défis à la capacité de compréhension du modèle, nécessitant l'intégration efficace de puissants encodeurs textuels dans le cadre MeanFlow. Étonnamment, bien que l'incorporation de conditions textuelles semble simple, nous constatons que l'intégration d'encodeurs textuels puissants basés sur des LLM en utilisant des stratégies d'entraînement conventionnelles donne des performances insatisfaisantes. Pour identifier la cause sous-jacente, nous menons des analyses détaillées et révélons qu'en raison du nombre extrêmement limité d'étapes de raffinement dans la génération MeanFlow, comme une seule étape, les représentations des caractéristiques textuelles doivent posséder une discriminabilité suffisamment élevée. Cela explique également pourquoi les caractéristiques de classe discrètes et facilement distinguables fonctionnent bien dans le cadre MeanFlow. Guidés par ces observations, nous utilisons un puissant encodeur textuel basé sur un LLM, validé pour posséder les propriétés sémantiques requises, et adaptons le processus de génération MeanFlow à ce cadre, permettant pour la première fois une synthèse efficace conditionnée par le texte. De plus, nous validons notre approche sur le modèle de diffusion largement utilisé, démontrant des améliorations significatives des performances de génération. Nous espérons que ce travail fournira une référence générale et pratique pour les futures recherches sur la génération MeanFlow conditionnée par le texte. Le code est disponible à l'adresse https://github.com/AMAP-ML/EMF.
Le raisonnement par chaîne de pensée (CoT) est devenu un puissant moteur de prédiction de trajectoire pour la conduite autonome basée sur les VLA, mais sa nature autorégressive impose un coût de latence prohibitif pour un déploiement en temps réel. Les méthodes de CoT latent tentent de combler cet écart en compressant le raisonnement dans des états cachés continus, mais restent systématiquement inférieures à leurs homologues explicites. Nous suggérons que cela est dû à des représentations latentes purement linguistiques qui compressent une abstraction symbolique du monde, plutôt que les dynamiques causales qui régissent réellement la conduite. Ainsi, nous présentons OneVL, un framework unifié VLA et World Model qui achemine le raisonnement via des tokens latents compacts supervisés par des décodeurs auxiliaires doubles. Outre un décodeur linguistique qui reconstruit le CoT textuel, nous introduisons un décodeur de modèle du monde visuel qui prédit les tokens des images futures, forçant l'espace latent à internaliser les dynamiques causales de la géométrie routière, du mouvement des agents et des changements environnementaux. Un pipeline d'entraînement en trois étapes aligne progressivement ces latents avec les objectifs de trajectoire, linguistiques et visuels, garantissant une optimisation conjointe stable. Lors de l'inférence, les décodeurs auxiliaires sont abandonnés et tous les tokens latents sont préremplis en une seule passe parallèle, égalant la vitesse de la prédiction réponse seule. Sur quatre benchmarks, OneVL devient la première méthode de CoT latent à surpasser le CoT explicite, offrant une précision de pointe avec la latence d'une prédiction réponse seule, et fournissant une preuve directe qu'une compression plus serrée, lorsqu'elle est guidée à la fois par une supervision linguistique et par un modèle du monde, produit des représentations plus généralisables qu'un raisonnement verbeux token par token. Page du projet : https://xiaomi-embodied-intelligence.github.io/OneVL
Les grands modèles de langage sont de plus en plus appelés à servir d'agents polyvalents interagissant avec des environnements externes ayant un état. Le Model Context Protocol (MCP) et les compétences agentes élargies offrent une interface unifiée pour connecter les agents à des services réels évolutifs, mais l'entraînement d'agents robustes reste limité par le manque d'environnements réalistes et de mécanismes principiés pour l'apprentissage continu. Dans cet article, nous présentons Agent-World, une arène d'entraînement auto-évolutive pour faire progresser l'intelligence agente générale grâce à des environnements évolutifs. Agent-World comporte deux composantes principales : (1) la Découverte Autonome d'Environnements-Tâches, qui explore de manière autonome des bases de données thématiques et des écosystèmes d'outils exécutables à partir de milliers de thèmes environnementaux réels, et synthétise des tâches vérifiables avec une difficulté contrôlable ; et (2) l'Entraînement Continu Auto-Évolutif des Agents, qui combine l'apprentissage par renforcement multi-environnements avec une arène agente auto-évolutive qui identifie automatiquement les lacunes capacitives via la synthèse dynamique de tâches et pilote l'apprentissage ciblé, permettant la co-évolution des politiques d'agents et des environnements. Sur 23 benchmarks agents exigeants, Agent-World-8B et 14B surpassent constamment les modèles propriétaires robustes et les bases de référence de mise à l'échelle des environnements. Des analyses plus poussées révèlent des tendances d'échelle liées à la diversité des environnements et aux cycles d'auto-évolution, offrant des perspectives pour construire une intelligence agente générale.
Le développement de jeu se situe à l'intersection de la conception créative et de l'ingénierie logicielle complexe, exigeant l'orchestration conjointe de moteurs de jeu, de boucles en temps réel et d'états étroitement couplés à travers de nombreux fichiers. Si les modèles de langage étendus (LLM) et les agents de code résolvent désormais facilement des tâches de programmation isolées, ils échouent systématiquement lorsqu'on leur demande de produire un jeu entièrement jouable à partir d'une conception de haut niveau, succombant sous les incohérences inter-fichiers, le câblage défaillant des scènes et l'incohérence logique. Nous comblons cette lacune avec OpenGame, le premier cadre agentiel open-source explicitement conçu pour la création de jeux web de bout en bout. Son cœur repose sur la Compétence Jeu, une capacité réutilisable et évolutive composée d'une Compétence Modèle qui développe une bibliothèque de squelettes de projet par l'expérience et d'une Compétence Débogage qui maintient un protocole vivant de correctifs vérifiés - permettant ensemble à l'agent d'échafauder des architectures stables et de réparer systématiquement les erreurs d'intégration plutôt que de corriger des boges syntaxiques isolés. Ce cadre est alimenté par GameCoder-27B, un LLM de code spécialisé dans la maîtrise des moteurs de jeu via un pipeline en trois étapes : pré-entraînement continu, réglage fin supervisé et apprentissage par renforcement ancré dans l'exécution. Comme la vérification de la jouabilité interactive est fondamentalement plus difficile que la vérification de code statique, nous introduisons en outre OpenGame-Bench, un pipeline d'évaluation qui note la génération agentielle de jeux selon la Santé de la Construction, l'Utilisabilité Visuelle et l'Alignement sur l'Intention via une exécution headless et un jugement par VLM. Sur 150 prompts de jeu diversifiés, OpenGame établit un nouvel état de l'art. Nous espérons qu'OpenGame poussera les agents de code au-delà des problèmes discrets d'ingénierie logicielle et vers la construction d'applications interactives complexes du monde réel. Notre cadre sera entièrement open-source.
Les modèles de monde vidéo ont obtenu un succès remarquable dans la simulation des dynamiques environnementales en réponse aux actions des utilisateurs ou des agents. Ils sont conçus comme des modèles de génération vidéo conditionnés par les actions, prenant en entrée les images historiques et les actions actuelles pour prédire les images futures. Cependant, la plupart des approches existantes se limitent à des scénarios à agent unique et ne parviennent pas à capturer les interactions complexes inhérentes aux systèmes multi-agents du monde réel. Nous présentons MultiWorld, un cadre unifié pour la modélisation de monde multi-agents et multi-vues permettant un contrôle précis de plusieurs agents tout en maintenant la cohérence multi-vue. Nous introduisons le Module de Condition Multi-Agents pour atteindre une contrôlabilité multi-agents précise, et l'Encodeur d'État Global pour assurer des observations cohérentes entre les différentes vues. MultiWorld supporte une mise à l'échelle flexible du nombre d'agents et de vues, et synthétise les différentes vues en parallèle pour une haute efficacité. Les expériences sur des environnements de jeu multijoueurs et des tâches de manipulation multi-robots démontrent que MultiWorld surpasse les méthodes de référence en fidélité vidéo, capacité de suivi des actions et cohérence multi-vue. Page du projet : https://multi-world.github.io/
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) a démontré une efficacité remarquable pour améliorer les capacités de raisonnement des grands modèles linguistiques. Alors que les modèles évoluent vers des architectures multimodal natives, l'extension du RLVR à la compréhension vidéo devient de plus en plus importante mais reste largement inexplorée, en raison de la diversité des types de tâches vidéo, de la surcharge computationnelle liée au décodage et au prétraitement répétés d'entrées visuelles de haute dimension, et de la difficulté d'une évaluation reproductible face à de nombreux hyperparamètres sensibles. Les frameworks open-source existants pour l'entraînement par RL fournissent une infrastructure solide pour les scénarios texte et image, mais manquent d'optimisations systématiques adaptées à la modalité vidéo. Dans ce travail, nous présentons EasyVideoR1, un framework complet et efficace d'apprentissage par renforcement spécialement conçu pour entraîner de grands modèles vision-langage sur des tâches de compréhension vidéo. EasyVideoR1 apporte les contributions suivantes : (1) un pipeline complet d'entraînement RL pour la vidéo avec prétraitement hors ligne et mise en cache des tenseurs, éliminant le décodage vidéo redondant et permettant une amélioration du débit d'un facteur 1,47 ; (2) un système de récompense complet et conscient de la tâche, couvrant 11 types distincts de problèmes vidéo et image avec un routage unifié et une extension modulaire ; (3) un paradigme d'entraînement mixte sur données hors ligne et en ligne qui combine des trajectoires de haute qualité sélectionnées avec une exploration sur la politique, bénéficiant à l'apprentissage de tâches plus difficiles ; (4) un entraînement conjoint image-vidéo avec des budgets en pixels configurables indépendamment, permettant aux deux modalités de se renforcer mutuellement ; et (5) un framework d'évaluation asynchrone multi-benchmarks couvrant 22 benchmarks principaux de compréhension vidéo, avec une précision reproduite étroitement alignée sur les scores officiellement rapportés.
Les grands modèles de langage sont généralement affinés par post-formation via un apprentissage supervisé (SFT) et un apprentissage par renforcement (RL), mais unifier efficacement l'injection de connaissances avec une généralisation robuste reste difficile. Dans ce travail, nous proposons une analyse de la dynamique d'apprentissage montrant que le SFT peut être interprété comme un cas particulier d'optimisation par gradient de stratégie avec une récompense implicite extrêmement sparse et une pondération inverse-probabilité instable, conduisant ensemble à une dépendance unidirectionnelle, un effondrement de l'entropie et une explosion du gradient. Motivés par ce diagnostic, nous proposons le *Group Fine-Tuning* (GFT), un cadre de post-formation unifié qui résout ces limitations intrinsèques via deux mécanismes : le *Group Advantage Learning*, qui construit des groupes de réponses diversifiés et en dérive une supervision contrastive normalisée pour atténuer la sparsité des récompenses, et la *Dynamic Coefficient Rectification*, qui borne adaptativement les poids inverse-probabilité pour stabiliser l'optimisation tout en préservant l'injection efficace de connaissances. Les expériences démontrent que GFT surpasse constamment les méthodes basées sur SFT et produit des politiques qui s'intègrent plus harmonieusement avec l'entraînement RL ultérieur.
Les grands modèles de langage évoluent rapidement en agents de codage interactifs capables de réaliser du développement web de bout en bout. Pourtant, les benchmarks existants n'évaluent que des aspects restreints de cette capacité, généralement la génération conditionnée par du texte avec des métriques de correction statique, laissant la fidélité visuelle, la qualité des interactions et le raisonnement au niveau de la base de code largement non mesurés. Nous présentons WebCompass, un benchmark multimodal qui fournit une évaluation unifiée du cycle de vie des capacités en ingénierie web. Conscient que le codage web réel est un cycle itératif de génération, d'édition et de correction, WebCompass couvre trois modalités d'entrée (texte, image, vidéo) et trois types de tâches (génération, édition, correction), produisant sept catégories de tâches qui reflètent les workflows professionnels. Grâce à un pipeline multi-étapes intégrant l'humain, nous constituons des instances couvrant 15 domaines de génération, 16 types d'opérations d'édition et 11 types de défauts de correction, chacun annoté aux niveaux Facile/Moyen/Difficile. Pour l'évaluation, nous adoptons un protocole LLM-comme-Juge guidé par une checklist pour l'édition et la correction, et proposons un nouveau paradigme Agent-comme-Juge pour la génération. Celui-ci exécute de manière autonome les sites web générés dans un navigateur réel, explore les comportements interactifs via le Model Context Protocol (MCP) et synthétise itérativement des cas de test ciblés, se rapprochant ainsi des tests d'acceptation humains. Nous évaluons des modèles propriétaires et open-source représentatifs et observons que : (1) les modèles propriétaires restent nettement plus performants et équilibrés ; (2) l'édition et la correction présentent des profils de difficulté distincts, la correction préservant mieux l'interactivité mais restant difficile au niveau de l'exécution ; (3) l'esthétique est le goulot d'étranglement le plus persistant, surtout pour les modèles open-source ; et (4) le choix du framework affecte sensiblement les résultats, Vue étant constamment difficile tandis que React et Vanilla/HTML performent mieux selon le type de tâche.
La construction d'environnements pour l'entraînement et l'évaluation d'agents de type "griffe" reste un processus manuel, très consommateur de ressources humaines et qui ne passe pas à l'échelle. Nous soutenons que ce qui est nécessaire n'est pas seulement un jeu de données, mais un pipeline automatisé capable de générer à la demande des environnements diversifiés et vérifiés. Dans cette optique, nous présentons ClawEnvKit, un pipeline de génération autonome qui matérialise ce formalisme à partir de descriptions en langage naturel. Le pipeline comprend trois modules : (1) un analyseur qui extrait des paramètres de génération structurés depuis une entrée en langage naturel ; (2) un générateur qui produit la spécification de la tâche, l'interface d'outil et la configuration de notation ; et (3) un validateur qui impose la faisabilité, la diversité, la validité structurelle et la cohérence interne parmi les environnements générés. En utilisant ClawEnvKit, nous construisons Auto-ClawEval, le premier benchmark à grande échelle pour agents de type griffe, comprenant 1 040 environnements répartis en 24 catégories. Empiriquement, Auto-ClawEval égale ou dépasse les environnements créés manuellement en termes de cohérence et de clarté, pour un coût 13 800 fois inférieur. Évalué sur 4 familles de modèles et 8 frameworks d'exécution d'agents, nous constatons que l'ingénierie des *harness* améliore les performances jusqu'à 15,7 points de pourcentage par rapport à une ligne de base ReAct nue, que le taux de réussite reste le principal axe de variation sans qu'aucun modèle ne sature le benchmark, et que la génération automatisée permet une évaluation à une échelle jusque-là irréalisable. Au-delà du benchmarking statique, ClawEnvKit permet l'évaluation en temps réel : les utilisateurs décrivent une capacité souhaitée en langage naturel et obtiennent un environnement vérifié à la demande, transformant l'évaluation en un processus continu et piloté par l'utilisateur. Le même mécanisme sert de générateur d'environnements d'entraînement à la demande, produisant des distributions de tâches qui s'adaptent aux faiblesses actuelles d'un agent plutôt que d'être limitées par les journaux d'utilisation existants.
Les grands modèles de langage ont réalisé des progrès significatifs en raisonnement grâce à l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Cependant, à mesure que les capacités des modèles augmentent, la construction de signaux de récompense de haute qualité devient de plus en plus difficile, rendant essentielle la compréhension des conditions de succès du RLVR sous des formes de supervision plus faibles. Nous menons une étude empirique systématique couvrant diverses familles de modèles et domaines de raisonnement sous trois régimes de supervision faible : données rares, récompenses bruitées et récompenses proxies auto-supervisées. Nous constatons que la généralisation est régie par la dynamique de saturation de la récompense d'entraînement : les modèles qui généralisent présentent une phase pré-saturation prolongée durant laquelle la récompense d'entraînement et les performances en aval progressent conjointement, tandis que les modèles qui se saturent rapidement mémorisent plutôt qu'ils n'apprennent. Nous identifions la fidélité du raisonnement, définie comme la mesure dans laquelle les étapes intermédiaires étayent logiquement la réponse finale, comme la propriété pré-RL qui prédit le régime dans lequel un modèle se situe, alors que la diversité des sorties seule n'est pas informative. Motivés par ces résultats, nous démêlons les contributions du pré-entraînement continu et du fine-tuning supervisé, constatant que le SFT sur des traces de raisonnement explicites est nécessaire pour la généralisation sous supervision faible, tandis que le pré-entraînement continu sur des données du domaine amplifie l'effet. Appliquées conjointement à Llama3.2-3B-Base, ces interventions permettent une généralisation dans les trois scénarios où le modèle de base échouait précédemment.
Alors que les capacités des agents autonomes ne cessent de s'étendre, ceux-ci sont de plus en plus aptes à accomplir des tâches spécialisées via des compétences externes prêtes à l'emploi. Pourtant, les benchmarks actuels testent principalement si les modèles peuvent utiliser des compétences fournies, sans évaluer s'ils sont capables de découvrir des compétences à partir de l'expérience, de les réparer après un échec et de maintenir une bibliothèque cohérente dans le temps. Nous présentons SkillFlow, un benchmark de 166 tâches réparties en 20 familles, où la construction des tâches au sein de chaque famille suit un Flux d'Exécution Indépendant du Domaine (DAEF) qui définit un cadre de workflow pour l'agent, permettant à ces tâches de partager un workflow cohérent. Les agents sont évalués selon un protocole d'Apprentissage Continu Agentique dans lequel ils débutent sans compétences, résolvent des tâches séquentiellement au sein de chaque famille, externalisent les enseignements via des correctifs de compétences guidés par des trajectoires et des rubriques, et propagent la bibliothèque mise à jour. Les expériences révèlent un écart substantiel de capacités. Pour Claude Opus 4.6, l'évolution continue des compétences améliore le taux de réussite des tâches de 62,65 % à 71,08 % (+8,43 points). Cependant, une utilisation intensive des compétences n'implique pas nécessairement une utilité élevée : Kimi K2.5 ne gagne que +0,60 point malgré une utilisation des compétences de 66,87 %, tandis que Qwen-Coder-Next n'atteint qu'un taux d'accomplissement des tâches de 44,58 % et régresse même par rapport au paramètre de base. SkillFlow contribue un banc d'essai structuré pour cette orientation et une analyse empirique approfondie de la découverte, de la correction, du transfert des compétences et de leurs modes d'échec dans un contexte d'évaluation continue.
La fusion d'adaptateurs LoRA entraînés séparément est une alternative pratique à l'apprentissage multitâche conjoint, mais elle nuit souvent aux performances. Les méthodes existantes traitent généralement la mise à jour LoRA ΔW = BA comme un objet unique et ne distinguent pas les deux matrices LoRA. Nous montrons que la principale source d'interférence lors de la fusion LoRA provient de la matrice de sortie B. D'une tâche à l'autre, B réutilise un petit ensemble de directions partagées, tandis que A reste bien plus spécifique à chaque tâche. Par conséquent, l'adaptateur fusionné surestime ces directions partagées et les informations spécifiques aux tâches sont perdues. Nous proposons Pico (Calibrage pré-fusion des interférences dans l'espace de sortie), une méthode sans données qui calibre B avant la fusion en réduisant l'échelle des directions sur-partagées, puis en remettant à l'échelle la mise à jour fusionnée. Pico s'intègre directement aux méthodes de fusion existantes comme Task Arithmetic, TIES et TSV-M. Sur huit benchmarks différents couvrant les domaines des mathématiques, de la programmation, de la finance et de la médecine, Pico améliore la précision moyenne de 3,4 à 8,3 points par rapport à la méthode de base correspondante et obtient les meilleures performances moyennes globales. Pico permet également aux adaptateurs fusionnés de surpasser le LoRA entraîné avec toutes les données des tâches. Ces résultats montrent que la fusion LoRA fonctionne mieux lorsque les deux matrices LoRA sont traitées séparément.
La distillation en-ligne (OPD) est un paradigme de plus en plus important pour le post-entraînement des modèles de langage. Cependant, nous identifions une loi d'échelle pervasive de la mauvaise calibration : bien que l'OPD améliore efficacement la précision sur les tâches, elle piège systématiquement les modèles dans un sévère excès de confiance. Nous attribuons cet échec à un déficit informationnel : la supervision de l'enseignant est formée à partir d'un contexte privilégié disponible pendant l'entraînement, tandis que le modèle déployé doit évaluer sa confiance en utilisant uniquement les informations disponibles au moment du déploiement. Nous formalisons théoriquement cette perspective, en montrant que la probabilité de succès conditionnelle à l'enseignant n'est généralement pas une cible valide pour la confiance au déploiement, et qu'un contexte privilégié utile induit un effondrement de l'entropie et un biais d'optimisme systématique. Pour y remédier, nous proposons un cadre OPD sensible à la calibration, CaOPD, qui estime une confiance empirique à partir des déroulements du modèle, remplace la confiance auto-déclarée par cette cible ancrée dans l'étudiant, et distille la réponse révisée via le même pipeline d'auto-distillation. Les expériences menées sur divers modèles et domaines montrent que CaOPD atteint une calibration Pareto-optimale tout en maintenant des capacités compétitives, avec une généralisation robuste dans des scénarios hors-distribution et d'apprentissage continu. Nos résultats soulignent que la distillation des capacités n'implique pas une confiance calibrée, et que la confiance doit être traitée comme un objectif essentiel dans le post-entraînement. Code : https://github.com/SalesforceAIResearch/CaOPD
Les modèles vision-langue démontrent des capacités remarquables mais peinent souvent avec le raisonnement compositionnel, présentant des vulnérabilités concernant l'ordre des mots et la liaison des attributs. Cette limitation découle d'une pénurie d'échantillons informatifs nécessaires pour différencier les variations sémantiques subtiles lors du pré-entraînement contrastif. Bien que l'extraction d'exemples négatifs difficiles offre une solution prometteuse, les méthodes existantes manquent de mécanismes explicites pour dicter quels éléments linguistiques subissent une modification. Plutôt que de concevoir des architectures génératives, cette étude établit la concrétude lexicale comme un déterminant fondamental de l'efficacité des échantillons négatifs. Modifier les termes très concrets génère des discordances structurelles et visuelles plus prononcées, fournissant un signal d'apprentissage substantiellement plus fort. En s'appuyant sur ce principe, ConcretePlant est proposé pour isoler et manipuler systématiquement des concepts ancrés dans la perception. Des analyses de l'InfoNCE révèlent également un déséquilibre sévère des gradients, où les paires facilement distinguables submergent disproportionnément le processus d'optimisation et restreignent la bande passante disponible pour un apprentissage nuancé. Pour résoudre cette dégradation, la fonction de perte Cement est formulée en utilisant une approche à base de marge. En corrélant les scores psycholinguistiques avec la difficulté des échantillons, cet objectif calibre dynamiquement la pénalisation appliquée aux paires d'entraînement individuelles. Des évaluations complètes étayent ces affirmations théoriques. Le cadre intégré, désigné sous le nom de Slipform, atteint une précision de pointe sur divers benchmarks d'évaluation compositionnelle, la recherche cross-modale générale, et le sondage linéaire à étiquette unique et multiple.
Les agents informatiques ont rapidement progressé dans l'exécution de tâches réelles telles que la navigation web, l'automatisation de bureau et l'interaction logicielle, surpassant dans certains cas les performances humaines. Pourtant, même lorsque la tâche et le modèle restent inchangés, un agent qui réussit une fois peut échouer lors d'une exécution répétée de la même tâche. Cela soulève une question fondamentale : si un agent peut accomplir une tâche une fois, qu'est-ce qui l'empêche de le faire de manière fiable ? Dans ce travail, nous étudions les sources d'instabilité des agents informatiques à travers trois facteurs : la stochasticité durant l'exécution, l'ambiguïté dans la spécification des tâches, et la variabilité du comportement de l'agent. Nous analysons ces facteurs sur OSWorld en utilisant des exécutions répétées de la même tâche ainsi que des tests statistiques appariés capturant les changements au niveau des tâches selon les configurations. Notre analyse montre que la fiabilité dépend à la fois de la manière dont les tâches sont spécifiées et de la façon dont le comportement de l'agent varie entre les exécutions. Ces résultats suggèrent la nécessité d'évaluer les agents lors d'exécutions répétées, de permettre aux agents de résoudre l'ambiguïté des tâches par l'interaction, et de privilégier les stratégies qui restent stables d'une exécution à l'autre.
La résolution de problèmes mathématiques reste un test de raisonnement difficile pour les grands modèles linguistiques et multimodaux, mais les bancs d'essai existants sont limités en taille, en couverture linguistique et en diversité des tâches. Nous présentons MathNet, un ensemble de données multimodal et multilingue, de grande taille et de haute qualité, composé de problèmes mathématiques de niveau Olympiade, ainsi qu'un banc d'essai pour évaluer le raisonnement mathématique dans les modèles génératifs et la recherche mathématique dans les systèmes basés sur des embeddings. MathNet couvre 47 pays, 17 langues et deux décennies de compétitions, comprenant 30 676 problèmes rédigés par des experts avec leurs solutions dans divers domaines. En plus de l'ensemble de données principal, nous construisons un banc d'essai de recherche consistant en des paires de problèmes mathématiquement équivalents et structurellement similaires, sélectionnées par des experts humains. MathNet prend en charge trois tâches : (i) la Résolution de problèmes, (ii) la Recherche sensible aux mathématiques, et (iii) la Résolution de problèmes augmentée par la recherche. Les résultats expérimentaux montrent que même les modèles de raisonnement les plus avancés (78,4 % pour Gemini-3.1-Pro et 69,3 % pour GPT-5) restent mis en difficulté, tandis que les modèles d'embedding peinent à retrouver des problèmes équivalents. Nous montrons en outre que les performances de la génération augmentée par la recherche sont très sensibles à la qualité de la recherche ; par exemple, DeepSeek-V3.2-Speciale réalise des gains allant jusqu'à 12 %, obtenant les scores les plus élevés sur le banc d'essai. MathNet fournit le plus grand ensemble de données de haute qualité sur les Olympiades ainsi que le premier banc d'essai pour évaluer la recherche de problèmes mathématiques. Nous rendons publics l'ensemble de données et le banc d'essai à l'adresse https://mathnet.mit.edu.
Les modèles récents de dialogue oral de bout en bout permettent une interaction naturelle. Cependant, face à la complexité croissante des demandes utilisateurs, les modèles reposant uniquement sur des capacités conversationnelles peinent souvent à suivre. L'intégration de capacités agentiques devient donc essentielle : en permettant l'utilisation d'outils, ces modèles peuvent repousser leurs limites knowledge et mieux résoudre des tâches du monde réel. Pourtant, la recherche existante s'est largement concentrée sur la perception et la génération de base, avec une exploration relativement limitée de telles extensions par outils. Pour combler cette lacune, nous présentons VoxMind, un framework intégré conçu pour doter les modèles de dialogue oral de bout en bout de capacités agentiques complètes. En tirant parti de notre jeu de données AgentChat de 470 heures soigneusement constitué, nous intégrons un mécanisme « Penser avant de Parler », permettant au modèle d'intérioriser un raisonnement structuré comme prérequis critique pour la planification et la génération de réponses. De plus, pour atténuer les goulots d'étranglement de latence causés par l'intégration d'outils à grande échelle, nous proposons une architecture de Gestion Dynamique d'Outils par Agents Multiples. En déléguant de manière asynchrone les tâches de récupération à un agent auxiliaire aligné sur la trajectoire raisonnée du modèle principal, ce système découple efficacement la latence d'inférence de la taille de la boîte à outils. Les résultats expérimentaux confirment que VoxMind réalise des améliorations significatives des performances agentiques : par rapport à des bases de référence solides, le taux de réalisation des tâches passe de 34,88 % à 74,57 %, surpassant Gemini-2.5-Pro sur les tâches agentiques orales tout en préservant la qualité conversationnelle générale. Le code source et les données associées sont publiquement disponibles à l'adresse https://github.com/MM-Speech/VoxMind.
Les agents de modèles de langage de grande échelle (LLM) à long horizon sont fondamentalement limités par le contexte. À mesure que les interactions s'allongent, les descriptions d'outils, les souvenirs récupérés et les retours bruts de l'environnement s'accumulent et évacuent les informations nécessaires à la prise de décision. Parallèlement, l'expérience utile acquise lors des tâches est souvent perdue d'un épisode à l'autre. Nous soutenons que les performances à long horizon ne sont pas déterminées par la longueur du contexte, mais par la quantité d'informations pertinentes pour la décision maintenues dans un budget de contexte fini. Nous présentons GenericAgent (GA), un système d'agent LLM polyvalent et auto-évolutif construit autour d'un principe unique : la maximisation de la densité informationnelle du contexte. GA met en œuvre ce principe grâce à quatre composants étroitement connectés : un ensemble d'outils atomiques minimaux qui garde l'interface simple, une mémoire hiérarchique à la demande qui ne montre par défaut qu'une vue générale de haut niveau, un mécanisme d'auto-évolution qui transforme les trajectoires passées vérifiées en procédures opérationnelles standardisées (POS) réutilisables et en code exécutable, et une couche de troncation et compression du contexte qui maintient la densité informationnelle lors des longues exécutions. En matière d'accomplissement des tâches, d'efficacité d'utilisation des outils, d'efficacité de la mémoire, d'auto-évolution et de navigation web, GA surpasse constamment les principaux systèmes d'agents tout en utilisant nettement moins de tokens et d'interactions, et il continue d'évoluer dans le temps. Projet : https://github.com/lsdefine/GenericAgent
Les modèles linguistiques multimodaux (MLLM) actuels ont démontré des capacités remarquables dans la compréhension de vidéos courtes, mais la traduction de vidéos cinématographiques longues en scripts détaillés et temporellement ancrés reste un défi majeur. Cet article introduit la nouvelle tâche de conversion vidéo-vers-script (V2S), visant à générer des scripts hiérarchiques scène par scène englobant les actions des personnages, les dialogues, les expressions et les indices audio. Pour faciliter cela, nous construisons un benchmark annoté humain, le premier en son genre, et proposons un cadre d'évaluation hiérarchique sensible au temps. De plus, nous présentons OmniScript, un modèle linguistique omni-modal (audio-visuel) de 8 milliards de paramètres conçu pour la compréhension narrative de longs métrages. OmniScript est entraîné via un pipeline progressif qui tire parti d'un fine-tuning supervisé en chaîne de réflexion (chain-of-thought) pour le raisonnement sur l'intrigue et les personnages, suivi d'un apprentissage par renforcement utilisant des récompenses segmentées temporellement. Des expériences approfondies démontrent que, malgré son efficacité en paramètres, OmniScript surpasse significativement les modèles open-source plus grands et atteint des performances comparables aux modèles propriétaires de pointe, y compris Gemini 3-Pro, à la fois en localisation temporelle et en précision sémantique multi-champs.
Les agents basés sur LLM sont supposés intégrer les observations de l'environnement dans leur raisonnement : la découverte d'informations très pertinentes mais inattendues devrait naturellement conduire un modèle à exploiter ses propres découvertes. Nous montrons que cette hypothèse est fausse pour les agents actuels basés sur LLM, qui peinent à refléter ou à réagir face à des informations imprévues. Sur trois benchmarks (Terminal-Bench, SWE-Bench, AppWorld), nous injectons des solutions complètes de tâches dans les environnements des agents pour exposer délibérément la solution d'une tâche à un modèle. Bien que les agents découvrent ces solutions sur Terminal-Bench dans 79 à 81 % des exécutions, ils interagissent avec elles, ou les exploitent, dans seulement 37 à 50 % des cas. Cet écart est le plus marqué dans AppWorld : les agents voient une documentation indiquant qu'une commande "renvoie la solution complète à cette tâche" dans plus de 90 % des tentatives, mais ils l'exploitent dans moins de 7 % des essais. Nous montrons que les agents manquent de ce que nous appelons la curiosité environnementale : la capacité à reconnaître et à examiner des observations inattendues mais pertinentes en réponse à des stimuli environnementaux. Nous identifions trois facteurs principaux influençant la curiosité environnementale : les outils disponibles dans l'échafaudage de l'agent, le calcul au moment du test et la distribution des données d'entraînement. Nos résultats indiquent que les configurations qui maximisent la curiosité obtiennent également les meilleures performances sur les benchmarks non modifiés. Pourtant, même les agents conjointement optimisés ignorent encore les solutions découvertes dans la majorité des essais : les agents actuels utilisent l'environnement pour récupérer des informations attendues, mais pas pour réviser leur stratégie ou exploiter au maximum les stimuli utiles.
Le décodage visuel à partir des signaux cérébraux constitue un défi majeur à l'intersection de la vision par ordinateur et des neurosciences, nécessitant des méthodes capables de faire le lien entre les représentations neurales et les modèles computationnels de la vision. Un objectif commun à ce domaine est de développer des modèles généralisables entre différents sujets. Un obstacle majeur à cet objectif réside dans la variabilité substantielle des représentations neurales entre les individus, ce qui a jusqu'à présent requis l'entraînement de modèles spécifiques ou un réglage fin séparé pour chaque sujet. Pour relever ce défi, nous proposons une approche méta-optimisée pour le décodage visuel sémantique à partir de l'IRMf qui se généralise à de nouveaux sujets sans aucun réglage fin. En se contentant de conditionner le modèle sur un petit ensemble d'exemples d'activation image-cerveau provenant du nouvel individu, notre méthode infère rapidement ses schémas uniques d'encodage neural pour faciliter un décodage visuel robuste et efficace. Notre approche est explicitement optimisée pour l'apprentissage en contexte du modèle d'encodage du nouveau sujet et effectue le décodage par inférence hiérarchique, en inversant l'encodeur. Premièrement, pour plusieurs régions cérébrales, nous estimons les paramètres de l'encodeur de réponse visuelle par voxel en construisant un contexte sur plusieurs stimuli et réponses. Deuxièmement, nous construisons un contexte composé de paramètres d'encodeur et de valeurs de réponse sur plusieurs voxels pour effectuer une inversion fonctionnelle agrégée. Nous démontrons une forte généralisation intersujet et entre scanners avec diverses architectures visuelles, sans réentraînement ni réglage fin. De plus, notre approche ne nécessite ni alignement anatomique ni chevauchement des stimuli. Ce travail représente une étape cruciale vers un modèle fondateur généralisable pour le décodage cérébral non invasif.
La plupart des agents actuels « s’auto-évoluent » en suivant des récompenses et des règles définies par des humains. Cependant, ce processus reste fondamentalement dépendant d’une supervision externe ; sans guidance humaine, l’évolution s’arrête. Dans ce travail, nous entraînons des agents à posséder une capacité intrinsèque de méta-évolution leur permettant d’apprendre spontanément des informations sur des environnements inconnus avant l’exécution des tâches. Pour inculquer cette capacité, nous concevons un mécanisme de récompense basé sur les résultats, qui mesure à quel point les connaissances du monde générées par l’agent améliorent son taux de réussite sur des tâches en aval. Ce signal de récompense est utilisé exclusivement pendant la phase d’entraînement pour apprendre au modèle à explorer et à synthétiser efficacement. Au moment de l’inférence, l’agent ne nécessite aucune récompense externe ni instruction humaine. Il effectue spontanément une auto-évolution native pour s’adapter à des environnements inconnus en utilisant ses paramètres internes. Lorsqu’elle est appliquée à Qwen3-30B et Seed-OSS-36B, cette transition vers une évolution native entraîne une amélioration de 20 % des performances sur WebVoyager et WebWalker. Plus frappant encore, les connaissances du monde générées permettent même à un modèle compact Qwen3-14B de surpasser Gemini-2.5-Flash sans assistance, établissant ainsi un nouveau paradigme pour des agents véritablement évolutifs.
Les jeux offrent un paradigme convaincant pour développer des capacités de raisonnement général dans les modèles de langage, car ils exigent naturellement une planification stratégique, une inférence probabiliste et une prise de décision adaptative. Cependant, les approches existantes d'auto-apprentissage reposent uniquement sur les résultats finaux des parties, sans offrir de mécanisme pour distinguer les schémas de raisonnement transférables des heuristiques spécifiques au jeu. Nous présentons STRATAGEM, qui aborde deux obstacles fondamentaux au transfert de raisonnement : la spécificité du domaine, où les schémas appris restent ancrés dans la sémantique du jeu, et la stase contextuelle, où des contextes de jeu statiques ne parviennent pas à cultiver un raisonnement progressif. STRATAGEM renforce sélectivement les trajectoires présentant un raisonnement abstrait et indépendant du domaine via un Coefficient de Transférabilité du Raisonnement, tout en favorisant le développement d'un raisonnement adaptatif grâce à une Récompense d'Évolution du Raisonnement. Les expériences menées sur des benchmarks de raisonnement mathématique, de raisonnement général et de génération de code démontrent des améliorations substantielles, avec des gains particulièrement nets en mathématiques de niveau compétitif où le raisonnement multi-étapes est crucial. Les études d'ablation et l'évaluation humaine confirment que les deux composantes contribuent à un raisonnement transférable.
Les LLMs multimodaux peuvent percevoir avec précision le contenu numérique à travers différentes modalités, mais échouent à effectuer des multiplications multi-chiffres exactes lorsque le même problème arithmétique sous-jacent est présenté sous forme de chiffres, de mots numériques, d'images ou de formats audio. Comme les benchmarks existants manquent souvent d'instances systématiquement appariées entre les modalités, il reste difficile de comparer les véritables limites arithmétiques au sein des familles de modèles et entre elles. Nous introduisons donc un benchmark de multiplication multimodal contrôlé qui fait varier factoriellement la longueur des chiffres, la parcimonie des chiffres, la représentation (par exemple, chiffres vs mots numériques) et la modalité (texte, images rendues, audio), avec des instances appariées générées de manière reproductible. Nous définissons également la charge arithmétique, C, comme le produit du nombre total de chiffres et du nombre de chiffres non nuls, servant de proxy compact et mécanistiquement motivé pour le nombre d'opérations. À travers les évaluations, la précision chute brutalement lorsque C augmente, approchant souvent zéro pour C > 100. En effet, C reste prédictif des performances across modalities et des modèles, avec un R-carré souvent > 0,5, approchant la valeur obtenue avec des mesures plus complexes de la charge arithmétique qui comptent le nombre d'étapes arithmétiques intermédiaires. Une décomposition séparée perception versus calcul montre que la dégradation multimodale est principalement computationnelle plutôt que perceptuelle : sur des vérifications de perception équivalente, les modèles sont quasi parfaits (> 99%) across modalities, même lorsque la précision des multiplications chute. Au-delà de mesurer quand les modèles échouent, nous demandons quelles procédures ils sont prédisposés à suivre. Nous introduisons une sonde de perte par achèvement forcé qui évalue des préfixes de raisonnement spécifiques à des heuristiques - incluant la multiplication en colonnes, la décomposition distributive, et l'arrondi/compensation. Ici, la décomposition est favorisée dans les modalités texte et vision ; des adaptateurs LoRA spécifiques à une heuristique produisent des mises à jour quasi orthogonales tout en dégradant la précision, indiquant que le modèle de base maintient un routeur interne bien réglé.
Nous présentons SemanticQA, une suite d'évaluation conçue pour évaluer les modèles de langage (LM) dans des tâches de traitement d'expressions sémantiques. Ce benchmark consolide les ressources existantes sur les expressions polylexicales (EPL) et les réorganise en un environnement de test unifié. Il couvre à la fois des phénomènes lexicaux généraux, comme les collocations lexicales, et trois catégories plus fines : les expressions idiomatiques, les composés nominaux et les constructions verbales. Grâce à SemanticQA, nous évaluons des LM d'architectures et de tailles variées sur des tâches d'extraction, de classification et d'interprétation, ainsi que sur des compositions séquentielles de tâches. Nous révélons des variations substantielles de performance, particulièrement sur les tâches nécessitant un raisonnement sémantique, mettant en lumière des différences d'efficacité du raisonnement et de compréhension sémantique des LM. Ces résultats offrent des perspectives pour développer des modèles de langage dotés d'une compréhension plus robuste des expressions sémantiques complexes. L'infrastructure d'évaluation et les données de SemanticQA sont disponibles à l'adresse https://github.com/jacklanda/SemanticQA.
Contrairement à la complétion de code, le débogage nécessite de localiser les fautes et d'appliquer des modifications ciblées. Nous observons que les LLM de pointe régénèrent souvent des solutions correctes mais sureditées lors du débogage. Pour évaluer l'écart des LLM par rapport à un débogage précis, nous introduisons le cadre *Precise Debugging Benchmark* (PDB), qui convertit automatiquement tout ensemble de données de codage en un benchmark de débogage avec une évaluation sensible à la précision. PDB génère des programmes bogués en synthétisant des bogues atomiques vérifiés et en les composant en programmes multi-bogues. Nous définissons deux nouvelles métriques : la précision au niveau de l'édition et le rappel au niveau du bogue, qui mesurent respectivement le nombre de modifications nécessaires effectuées et le nombre de bogues résolus. Nous publions deux benchmarks d'évaluation : PDB-Single-Hard sur les bogues monolignes et PDB-Multi sur les bogues multilignes. Les expériences montrent que les modèles de pointe, tels que GPT-5.1-Codex et DeepSeek-V3.2-Thinking, atteignent des taux de réussite aux tests unitaires supérieurs à 76 %, mais affichent une précision inférieure à 45 %, même lorsqu'ils sont explicitement invités à effectuer un débogage minimal. Enfin, nous montrons que les stratégies de débogage itératif et agentique n'améliorent pas substantiellement la précision ou le rappel, soulignant la nécessité de repenser les pipelines de post-formation pour les modèles de codage.
Les modèles de langage de grande taille omnimodaux natifs (OLLM) sont passés d'architectures modulaires à des espaces de représentation unifiés. Cependant, cette intégration native donne lieu à un phénomène critique mais encore peu exploré : la préférence modale. Pour combler cette lacune, nous quantifions systématiquement la préférence modale des OLLM en utilisant un benchmark conflictuel nouvellement constitué et la métrique du taux de sélection modale. Notre évaluation de dix OLLM représentatifs révèle un changement de paradigme notable : contrairement à la « dominance textuelle » des modèles visio-linguistiques traditionnels, la plupart des OLLM présentent une préférence visuelle prononcée. Pour mieux comprendre le mécanisme sous-jacent, nous réalisons une analyse par couches et démontrons que cette préférence modale n'est pas statique mais émerge progressivement dans les couches intermédiaires à tardives. En nous appuyant sur ces insights, nous exploitons ces signaux internes pour diagnostiquer les hallucinations cross-modales, obtenant des performances compétitives sur trois benchmarks multimodaux en aval sans données spécifiques aux tâches. Notre travail offre à la fois une compréhension mécanistique et un outil pratique pour construire des OLLM plus dignes de confiance. Notre code et les ressources associées sont disponibles publiquement à l'adresse : https://github.com/icip-cas/OmniPreference
Les grands modèles de langage (LLM) sont largement explorés pour des tâches de recherche exigeant un raisonnement, mais les ressources permettant de tester s'ils peuvent inférer des conclusions scientifiques à partir de preuves biomédicales structurées restent limitées. Nous présentons MedConclusion, un jeu de données à grande échelle contenant 5,7 millions de résumés structurés de PubMed pour la génération de conclusions biomédicales. Chaque instance associe les sections non conclusives d'un résumé à la conclusion originale rédigée par l'auteur, fournissant ainsi une supervision naturelle pour le raisonnement allant des preuves à la conclusion. MedConclusion inclut également des métadonnées au niveau de la revue, telles que la catégorie biomédicale et le SJR (SCImago Journal Rank), permettant une analyse par sous-groupes dans les différents domaines biomédicaux. Dans une étude préliminaire, nous évaluons divers LLM dans des contextes d'incitation à la conclusion et au résumé, et nous notons les résultats à la fois avec des métriques basées sur des références et une approche LLM-comme-juge. Nous constatons que la rédaction de conclusions est comportementalement distincte de la rédaction de résumés, que les modèles performants restent étroitement groupés selon les métriques automatiques actuelles, et que l'identité du juge peut modifier substantiellement les scores absolus. MedConclusion constitue une ressource de données réutilisable pour l'étude du raisonnement scientifique allant des preuves à la conclusion. Notre code et nos données sont disponibles à l'adresse : https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.
Les modèles de langage de grande taille (LLM) ont démontré des performances exceptionnelles dans divers domaines, mais sont de plus en plus limités par une latence d'inférence élevée. La sortie précoce (Early Exit) est apparue comme une solution prometteuse pour accélérer l'inférence en contournant dynamiquement les couches redondantes. Cependant, dans les architectures à décodeur uniquement, l'efficacité de la sortie précoce est sévèrement entravée par le problème d'absence du cache KV (KV Cache Absence), où les couches sautées ne fournissent pas les états historiques nécessaires aux tokens suivants. Les solutions existantes, telles que le recalcul ou le masquage, introduisent soit une surcharge de latence significative, soit entraînent une perte de précision sévère, ne parvenant pas à combler l'écart entre la réduction théorique des couches et l'accélération pratique mesurée. Dans cet article, nous proposons River-LLM, un cadre sans apprentissage qui permet une sortie précoce transparente au niveau du token. River-LLM introduit un léger "Rivière de Sortie à Cache KV Partagé" (KV-Shared Exit River) qui permet au cache KV manquant du modèle principal d'être naturellement généré et préservé pendant le processus de sortie, éliminant le besoin d'opérations de récupération coûteuses. De plus, nous utilisons la similarité des transitions d'état dans les blocs du décodeur pour prédire les erreurs cumulatives du cache KV et guider les décisions de sortie précises. Des expériences approfondies sur des tâches de raisonnement mathématique et de génération de code démontrent que River-LLM atteint une accélération pratique de 1,71 à 2,16 fois tout en maintenant une haute qualité de génération.
L'ingénierie du génome a atteint une précision remarquable au niveau de la séquence, mais prédire l'état transcriptomique qu'une cellule occupera après une perturbation reste un problème non résolu. Les cribles CRISPR à cellule unique mesurent la distance parcourue par les cellules par rapport à leur état non perturbé, mais cette amplitude d'effet ignore une question fondamentale : les cellules se déplacent-elles de manière cohérente ? Deux perturbations d'amplitude identique peuvent produire des résultats qualitativement différents si l'une entraîne les cellules de manière cohérente le long d'une trajectoire partagée tandis que l'autre les disperse dans l'espace d'expression. Nous introduisons une métrique de stabilité géométrique, Shesha, qui quantifie la cohérence directionnelle des réponses aux perturbations à cellule unique comme la similarité cosinus moyenne entre les vecteurs de déplacement individuels des cellules et la direction moyenne de perturbation. Sur cinq jeux de données CRISPR (plus de 2 200 perturbations couvrant des cribles CRISPRa, CRISPRi et poolés), la stabilité est fortement corrélée à l'amplitude de l'effet (ρ de Spearman = 0,75-0,97), avec une corrélation inter-jeux de données calibrée de 0,97. Fait crucial, les cas discordants où les deux métriques se découplent révèlent l'architecture régulatrice : les régulateurs maîtres pléiotropes tels que CEBPA et GATA1 paient une « taxe géométrique », produisant des déplacements importants mais incohérents, tandis que les facteurs spécifiques à la lignée tels que KLF1 produisent des réponses étroitement coordonnées. Après contrôle de l'amplitude, l'instabilité géométrique est indépendamment associée à une activation chaperon élevée (HSPA5/BiP ; ρ partiel = -0,34 et -0,21 entre les jeux de données), et le quadrant haute stabilité/fort stress est systématiquement appauvri. La relation amplitude-stabilité persiste dans les plongements du modèle fondation scGPT, confirmant qu'il s'agit d'une propriété de l'espace d'état biologique plutôt que de la projection linéaire. La stabilité des perturbations fournit un axe complémentaire pour la hiérarchisation des hits dans les cribles, le contrôle qualité phénotypique dans la production cellulaire et l'évaluation des prédictions de perturbations in silico.
La convergence des grands modèles de langage et des agents catalyse une nouvelle ère de découverte scientifique : la Science Agentique. Bien que la méthode scientifique soit intrinsèquement itérative, les frameworks d'agents existants sont principalement statiques, étroitement spécialisés et incapables d'apprendre par essais et erreurs. Pour combler cette lacune, nous présentons EvoMaster, un framework fondateur d'agents évolutifs conçu spécifiquement pour la Science Agentique à grande échelle. Guidé par le principe fondamental de l'auto-évolution continue, EvoMaster permet aux agents d'affiner itérativement des hypothèses, d'effectuer une autocritique et d'accumuler progressivement des connaissances à travers les cycles expérimentaux, reflétant fidèlement la démarche scientifique humaine. Fait crucial, en tant que socle agnostique au domaine, EvoMaster est exceptionnellement facile à mettre à l'échelle – permettant aux développeurs de construire et déployer des agents scientifiques hautement compétents et auto-évolutifs pour des disciplines arbitraires en approximativement 100 lignes de code. Sur la base d'EvoMaster, nous avons incubé l'écosystème SciMaster dans des domaines tels que l'apprentissage automatique, la physique et les sciences générales. Les évaluations sur quatre benchmarks autoritatifs (Humanity's Last Exam, MLE-Bench Lite, BrowseComp et FrontierScience) démontrent qu'EvoMaster atteint des scores state-of-the-art de 41,1 %, 75,8 %, 73,3 % et 53,3 %, respectivement. Il surpasse globalement la baseline généraliste OpenClaw avec des améliorations relatives allant de +159 % à +316 %, validant robustement son efficacité et sa généralité en tant que premier framework fondateur pour la prochaine génération de découverte scientifique autonome. EvoMaster est disponible à l'adresse https://github.com/sjtu-sai-agents/EvoMaster.
Les récentes avancées en correspondance sémantique reposent sur des architectures à double encodeur, combinant DINOv2 avec des backbones de diffusion. Bien que précis, ces modèles de milliards de paramètres généralisent mal au-delà des points-clés d'entraînement, révélant un écart entre les performances sur les benchmarks et l'utilité pratique, où les points interrogés correspondent rarement à ceux vus pendant l'apprentissage. En nous appuyant sur DINOv2, nous présentons MARCO, un modèle unifié pour la correspondance généralisable, piloté par un nouveau cadre d'entraînement qui améliore à la fois la localisation fine et la généralisation sémantique. En couplant un objectif grossier-à-fin qui affine la précision spatiale avec un cadre d'autodistillation, qui étend la supervision au-delà des régions annotées, notre approche transforme une poignée de points-clés en correspondances denses et sémantiquement cohérentes. MARCO établit un nouvel état de l'art sur SPair-71k, AP-10K et PF-PASCAL, avec des gains qui s'amplifient aux seuils de localisation fine (+8,9 PCK@0,01), une généralisation plus robuste aux points-clés non vus (+5,1, SPair-U) et aux catégories non vues (+4,7, MP-100), tout en restant 3 fois plus petit et 10 fois plus rapide que les approches basées sur la diffusion. Le code est disponible à l'adresse https://github.com/visinf/MARCO.
Les utilisateurs omettent souvent des détails essentiels dans leurs requêtes aux agents basés sur LLM, ce qui génère des entrées sous-spécifiées pour l'utilisation des outils. Cela pose un défi fondamental pour les agents augmentés par outils, car l'exécution d'API nécessite généralement des arguments complets, soulignant le besoin d'un appel d'outil personnalisé. Pour étudier ce problème, nous présentons MPT, un benchmark comprenant 265 dialogues multi-sessions couvrant trois défis : le rappel des préférences, l'induction des préférences et le transfert des préférences. Nous proposons également PRefine, une méthode augmentée par mémoire au moment du test qui représente les préférences utilisateur comme des hypothèses évolutives. Via une boucle générer-vérifier-affiner, elle extrait des contraintes réutilisables de l'historique et améliore la précision des appels d'outils tout en n'utilisant que 1,24 % des jetons requis par l'invocation de l'historique complet. Ces résultats indiquent qu'une personnalisation robuste dans les systèmes agentiques dépend d'une mémoire qui capture les raisons derrière les choix des utilisateurs, et pas seulement les choix eux-mêmes.
La Conversation de Soutien Émotionnel (ESC) vise à aider les personnes en détresse en générant des dialogues empathiques et solidaires. Alors que les travaux antérieurs supposent généralement que chaque tour de parole du soutien correspond à une seule stratégie, la communication de soutien réelle implique souvent plusieurs stratégies au sein d'un même énoncé. Dans cet article, nous revisitons la tâche ESC en la formulant comme une génération d'énoncés multi-stratégies, où chaque énoncé peut contenir une ou plusieurs paires stratégie-réponse. Nous proposons deux méthodes de génération : All-in-One, qui prédit toutes les paires stratégie-réponse en une seule étape de décodage, et One-by-One, qui génère itérativement les paires stratégie-réponse jusqu'à complétion. Les deux méthodes sont en outre améliorées par un raisonnement cognitif guidé par apprentissage par renforcement pour optimiser la sélection des stratégies et la composition des réponses. Nous évaluons nos modèles sur le jeu de données ESConv dans des configurations au niveau de l'énoncé et du dialogue. Les résultats expérimentaux montrent que nos méthodes modélisent efficacement les énoncés multi-stratégies et améliorent la qualité du soutien et le succès du dialogue. À notre connaissance, ce travail fournit les premières preuves empiriques systématiques démontrant que l'utilisation de multiples stratégies de soutien au sein d'un même énoncé est à la fois réalisable et bénéfique pour les conversations de soutien émotionnel. Tous les codes et données seront disponibles publiquement à l'adresse https://github.com/aliyun/qwen-dianjin.
Le déploiement fiable des modèles de langage nécessite deux capacités qui semblent distinctes mais partagent un fondement géométrique commun : prédire si un modèle acceptera un contrôle comportemental ciblé, et détecter quand sa structure interne se dégrade. Nous montrons que la stabilité géométrique, c'est-à-dire la cohérence de la structure des distances par paires d'une représentation, répond aux deux. Des variantes supervisées de Shesha qui mesurent la stabilité géométrique alignée sur la tâche prédisent la pilotabilité linéaire avec une précision quasi parfaite (ρ = 0,89-0,97) sur 35 à 69 modèles d'embedding et trois tâches de TAL, captant une variance unique au-delà de la séparabilité des classes (ρ partiel = 0,62-0,76). Une dissociation critique émerge : la stabilité non supervisée échoue totalement pour le pilotage sur des tâches réelles (ρ ≈ 0,10), révélant que l'alignement sur la tâche est essentiel pour la prédiction de la contrôlabilité. Cependant, la stabilité non supervisée excelle dans la détection de dérive, mesurant un changement géométrique près de 2 fois supérieur à CKA lors de l'alignement post-entraînement (jusqu'à 5,23 fois dans Llama) tout en fournissant une alerte plus précoce dans 73 % des modèles et en maintenant un taux de fausses alarmes 6 fois inférieur à Procrustes. Ensemble, la stabilité supervisée et non supervisée forment des diagnostics complémentaires pour le cycle de vie du déploiement des LLM : l'une pour l'évaluation de la contrôlabilité avant le déploiement, l'autre pour la surveillance après le déploiement.
Les modèles vision-langage (VLM) sont de plus en plus utilisés en diagnostic clinique, mais leur robustesse face aux attaques adverses reste largement inexplorée, ce qui présente des risques importants. Les attaques médicales existantes se concentrent sur des objectifs secondaires tels que le vol de modèles ou le réglage adverse, tandis que les attaques transférables depuis les images naturelles introduisent des distorsions visibles que les cliniciens peuvent facilement détecter. Pour résoudre ce problème, nous proposons MedFocusLeak, une attaque multimodale boîte noire hautement transférable qui induit des diagnostics incorrects mais cliniquement plausibles tout en gardant les perturbations imperceptibles. La méthode injecte des perturbations coordonnées dans les régions d'arrière-plan non diagnostiques et utilise un mécanisme de distraction de l'attention pour détourner le focus du modèle des zones pathologiques. Des évaluations approfondies sur six modalités d'imagerie médicale montrent que MedFocusLeak atteint des performances de pointe, générant des résultats diagnostiques trompeurs mais réalistes sur divers VLM. Nous introduisons également un cadre d'évaluation unifié avec de nouvelles métriques qui capturent conjointement le succès de l'attaque et la fidélité de l'image, révélant une vulnérabilité critique dans les capacités de raisonnement des VLM cliniques modernes.
Les grands modèles de langage multimodaux (MLLM) ont démontré des capacités impressionnantes, mais ils peinent souvent à capturer efficacement les informations textuelles fines au sein des images, pourtant cruciales pour une traduction d'image précise. Cela conduit fréquemment à un écart de modalité entre les entrées de texte visuel et les entrées/sorties textuelles pour la traduction d'image. Les méthodes existantes, reposant principalement sur le réglage fin par instruction, risquent une redondance paramétrique des connaissances pré-entraînées, entravant les performances de généralisation. Pour résoudre ce problème, nous introduisons le réglage fin sensible aux neurones de modalité (MNAFT), une approche novatrice qui tire parti des rôles spécialisés des neurones individuels au sein des MLLM pour améliorer la traduction d'image. MNAFT identifie les neurones agnostiques au langage et spécifiques au langage dans les modules visuels et linguistiques via une analyse d'activation pilotée par instruction, évaluant leur importance dans diverses tâches de traduction. Nous effectuons ensuite un réglage fin sélectif, en mettant à jour uniquement les paramètres des neurones spécifiques au langage et agnostiques au langage au sein des couches sélectionnées pertinentes pour la tâche cible, tout en préservant les connaissances encodées dans les autres neurones et couches. Nos expériences approfondies sur plusieurs benchmarks démontrent que MNAFT surpasse significativement les méthodes de pointe en traduction d'image, y compris les modèles en cascade, le réglage fin complet standard et les techniques de réglage économe en paramètres. De plus, nous fournissons une analyse complète, incluant des visualisations des activations neuronales et des motifs de regroupement, pour offrir un aperçu des rôles des différents groupes de neurones dans la médiation de la compréhension cross-modale et la facilitation d'une traduction précise spécifique au langage.
Comprendre et anticiper l’activité liée aux vulnérabilités constitue un enjeu majeur du renseignement sur les cybermenaces. Ce travail examine s’il est possible de prévoir dans le temps les observations de vulnérabilités, telles que les publications de preuves de concept, les modèles de détection ou les discussions en ligne. En nous appuyant sur nos travaux antérieurs concernant VLAI, un modèle basé sur un transformateur qui prédit la sévérité des vulnérabilités à partir de descriptions textuelles, nous étudions si les scores de sévérité peuvent améliorer la prévision par séries temporelles en tant que variables exogènes. Nous évaluons plusieurs approches pour la prévision à court terme du nombre d’observations par vulnérabilité. Premièrement, nous testons des modèles SARIMAX avec et sans transformations log(x+1) et avec des entrées de sévérité dérivées de VLAI. Bien que ces ajustements n’apportent que des améliorations limitées, SARIMAX reste peu adapté aux données de vulnérabilités, souvent rares, courtes et sporadiques. En pratique, les prévisions produisent souvent des intervalles de confiance excessivement larges et parfois des valeurs négatives irréalistes. Pour mieux capturer la nature discrète et événementielle des observations, nous explorons ensuite des méthodes basées sur les dénombrements, telles que la régression de Poisson. Les premiers résultats montrent que ces modèles produisent des prévisions plus stables et interprétables, en particulier lorsque les observations sont agrégées hebdomadairement. Nous discutons également d’alternatives opérationnelles plus simples, incluant des fonctions de décroissance exponentielle pour des horizons de prévision courts, afin d’estimer l’activité future sans nécessiter de longues séries historiques. Dans l’ensemble, cette étude souligne à la fois le potentiel et les limites de la prévision d’événements cyber rares et sporadiques, et fournit des conseils pratiques pour intégrer l’analyse prédictive dans les flux de travail du renseignement sur les vulnérabilités.
Les modèles de langage vocal en duplex intégral (FD-SLMs) permettent des interactions conversationnelles en temps réel avec chevauchement, offrant une expérience utilisateur plus dynamique que les modèles semi-duplex traditionnels. Cependant, les benchmarks existants se concentrent principalement sur l'évaluation d'interactions à tour unique, négligeant les complexités de la communication multi-tours. L'évaluation des FD-SLMs dans des contextes multi-tours pose des défis significatifs, incluant des limites de tour floues dans la communication et des incohérences contextuelles durant l'inférence du modèle. De plus, les benchmarks existants se focalisent souvent uniquement sur les fonctionnalités conversationnelles, négligeant d'autres aspects critiques. Pour combler ces lacunes, nous présentons MTR-DuplexBench, un nouveau benchmark conçu pour une évaluation multi-tours complète des FD-SLMs. MTR-DuplexBench segmente non seulement les dialogues continus en duplex intégral en tours discrets pour une évaluation tour par tour, mais intègre également divers aspects d'évaluation, incluant les fonctionnalités conversationnelles, la qualité du dialogue, le suivi des instructions et la sécurité. Les résultats expérimentaux révèlent que les FD-SLMs actuels éprouvent des difficultés à maintenir des performances cohérentes sur plusieurs tours et dimensions d'évaluation, soulignant la nécessité et l'efficacité de notre benchmark. Le code et les données sont disponibles à l'adresse : https://github.com/ZhangHe0918/MTR-DuplexBench
Nous présentons Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), un compilateur en quatre phases pour le déploiement de modèles transformer sur du matériel accélérateur hétérogène, validé sur le NPU Intel AI Boost. Les frameworks existants tels qu'OpenVINO et ONNX Runtime utilisent souvent des pipelines de compilation opaques, offrent une visibilité limitée au niveau des passes et une gestion faible des tampons, ce qui peut entraîner un coût de compilation et une surcharge d'exécution plus élevés. Forge-UGC résout ce problème avec une conception agnostique au matériel qui sépare la capture de graphe, l'optimisation, l'abaissement de la représentation intermédiaire et l'ordonnancement backend. La phase 1 capture les graphes avec torch.export au niveau des opérateurs ATen, prenant en charge les composants modernes des transformers tels que les embeddings de position rotatifs, l'attention à requêtes groupées et SwiGLU sans décomposition manuelle. La phase 2 applique six passes d'optimisation : l'élimination du code mort, l'élimination des sous-expressions communes, le pliage des constantes, la fusion de l'attention, la fusion d'opérateurs et l'optimisation de la disposition, réduisant le nombre de nœuds du graphe de 14,2 à 21,9 %. La phase 3 abaisse le graphe optimisé en une représentation intermédiaire typée avec des assignations explicites de registres virtuels. La phase 4 effectue une analyse de la durée de vie, une allocation de tampons par balayage linéaire réduisant le nombre maximal de tampons de 30 à 48 %, et un ordonnancement par affinité de périphérique, réduisant les transitions NPU-CPU de 42 à 65 %. Sur six familles de modèles allant de 125M à 8B de paramètres, évaluées sur WikiText-103 et GLUE, Forge-UGC offre une compilation 6,9 à 9,2 fois plus rapide qu'OpenVINO et ONNX Runtime, une latence d'inférence réduite de 18,2 à 35,7 % et une énergie par inférence réduite de 30,2 à 40,9 %. La fidélité est préservée, avec des différences de logits absolues maximales inférieures à 2,1e-5 et une divergence KL inférieure à 8,4e-9. Nous introduisons également le Ratio de Gain de Fusion, l'Indice d'Efficacité de Compilation et le profilage d'exécution par passe pour l'évaluation systématique des pipelines de compilation NPU.
Les interactions génotype-environnement (GxE) influencent la performance des génotypes dans divers environnements, réduisant la prédictibilité des phénotypes dans les environnements cibles. L'analyse approfondie des interactions GxE facilite l'identification de la manière dont les avantages ou défauts génétiques s'expriment ou sont réprimés sous des conditions environnementales spécifiques, permettant ainsi la sélection génétique et l'amélioration des pratiques de sélection. Cet article présente deux modèles clés pour la recherche sur les interactions GxE. Il inclut spécifiquement l'analyse de significativité basée sur le modèle à effets mixtes pour déterminer si les gènes ou les interactions GxE affectent significativement les traits phénotypiques ; et l'analyse de stabilité, qui examine plus en détail les relations interactives entre les gènes et les environnements, ainsi que la supériorité ou l'infériorité relative des génotypes dans différents environnements. De plus, cet article présente RGxEStat, un outil interactif léger développé par les auteurs, qui intègre la construction, la résolution et la visualisation des modèles précités. Conçu pour éviter aux sélectionneurs et agronomes d'apprendre la programmation complexe SAS ou R, RGxEStat offre une interface conviviale pour une analyse rationalisée des données de sélection, accélérant significativement les cycles de recherche. Les codes et jeux de données sont disponibles à l'adresse https://github.com/mason-ching/RGxEStat.
Nous présentons JuRe (Just Repair), un réseau de débiaisage minimal pour la détection d'anomalies dans les séries temporelles, qui met en lumière un résultat central : la complexité architecturale est superflue lorsque l'objectif d'apprentissage met correctement en œuvre le principe de projection sur la variété. JuRe est constitué d'un unique bloc résiduel convolutionnel séparable en profondeur avec une dimension cachée de 128, entraîné à réparer des fenêtres de séries temporelles corrompues et évalué à l'inférence par une fonction de divergence structurelle fixe et sans paramètre. Bien qu'il n'utilise ni mécanisme d'attention, ni variable latente, ni composant adversarial, JuRe se classe deuxième sur le benchmark multivarié TSB-AD (AUC-PR 0,404, 180 séries, 17 jeux de données) et deuxième sur l'archive univariée UCR selon l'AUC-PR (0,198, 250 séries), devançant toutes les bases de référence neuronales en termes d'AUC-PR et de VUS-PR. Une ablation des composants sur TSB-AD identifie la corruption pendant l'entraînement comme le facteur dominant (ΔAUC-PR = 0,047 lors de sa suppression), confirmant que c'est l'objectif de débiaisage, et non la capacité du réseau, qui détermine la qualité de la détection. Des tests de Wilcoxon appariés établissent une significativité statistique contre 21 des 25 bases de référence sur TSB-AD. Le code est disponible à l'adresse https://github.com/iis-esslingen/JuRe.
Nous publions Terminal Wrench, un sous-ensemble de 331 environnements de référence pour agents terminaux, copiés à partir de benchmarks ouverts populaires qui sont démontrablement vulnérables au détournement de récompense (reward-hacking). Le jeu de données comprend 3 632 trajectoires de piratage et 2 352 trajectoires légitimes de référence, issues de trois modèles frontières (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Chaque entrée conserve la définition originale de la tâche ainsi que les trajectoires d'attaque complètes montrant comment le vérificateur a été contourné. Il inclut également des cas où la tâche n'a pas été résolue comme prévu. Les tâches couvrent des défis d'administration système, d'apprentissage automatique, d'ingénierie logicielle et de sécurité ; les exploits vont de la simple falsification de sortie à l'introspection de la pile d'exécution, au patchage de bibliothèques standard et à la détournement de binaires de type rootkit. De manière cruciale, ces exploits sont spécifiques à chaque tâche, plutôt qu'au cadre d'évaluation lui-même, ce qui les rend plus difficiles à corriger. Nous présentons également une étude de monitorabilité dans laquelle les trajectoires de piratage sont assainies ou privées de leurs traces de raisonnement, puis évaluées par un juge LLM, montrant que la détection se dégrade significativement lorsque la chaîne de raisonnement (chain-of-thought) est supprimée (l'AUC chute de 0,97 à 0,92). Le jeu de données est publiquement disponible à l'adresse https://github.com/few-sh/terminal-wrench.
Le problème architectural le plus important en IA n'est pas la taille du modèle, mais l'absence d'une couche qui perpétue ce que le modèle a compris. Les sessions se terminent. Les fenêtres de contexte se remplissent. Les API de mémoire renvoient des faits bruts que le modèle doit réinterpréter à partir de zéro à chaque lecture. Le résultat est une intelligence puissante par session, mais amnésique dans la durée. Ce document de position soutient que la couche qui résout ce problème, la couche de continuité, est l'infrastructure la plus conséquente que le domaine n'ait pas encore construite, et que les travaux d'ingénierie pour la construire ont commencé publiquement. Le cadre d'évaluation formel pour la propriété décrite ici est le benchmark ATANT (arXiv:2604.06710), publié séparément avec des résultats d'évaluation sur un corpus de 250 histoires ; un article compagnon (arXiv:2604.10981) positionne ce cadre par rapport aux benchmarks existants en matière de mémoire, de contexte long et de mémoire agentique. L'article définit la continuité comme une propriété systémique à sept caractéristiques requises, distincte de la mémoire et de la récupération ; décrit une primitive de stockage (Mémoire à Convergence de Traces Décomposées) dont la décomposition à l'écriture et la reconstruction à la lecture produisent cette propriété ; cartographie l'architecture technique sur le motif théologique de la kénose et le motif symbolique de l'Alpha et de l'Oméga, et soutient que cette cartographie est structurelle plutôt que métaphorique ; propose un arc de développement à quatre couches, depuis un SDK externe jusqu'à un nœud matériel et une infrastructure humaine à long terme ; examine pourquoi les limites physiques qui contraignent désormais la couche modèle rendent la couche de continuité nouvellement conséquente ; et soutient que l'architecture de gouvernance (la confidentialité implémentée comme une physique plutôt que comme une politique, des actions de classe contrôlées par le fondateur sur des engagements architecturaux non négociables) est indissociable du produit lui-même.
Les représentations par graphes de scène permettent une compréhension visuelle structurée en modélisant les objets et leurs relations, et sont largement utilisées pour le raisonnement multivue et 3D sur les scènes. Les méthodes existantes comme MSG apprennent des plongements de graphes de scène dans l'espace euclidien en utilisant l'apprentissage contrastif et l'association par attention. Cependant, la géométrie euclidienne ne capture pas explicitement les relations d'implication hiérarchique entre les lieux et les objets, limitant la cohérence structurelle des représentations apprises. Pour résoudre ce problème, nous proposons Hyperbolic Scene Graph (HSG), qui apprend des plongements de graphes de scène dans l'espace hyperbolique où les relations hiérarchiques sont naturellement encodées par la distance géométrique. Nos résultats montrent que HSG améliore la qualité de la structure hiérarchique tout en maintenant de solides performances de recherche. Les gains les plus importants sont observés sur les métriques au niveau du graphe : HSG atteint un IoU PP de 33,17 et le plus haut Graph IoU de 33,51, surpassant la meilleure variante d'AoMSG (25,37) de 8,14, ce qui souligne l'efficacité de l'apprentissage de représentations hyperboliques pour la modélisation par graphes de scène. Code : https://github.com/AIGeeksGroup/HSG.
Les grands modèles de langage (LLM) de type « decodeur uniquement » remplacent progressivement les architectures de type BERT comme fondement de la recherche dense, obtenant des gains de performance substantiels et une adoption généralisée. Cependant, la robustesse de ces systèmes de recherche basés sur les LLM reste peu explorée. Dans cet article, nous présentons la première étude systématique de la robustesse des meilleurs systèmes de recherche dense open-source basés sur des LLM, selon deux perspectives complémentaires : la généralisabilité et la stabilité. Pour la généralisabilité, nous évaluons l'efficacité de la recherche sur quatre benchmarks couvrant 30 jeux de données, en utilisant des modèles linéaires à effets mixtes pour estimer la performance moyenne marginale et distinguer la capacité intrinsèque du modèle de l'hétérogénéité des jeux de données. Notre analyse révèle que si les modèles ajustés par instructions excellent généralement, ceux optimisés pour le raisonnement complexe subissent souvent une « taxe de spécialisation », affichant une généralisabilité limitée dans des contextes plus larges. Pour la stabilité, nous évaluons la résilience des modèles face à la fois aux variations involontaires des requêtes (par exemple, paraphrases, fautes de frappe) et aux attaques adversaires malveillantes (par exemple, l'empoisonnement du corpus). Nous constatons que les systèmes de recherche basés sur les LLM montrent une robustesse améliorée contre les fautes de frappe et l'empoisonnement du corpus par rapport aux modèles de référence de type « encodeur uniquement », mais restent vulnérables aux perturbations sémantiques comme la substitution par synonymes. Une analyse plus poussée montre que la géométrie des embeddings (par exemple, l'uniformité angulaire) fournit des signaux prédictifs pour la stabilité lexicale et suggère que l'augmentation de la taille des modèles améliore généralement la robustesse. Ces résultats éclairent la conception future de systèmes de recherche conscients de la robustesse et l'établissement de benchmarks principés. Notre code est disponible publiquement à l'adresse https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.
Nous présentons la première version de KWBench (Knowledge Work Bench), un benchmark pour l'identification non sollicitée de problèmes par les grands modèles de langage : un LLM peut-il reconnaître un scénario professionnel avant de tenter de le résoudre ? Les benchmarks de pointe existants ont atteint la saturation, et la plupart des évaluations du travail intellectuel se réduisent à de l'extraction ou à l'exécution de tâches selon un cahier des charges. KWBench cible l'étape précédente : reconnaître la structure sous-jacente de la situation à partir des seules données brutes. Le benchmark contient 223 tâches provenant de praticiens dans les domaines des acquisitions, des négociations contractuelles, de la pharmacie clinique, des dynamiques organisationnelles, de l'analyse de fraude et de la conception d'incitations. Chaque tâche encode un schéma formel de théorie des jeux (conflit de principal-agent, signalisation, défaillance de la conception de mécanismes, omission stratégique, dynamiques de coalition, interdépendance stratégique) et comporte une vérité terrain structurée enregistrant l'interprétation experte de la situation et les modes de défaillance anticipés. Les modèles reçoivent des données brutes et une consigne sans indication du type de problème. La notation suit un barème à trois niveaux conditionné par une vérification conjonctive obligatoire. Les critères obligatoires encodent les fausses pistes prédites. Nous évaluons 16 modèles. Le meilleur modèle réussit 27,9 % des tâches. Les deux meilleurs modèles ne sont d'accord que sur 31,7 % de leurs réussites. Parmi les 8 premiers, 44 tâches sont résolues par un seul modèle ; l'acheminement des requêtes parmi les 8 meilleurs modèles couvre 50,7 % du benchmark, soit près du double du meilleur modèle unique. Conditionnellement à la réussite, les scores de qualité convergent (environ 83 % pour tous les modèles) ; les scores non conditionnels divergent. Les mêmes modèles formulent correctement le concept de théorie des jeux pertinent lorsqu'on le leur demande, puis échouent à l'appliquer sans consigne explicite. Nous publions KWBench pour faire évoluer l'évaluation des modèles de pointe sur le travail intellectuel, en les notant sur leur capacité à identifier le bon problème à partir de la seule situation, et pas seulement sur leur performance une fois le problème cadré pour eux.
Les agents d'IA qui interagissent avec leur environnement par le biais d'outils permettent des applications puissantes, mais dans des contextes commerciaux à haut risque, des actions non intentionnées peuvent causer des préjudices inacceptables, tels que des violations de la vie privée et des pertes financières. Les mesures d'atténuation existantes, comme les méthodes basées sur l'apprentissage et les garde-fous neuronaux, améliorent la fiabilité des agents mais ne peuvent offrir de garanties. Nous étudions les garde-fous symboliques comme une voie pratique vers des garanties solides de sécurité et de sûreté pour les agents d'IA. Notre étude en trois parties comprend un examen systématique de 80 benchmarks de pointe en sécurité et sûreté des agents pour identifier les politiques qu'ils évaluent, une analyse des exigences politiques pouvant être garanties par des garde-fous symboliques, et une évaluation de l'impact de ces garde-fous sur la sécurité, la sûreté et le succès des agents sur τ²-Bench, CAR-bench et MedAgentBench. Nous constatons que 85 % des benchmarks manquent de politiques concrètes, reposant plutôt sur des objectifs de haut niveau sous-spécifiés ou le bon sens. Parmi les politiques spécifiées, 74 % des exigences peuvent être appliquées par des garde-fous symboliques, souvent en utilisant des mécanismes simples et peu coûteux. Ces garde-fous améliorent la sécurité et la sûreté sans sacrifier l'utilité des agents. Globalement, nos résultats suggèrent que les garde-fous symboliques sont un moyen pratique et efficace de garantir certaines exigences de sécurité et de sûreté, en particulier pour les agents d'IA spécialisés. Nous rendons publics tous les codes et artefacts sur https://github.com/hyn0027/agent-symbolic-guardrails.
La distillation des connaissances est une technique largement adoptée pour transférer les capacités des grands modèles de langage (LLM) vers des modèles étudiants plus petits et plus efficaces. Cependant, l'utilisation non autorisée de la distillation de connaissances tire un avantage injuste des efforts et des coûts considérables engagés dans le développement des modèles de pointe. Nous étudions des méthodes pour modifier les traces de raisonnement générées par l'enseignant afin d'atteindre deux objectifs visant à dissuader la distillation non autorisée : (1) l'anti-distillation, c'est-à-dire la dégradation de l'utilité pédagogique des réponses aux requêtes, et (2) le tatouage d'API, qui intègre des signatures vérifiables dans les modèles étudiants. Nous présentons plusieurs approches pour réécrire dynamiquement les sorties de raisonnement d'un enseignant tout en préservant l'exactitude des réponses et la cohérence sémantique. Deux d'entre elles exploitent les capacités de réécriture des LLM, tandis que d'autres utilisent des techniques basées sur le gradient. Nos expériences montrent qu'une approche simple de réécriture par instruction atteint un fort effet d'anti-distillation tout en maintenant, voire en améliorant, les performances de l'enseignant. De plus, nous montrons que notre approche de réécriture permet également d'incorporer des tatouages qui peuvent être détectés de manière fiable avec pratiquement aucune fausse alarme. Notre code est disponible à l'adresse https://github.com/xhOwenMa/trace-rewriting.