Articles de recherche IA sélectionnés quotidiennement avec traductions
L'apprentissage par renforcement est devenu un paradigme standard pour aligner les grands modèles de langage sur les intentions humaines et les exigences des tâches. Bien que l'Optimisation Relative de Politique par Groupes (Group Relative Policy Optimization, GRPO) offre une alternative efficace, sans modèle de valeur, à l'Optimisation de Politique Proximale (Proximal Policy Optimization, PPO), son adaptation à des contextes multi-récompenses réels reste difficile. Les pratiques standard de scalarisation, telles que la Combinaison de Récompenses (Reward Combination) et la Combinaison d'Avantages (Advantage Combination), présentent des inconvénients majeurs : la Combinaison de Récompenses génère fréquemment des avantages avec des magnitudes carrées excessivement grandes entraînant une instabilité d'entraînement, tandis que la Combinaison d'Avantages repose sur des hyperparamètres statiques et ignore les corrélations entre objectifs. Pour remédier à ces limitations, nous proposons l'Optimisation Dynamique d'Avantage Adaptative à la Variance (Dynamic Variance-adaptive Advantage Optimization, DVAO), qui ajuste dynamiquement les poids de combinaison en fonction de la variance empirique des récompenses de chaque objectif au sein d'un groupe de déploiement, augmentant efficacement le poids des objectifs avec un signal d'apprentissage plus fort tout en supprimant ceux qui sont bruyants. Nous prouvons mathématiquement que DVAO maintient des magnitudes d'avantage bornées pour un entraînement stable et introduit un mécanisme de régularisation croisée auto-adaptatif entre objectifs. Des expériences approfondies sur des références de raisonnement mathématique et d'utilisation d'outils utilisant les modèles Qwen3 et Qwen2.5 démontrent que DVAO surpasse significativement les méthodes de base, atteignant une frontière de Pareto multi-objectifs supérieure et une robustesse d'entraînement stable.
Les modèles de monde interactifs progressent rapidement, mais les référentiels existants ne couvrent qu'une partie des compétences requises, sans norme unifiée pour une évaluation systématique. Pour combler cette lacune, nous présentons WBench, un référentiel complet multi-tour pour l'évaluation des modèles de monde interactifs selon cinq dimensions : qualité vidéo, respect du paramétrage, respect de l'interaction, cohérence et conformité physique. WBench contient 289 cas de test et 1058 tours d'interaction, chaque cas spécifiant un paramétrage du monde et une séquence d'interactions multi-tour, couvrant diverses scènes, styles, sujets, ainsi que des perspectives à la première et à la troisième personne, et quatre types d'interaction incluant la navigation, l'action du sujet, l'édition d'événements et le changement de perspective. Pour la navigation, WBench unifie le contrôle par texte, par pose à 6 degrés de liberté et par actions discrètes, permettant d'évaluer des modèles dotés d'interfaces d'entrée natives différentes. L'évaluation utilise 22 sous-métriques automatiques qui combinent des modèles de vision spécialisés avec de grands modèles multimodaux, et toutes les métriques sont validées par rapport aux jugements humains. Sur 20 modèles de pointe, nous constatons qu'aucun modèle unique n'obtient de bonnes performances sur toutes les dimensions. Nous fournissons des analyses diagnostiques détaillées sur les forces, les faiblesses et les défis ouverts de chaque modèle. Le code et les données sont disponibles à l'adresse https://github.com/meituan-longcat/WBench.
Alors que les agents personnels évoluent pour gérer des tâches complexes centrées sur l'utilisateur, le chat textuel statique devient rapidement un goulot d'étranglement. L'UI générative émerge comme la nouvelle couche d'interface nécessaire, synthétisant dynamiquement en temps réel les contrôles, options et état appropriés à partir du contexte d'interaction. Nous présentons Macaron-A2UI, un modèle d'UI générative pour les agents personnels. Notre objectif est d'aller au-delà de l'interaction uniquement textuelle en permettant aux agents de générer du langage naturel ainsi que des actions UI légères et exécutables pour la collecte d'informations, l'affinage des préférences, la confirmation et l'organisation multi-objectifs. Nous construisons un corpus d'UI générative à grande échelle à partir de sources hétérogènes de dialogues, introduisons A2UI-Bench pour une évaluation contrôlée, et entraînons des modèles de 30B, 235B et 754B paramètres avec un ajustement supervisé efficace en paramètres basé sur LoRA, suivi d'un apprentissage par renforcement guidé par récompense. Le meilleur modèle Macaron-A2UI atteint un score global de 75,6 sur A2UI-Bench sans indications explicites de schéma, surpassant la baseline de pointe la plus forte disposant d'un schéma complet. Nous publions les modèles, le benchmark et le protocole d'évaluation pour soutenir les travaux futurs sur l'UI générative pour les agents personnels.
Les agents autonomes passent du statut d'outils à celui de couche d'infrastructure sociale : ils naviguent, achètent, déploient des logiciels, gèrent des systèmes et interagissent de plus en plus entre eux. À mesure que ces systèmes passent à l'échelle, le goulot d'étranglement se déplace de la capacité brute des modèles vers la coordination. Les agents doivent établir des relations fiables, organiser le travail multi-agents, échanger de la valeur, soutenir une économie de l'IA, et rester sûrs et responsables sous une supervision réelle. Cet article présente le Protocole Fondation (FP), une couche de coordination centrée sur les graphes pour une société humain-IA émergente. FP unifie des entités hétérogènes, notamment des agents, des outils, des ressources, des humains, des institutions et des organisations, et prend en charge l'organisation native multi-parties et la collaboration basée sur les événements. Il fournit également des primitives économiques pour le comptage, les reçus et le règlement, et traite la politique, la provenance et l'audit comme des préoccupations de premier ordre. FP est conçu pour encapsuler et relier les protocoles existants plutôt que de les remplacer, permettant une adoption incrémentale tout en réduisant la surcharge d'intégration et de gouvernance. L'objectif est de maintenir l'agence autonome composable tout en rendant la responsabilité non négociable, afin que la coordination elle-même puisse devenir une infrastructure partagée pour une société humain-IA ouverte, pluraliste et gouvernable.
La reconstruction 3D à vues clairsemées est de plus en plus traitée par des réseaux de *splatting* feed-forward qui prédisent des primitives explicites directement à partir des images. Pourtant, la plupart des méthodes existantes restent centrées sur les primitives gaussiennes et n’exposent les surfaces qu’indirectement : l’extraction d’un maillage exploitable pour la simulation en aval, le raisonnement physique ou l’interaction incarnée nécessite encore des étapes *post-hoc* coûteuses qui rompent la promesse du feed-forward. Cette limitation est particulièrement prononcée dans les contextes sans pose, où la structure de la scène et les paramètres de la caméra doivent être estimés conjointement à partir d’observations clairsemées. Nous présentons TriSplat, un réseau de reconstruction feed-forward qui représente les scènes avec des primitives triangulaires orientées et exporte directement, en un seul passage avant, des scènes maillées prêtes pour la simulation. À partir des images d’entrée, le réseau prédit des cartes de points 3D locales, les attributs des triangles, les poses de caméra et, optionnellement, les paramètres intrinsèques. Plutôt que de régresser l’orientation des triangles comme une variable latente non contrainte, notre approche construit les normales de géométrie à partir des cartes de points prédites, les affine avec une tête de normales conditionnée par l’image, et les convertit en repères locaux stables pour la paramétrisation des triangles. Un programme d’amorçage mono-normal stabilise davantage l’entraînement initial, tandis qu’une planification de l’opacité et du flou affine progressivement la représentation de surface apprise pour une extraction directe du maillage. Les expériences sur RealEstate10K et DL3DV montrent que cette représentation produit des reconstructions plus fidèles à la géométrie que les méthodes de base feed-forward à base de gaussiennes, tout en maintenant une qualité de rendu de nouvelle vue compétitive. Étant donné que les primitives de rendu sont elles-mêmes des triangles de surface, la sortie peut être directement ingérée par les moteurs physiques, les détecteurs de collision et les pipelines de rendu standard, sans aucune conversion, ce qui en fait une solution pratique prête pour la simulation pour la reconstruction de scènes 3D feed-forward.
La modélisation multimodale constitue une étape cruciale dans la transition du raisonnement indifférent à la modalité vers la modélisation du monde. Alors que les premières approches reposaient majoritairement sur la fusion tardive, assemblant des encodeurs et des backbones linguistiques figés avec des têtes de sortie, les travaux récents ont déplacé le paradigme vers la modélisation multimodale native (MMN), grâce à une intégration intrinsèque des modalités pour des performances multimodales supérieures. Malgré son potentiel, l'espace de conception des architectures natives reste insuffisamment défini. Dans cet article, nous proposons à la communauté une feuille de route formalisée pour cette transition. Plus précisément, nous définissons formellement la nativité architecturale, en distinguant la fusion intermédiaire et la fusion précoce des paradigmes non natifs. Nous organisons également les modèles natifs existants sous l'angle de la dualité entrée-sortie en trois catégories : (i) Multi-vers-Texte pour la compréhension cross-modale avec sortie textuelle uniquement ; (ii) Multi-vers-Cible pour la génération orientée scénario, par exemple la génération d'images, d'audio et de vidéo ; et (iii) Multi-vers-Multi pour une modélisation unifiée avec entrée-sortie symétrique. Nous menons une enquête complète et de niveau industriel sur la transition vers le cadre définitif de la MMN, où compréhension et génération coexistent harmonieusement au sein d'un paradigme unifié de transformeur. Nous décortiquons systématiquement le pipeline de bout en bout sous des angles industriels, allant de la coordination architecturale, la curation massive de données, aux recettes d'entraînement complètes, l'inférence et le déploiement, ainsi qu'à l'évaluation exhaustive pour une modélisation véritablement native.
L’entraînement de grands modèles multimodaux (LMM) par apprentissage par renforcement (RL) pour appeler nativement des outils de traitement vidéo (ex. recadrage) est devenu une voie prometteuse pour la compréhension de vidéos longues. Cependant, les méthodes RL natives existantes envoient les appels d’outils de manière séquentielle (un par tour) : un seul mauvais recadrage propage des erreurs sans correction par les pairs, les appels d’outils multi-tours corrompent le contexte, et le coût d’inférence évolue linéairement avec le nombre de tours. Nous introduisons ParaVT, le premier cadre multi-agent entraîné par RL de bout en bout pour l’appel parallèle d’outils vidéo, envoyant plusieurs recadrages par fenêtre temporelle en un seul tour pour un contexte plus propre et une meilleure tolérance aux pannes. Cependant, l’application du RL standard à ParaVT révèle un obstacle que nous appelons le Paradoxe du Prior d’Outil : les a priori d’outils pré-entraînés qui permettent l’exploration des outils déstabilisent également le format structurel démarré à froid et exposent le raccourci de récompense pour saut d’outil sous échantillonnage de température. Un contraste inter-modèle sur un LMM à prior plus faible appuie cette affirmation : le format reste stable mais le RL ne suscite aucun appel d’outil, indiquant que la force du prior est le facteur commun à la fois de l’effondrement du format et de l’exploration des outils. Nous proposons PARA-GRPO (GRPO Ancré sur la Parsabilité et Régulé par Ratio), qui enrichit le RL standard de deux mécanismes complémentaires : (i) une récompense de format ciblée appliquée uniquement aux positions de tokens structurels les plus sujettes à l’effondrement, et (ii) une randomisation du budget de trames par prompt qui crée des prompts d’entraînement où l’appel à l’outil produit un signal de récompense mesurable par rapport au fait de le sauter. Sur six bancs d’essai de compréhension de vidéos longues, ParaVT améliore la référence Qwen3-VL de +7,9 % en moyenne, tandis que PARA-GRPO élève la conformité de format en entraînement de 0,13 à 0,64. À mesure que les capacités des outils sont de plus en plus internalisées dans les LMM modernes, le RL doit coopérer avec les a priori qui en résultent, et ParaVT offre une recette générale pour le RL agentique. Le code, les données et les poids du modèle sont disponibles publiquement.
Les agents de recherche profonde étendent le rôle des moteurs de recherche, passant de la récupération de pages correspondant à des mots-clés à la synthèse de connaissances, transformant fondamentalement la manière dont les humains interagissent avec l'information. Cependant, les systèmes de pointe restent propriétaires, tandis que les agents ouverts existants généralisent souvent mal sur différents types de tâches, laissant incertaine la méthode pour entraîner un agent de recherche profonde aux capacités étendues. Nous publions QUEST, une famille de modèles ouverts (de 2B à 35B) qui servent d'agents de recherche profonde polyvalents, conçus pour traiter une large gamme de tâches de recherche à long horizon, avec de fortes capacités de recherche de faits, d'ancrage des citations et de synthèse de rapports. Pour construire QUEST, nous proposons une recette d'entraînement efficace combinant pré-entraînement intermédiaire, fine-tuning supervisé et apprentissage par renforcement. Au cœur de cette recette se trouve un pipeline de synthèse de données organisées basé sur des arbres de rubriques unifiés, applicable à différents types de tâches et permettant de synthétiser des données d'entraînement avec des récompenses vérifiables sans annotation humaine. De plus, QUEST intègre un mécanisme de gestion de contexte intégré qui permet un raisonnement efficace à long horizon et une synthèse des connaissances. En utilisant seulement 8 000 tâches synthétisées, QUEST approche, voire dépasse, les agents fermés de pointe dans huit références de recherche profonde couvrant divers types de tâches, et obtient la meilleure performance globale parmi les agents ouverts récents. Nous avons tout publié : modèles, données et scripts d'entraînement.
Les algorithmes d'attention efficaces sont essentiels pour atténuer le coût quadratique de l'attention dans les charges de travail à contexte long. Des travaux antérieurs utilisent des techniques de quantification à échelle de blocs sur les GPU Blackwell pour déplacer le calcul de l'attention vers une précision 4 bits afin d'accélérer l'inférence. Cependant, ces techniques entraînent une dégradation significative de la qualité dans les contextes longs. Nous montrons que l'impact de l'erreur de quantification est hautement non uniforme et augmente avec l'importance de chaque interaction requête-clé, concentrant l'erreur fonctionnellement pertinente dans un petit nombre de blocs d'attention contenant les jetons les plus importants. Nous proposons ThriftAttention, une variante d'attention à faible précision qui offre une qualité de contexte long proche du FP16 avec une efficacité d'inférence FP4. Cette approche se déroule en deux étapes. Premièrement, une heuristique sélectionne rapidement un petit nombre de paires de blocs requête-clé importants pour la précision FP16. Deuxièmement, les blocs sélectionnés sont calculés en FP16 et les blocs restants en FP4, les deux chemins étant fusionnés via un softmax en ligne en une seule sortie. Nous démontrons sur des bancs d'essai à contexte long et des familles de modèles qu'en calculant seulement 5 % des paires de blocs requête-clé en FP16, ThriftAttention comble en moyenne 89,1 % de l'écart de performance entre FP4 et FP16. Nous montrons que l'avantage de ThriftAttention augmente avec la longueur de la séquence, atténuant la dégradation systématique de la qualité FP4 observée dans les contextes plus longs. Le code est disponible à l'adresse https://github.com/joesharratt1229/ThriftAttention.
La recherche scientifique est remodelée par des systèmes d'IA qui dépassent l'assistance isolée pour s'orienter vers des flux de travail à plus long horizon, couvrant l'ancrage dans la littérature, la génération d'hypothèses, l'expérimentation, la validation, le rapport et la révision. Ce changement marque une transition de l'IA au niveau des tâches pour la science vers une automatisation de la recherche au niveau du flux de travail. Pourtant, les systèmes actuels restent fragmentés, différant par leur autonomie, leur portée de domaine, leur environnement d'exécution, leur mécanisme de validation et leur supervision humaine, tout en continuant à lutter avec la préservation des preuves, la reproductibilité, le rejet des directions faibles, la traçabilité de la provenance, la robustesse inter-domaines et la clôture scientifique responsable. Cette étude examine ces développements à travers l'AutoResearch, définie comme le spectre développemental de l'automatisation des flux de travail scientifiques alimentée par l'IA. En son sein, la Vibe Research désigne la zone pilotée par l'humain, celle de l'assistance par invites et de l'exécution vérifiée par l'humain, tandis que les systèmes émergents dirigés par l'IA coordonnent des portions plus grandes de la boucle de découverte sans atteindre une autonomie robuste. Nous analysons comment les systèmes de recherche redistribuent le contrôle, les preuves, l'exécution, la validation et la responsabilité à travers les flux de travail, et organisons le domaine autour de cinq conditions de flux de travail : l'ancrage dans la littérature et la recherche ; la formation d'hypothèses et la planification ; l'expérimentation et l'utilisation d'outils ; le retour d'information, la validation et la révision ; et le rapport et la communication des connaissances. Nous synthétisons en outre les systèmes de scientifique IA, les cadres de co-recherche à initiative mixte, les bancs d'essai, les déploiements dans des domaines et les infrastructures open-source. Enfin, nous proposons cinq dimensions d'évaluation — nouveauté, validité, impact, fiabilité et provenance — et montrons que l'autonomie d'AutoResearch est conditionnée par le domaine, étant plus crédible dans des contextes structurés, exécutables et rapidement vérifiables, mais limitée dans des contextes incarnés, différés, hétérogènes, éthiques ou institutionnellement responsables.
La recherche multimodale repose largement sur les récupérateurs mono-vecteurs, qui compressent des séquences riches et séquentielles de tokens en une seule représentation globale. Bien qu'efficaces, ils éliminent les preuves locales et fines, essentielles pour les tâches de recherche dense. Les approches multi-vecteurs ont été introduites comme solution, mais elles nécessitent strictement un apprentissage et beaucoup ignorent la nécessité d'une représentation globalement synthétique. Pour y remédier, nous présentons SMART, un cadre qui déverrouille les capacités multi-vecteurs latentes des modèles mono-vecteurs standard. Nous montrons d'abord que l'apprentissage contrastif standard sur le plongement agrégé façonne implicitement la géométrie de recherche des états cachés précédents via le flux de gradient. En appliquant une interaction tardive directe sur ces états cachés gelés lors de l'inférence, SMART agit comme une mise à niveau prête à l'emploi qui améliore constamment les performances sur diverses modalités, améliorant même les modèles de pointe sur MMEB-V2. Nous révélons également la performance supérieure de SMART, car un simple post-entraînement léger permet non seulement d'économiser du temps et du calcul, mais aussi d'apporter une amélioration supplémentaire sur la recherche de documents visuels, permettant à un modèle mono-vecteur de surpasser les homologues multi-vecteurs de pointe. En fin de compte, SMART offre à la fois une amélioration d'inférence très efficace et une technique de réglage fin puissante pour la recherche multimodale. Nous publions notre code et nos poids en open source à l'adresse https://github.com/HanSolo9682/SMART.
La génération complète de jumeaux numériques à partir de vidéos nécessite un contrôle précis de la caméra, une couverture globale de la scène et des contraintes strictes de cohérence spatio-temporelle, qui restent difficiles à atteindre pour les générateurs de vidéos perspectives en raison de leur champ de vision (FOV) limité. Leur FOV étroit impose des trajectoires longues ou multi-vues, amplifiant les incohérences inter-vues et la dérive temporelle. Nous soutenons que la génération de vidéos à 360° offre une solution naturelle : la couverture panoramique simplifie la conception des trajectoires et fournit un contexte global solide pour maintenir la cohérence. Nous présentons Pantheon360 : Apprivoiser la génération de jumeaux numériques via la diffusion vidéo à 360° tenant compte de la 3D, un cadre de génération de vidéos à 360° contrôlable qui synthétise des vidéos haute fidélité à partir d'entrées 360° clairsemées. L'idée clé est un Cache 3D explicite, reconstruit à partir de l'entrée, qui sert d'échafaudage géométrique pour tout chemin de caméra défini par l'utilisateur. Cela permet au modèle de diffusion de se concentrer sur le raffinement photoréaliste des textures tandis que le Cache 3D impose une cohérence géométrique globale. Les expériences montrent que Pantheon360 atteint une qualité visuelle supérieure et une cohérence géométrique inégalée, permettant une génération de scènes à 360° fiable et flexible pour les applications en aval de simulation et de jumeaux numériques.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a permis des avancées majeures dans des domaines tels que les mathématiques, l'utilisation d'outils et le génie logiciel, mais son extension aux agents d'utilisation d'ordinateur (CUA) a été freinée par la rareté des données d'entraînement passibles avec des récompenses déterministes. Construire de telles données pour les CUA nécessite une instruction de tâche cohérente, un environnement exécutable et une récompense vérifiable. Cependant, les benchmarks conçus manuellement offrent une grande fidélité des récompenses mais couvrent peu d'applications, tandis que les ensembles de données basés sur un LLM en tant que juge s'étendent largement mais manquent de vérification fiable. Nous présentons CUA-Gym, un pipeline passible qui génère conjointement les instructions de tâche, les états d'environnement et les fonctions de récompense. Concrètement, un agent générateur construit les états initial et idéal de l'environnement, et un agent discriminateur distinct rédige la fonction de récompense à partir de la spécification de la tâche. Un agent orchestrateur pilote les deux à travers des itérations successives lors de l'exécution. Les tuples générés passent ensuite un filtre final combinant un vote majoritaire du LLM et des déploiements d'agents, garantissant une qualité au-delà de la boucle adverse par tâche. Pour remédier à la rareté des environnements d'entraînement, nous synthétisons en outre CUA-Gym-Hub, un vaste ensemble d'applications web simulées de haute fidélité, ancrées dans les distributions réelles d'utilisation de logiciels, multipliant ainsi l'échelle des données RLVR pour CUA. En utilisant ce pipeline, nous construisons CUA-Gym, un ensemble de données de 32 112 tuples d'entraînement RLVR vérifiés, reposant sur 110 environnements. Entraînés avec GSPO sur CUA-Gym, nos modèles CUA-Gym-A3B et CUA-Gym-A17B atteignent respectivement 62,1 % et 72,6 % sur OSWorld-Verified, surpassant les CUA open source précédents à des échelles comparables, avec une performance augmentant régulièrement en fonction du volume de données et de la diversité des environnements. Les mêmes points de contrôle s'améliorent également sur le benchmark indépendant WebArena, indiquant un transfert au-delà des environnements d'entraînement. Nous rendrons open source l'intégralité du pipeline de synthèse, l'ensemble de données, les environnements CUA-Gym-Hub et les modèles.
Les méthodes existantes d’amélioration en faible lumière basées sur l’apprentissage profond sont généralement entraînées sur des ensembles de données limités avec des cibles d’amélioration uniques, ce qui restreint leur capacité de généralisation et leur contrôlabilité dans les applications réelles. Pour surmonter ces limitations, nous proposons ControlLight, un cadre contrôlable, cohérent et généralisable pour l’amélioration en faible lumière. Nous construisons d’abord un ensemble de données à grande échelle d’images dégradées réelles avec une supervision continue de l’intensité lumineuse. Pour garantir en outre des résultats cohérents sous différentes intensités de contrôle, nous introduisons une perte de correspondance de flux pondérée sensible au désalignement qui préserve la structure de l’image à travers des intensités d’amélioration continues. ControlLight permet aux utilisateurs d’éditer des images réelles dégradées en faible lumière vers des résultats d’amélioration satisfaisants en contrôlant flexiblement l’intensité tout en préservant la cohérence visuelle et le réalisme. Des expériences approfondies montrent que ControlLight atteint des performances de pointe par rapport aux approches existantes d’amélioration en faible lumière, tout en démontrant une forte contrôlabilité continue et une généralisation aux scénarios réels.
Les agents basés sur de grands modèles de langage sont de plus en plus envisagés comme des assistants personnels permanents, capables d'accéder à tout élément pertinent de l'univers numérique de l'utilisateur. Pourtant, les systèmes actuels n'opèrent que sur des fragments limités de cet univers, restreignant ainsi le raisonnement contextuel et l'assistance efficace. Les benchmarks existants ne fournissent également qu'un état partiel de l'utilisateur et échouent donc à capturer les performances dans un cadre aussi large et permanent. Pour combler cette lacune, nous présentons Claw-Anything, un benchmark qui élargit le contexte de l'agent selon trois dimensions : les historiques d'activité à long terme, les services backend interdépendants, et l'interaction intégrée entre interface graphique (GUI) et ligne de commande (CLI) sur plusieurs appareils. Pour concrétiser ce cadre, nous simulons des mois d'activité utilisateur via une injection d'événements en plusieurs cycles, produisant des états du monde complexes et un bruit réaliste, incluant des événements non pertinents et des signaux contradictoires. Les agents doivent raisonner sur des environnements contextuels riches tout en restant robustes face à ce bruit. Cette portée élargie permet également d'évaluer l'assistance proactive, exigeant que les agents anticipent les besoins de l'utilisateur et fournissent des recommandations en temps opportun. Les expériences montrent que GPT-5.5 n'atteint qu'un score de 34,5 % en pass@1, bien en deçà des benchmarks précédents, soulignant un écart entre les capacités actuelles des agents et les exigences d'une assistance personnelle permanente. En parallèle du benchmark, nous publions un pipeline automatisé de génération de données qui produit 2 000 environnements d'entraînement et améliore le modèle de base de 23,7 %, démontrant ainsi l'utilité d'une infrastructure de données évolutive.
Bien que les agents d’intelligence artificielle démontrent des capacités remarquables en matière de raisonnement et d’utilisation d’outils, ils restent fondamentalement réactifs : ils ne calculent des réponses qu’après des sollicitations explicites de l’utilisateur. Ce paradigme néglige une opportunité cruciale : le temps d’inactivité entre les interactions est largement perdu, empêchant les agents de se préparer aux besoins futurs de l’utilisateur. Pour combler cette lacune, nous présentons ProAct, une architecture d’agent proactif qui exploite le calcul en temps d’inactivité pour anticiper et satisfaire les besoins futurs probables de l’utilisateur. En analysant l’historique de dialogue en évolution conjointement avec une mémoire persistante, ProAct prédit les besoins à venir et acquiert itérativement des informations, permettant à l’agent de combler les lacunes de connaissances et de préparer des preuves avant que l’utilisateur n’émette une requête. Pour évaluer rigoureusement les capacités proactives, nous introduisons également ProActEval, un référentiel complet comprenant 200 scénarios dans 40 domaines, présentant des chaînes de besoins prévisibles et divers profils cognitifs d’utilisateurs. Les résultats empiriques montrent des avantages significatifs par rapport aux bases réactives. ProAct accélère l’achèvement des tâches en réduisant le nombre de tours requis de 14,8 %, diminue l’effort de l’utilisateur de 11,7 % et réduit les taux d’hallucination de 28,1 % sur ProActEval. De plus, les évaluations MemBench confirment que ProAct atteint une précision réflexive de pointe, soulignant sa performance soutenue et robuste.
Les générateurs vidéo autorégressifs sont attrayants pour les applications en streaming, à long horizon et interactives, mais il reste difficile de distiller des enseignants puissants de type boîte noire vers des étudiants causaux. L'étudiant doit apprendre sous sa propre distribution de déploiement, tandis que les enseignants pratiques peuvent n'exposer que des vidéos complétées conditionnées par un prompt et peuvent différer en architecture, capacité, conception temporelle et plan d'échantillonnage. Cette interface rend le réglage fin supervisé hors politique, la distillation basée sur les scores inapplicable et l'imitation antagoniste directe trop parcimonieuse pour l'attribution de crédit lors du débruitage. Nous proposons la Distillation par Flux Adversarial (Adversarial Flow Distillation, AFD), un cadre sur politique pour la distillation vidéo hétérogène en boîte noire. L'AFD interroge l'enseignant et déroule l'étudiant actuel sur les mêmes prompts, entraîne un discriminateur de Bradley-Terry apparié par prompt pour estimer l'écart enseignant-étudiant sur échantillons propres, et convertit l'avantage sur politique résultant en mises à jour d'appariement de flux par processus avant sur les états bruités propres à l'étudiant. Ainsi, l'AFD fournit une supervision dense du champ de vélocité sans nécessiter de scores de l'enseignant, de latents, de trajectoires de débruitage, d'alignement d'étapes ni d'apprentissage par renforcement en chaîne inverse. Les expériences sur deux familles d'étudiants AR causaux montrent que l'AFD améliore systématiquement la génération sensible au mouvement et à la physique tout en préservant la qualité vidéo générale, et les ablations valident l'importance de la rétroaction adaptative sur politique et de l'attribution de crédit par processus avant. La méthode ne nécessite que des vidéos propres de l'enseignant et des déroulements de l'étudiant, offrant une voie pratique pour distiller des générateurs vidéo propriétaires ou hétérogènes en étudiants autorégressifs efficaces.
Les agents de modèle de langage de grande taille accumulent des trajectoires épisodiques riches en résolvant des tâches du monde réel, mais il reste incertain si une telle expérience peut être distillée en compétences procédurales réutilisables. Nous présentons SkillEvolBench, un benchmark diagnostique pour évaluer cette étape allant de la réutilisation d'expérience à la formation de compétences. Il contient 180 tâches réparties dans six environnements d'agents du monde réel, organisées en familles de tâches conditionnées par le rôle avec des procédures latentes partagées. Les agents apprennent à partir de tâches d'acquisition, mettent à jour une bibliothèque de compétences externe en utilisant des trajectoires compactées et le retour du vérificateur, puis font face à des tâches de déploiement figées testant le changement de contexte, les raccourcis adversariaux et la composition. En comparant l'évolution des compétences auto-générées et à départ soigneusement sélectionné avec des contrôles sans compétence et à trajectoires brutes, SkillEvolBench sépare l'abstraction procédurale de la capacité de base, des connaissances préalables soigneusement sélectionnées et de la réutilisation directe des traces épisodiques. À travers dix configurations de modèle et trois infrastructures d'agents, nous constatons que les agents actuels s'adaptent souvent localement mais forment rarement des compétences robustes et réutilisables. Les conditions basées sur les compétences peuvent améliorer l'acquisition ou le rejeu, et certains modèles individuels progressent parfois sur des axes de déploiement spécifiques, mais ces gains sont instables sous déploiement figé. La réutilisation de trajectoires brutes surpasse fréquemment les compétences distillées, suggérant que les procédures d'abstraction actuelles éliminent les indices contextuels et procéduraux qui restent utiles pour les tâches futures. Les analyses de capacité et de coût montrent en outre que l'écriture de davantage de compétences ou de bibliothèques de ressources de niveau 3 plus grandes n'est pas suffisante : des mises à jour supplémentaires peuvent améliorer la couverture tout en introduisant une dérive spécifique à l'épisode et un encombrement procédural. Ces résultats positionnent SkillEvolBench comme un banc d'essai pour mesurer quand une expérience ponctuelle devient une connaissance procédurale durable plutôt qu'une mémoire locale de la tâche.
Nous présentons la quantification vectorielle par canal (CVQ), un nouveau paradigme de tokenisation d'images qui remplace les jetons par patch par des jetons par canal. Contrairement à la quantification vectorielle conventionnelle, qui attribue un jeton discret à chaque vecteur de caractéristiques de patch, la CVQ quantifie chaque canal de la carte de caractéristiques. Cette formulation représente une image comme des niveaux discrets de détails visuels, plutôt que comme une grille de patches spatiaux. Basé sur la CVQ, nous introduisons un nouveau cadre autorégressif visuel avec "prédiction du canal suivant". Au lieu de rendre les images patch par patch en ordre raster, notre modèle autorégressif par canal (CAR) prédit les canaux d'image séquentiellement, produisant des détails visuels progressivement enrichis. Plus précisément, il esquisse d'abord la structure globale puis affine les attributs fins, à la manière du flux de travail d'un artiste humain. Empiriquement, nous montrons que : (1) la CVQ atteint une utilisation du codebook de 100 % avec une taille de codebook de 16K+ sans artifices, et améliore considérablement la qualité de reconstruction par rapport à la VQ conventionnelle ; et (2) le CAR obtient un score DPG de 86,7 et un score GenEval de 0,79, démontrant une forte efficacité pour la génération texte-image.
La mémoire est un composant fondamental pour permettre aux agents LLM à long contexte, en soutenant un état persistant à travers les interactions via un cycle de vie continu de service et de mise à jour. Malgré des travaux antérieurs substantiels, les systèmes existants souffrent d'une charge de maintenance importante en raison de deux limitations clés : une gestion d'état à granularité grossière et des pipelines de mise à jour intrinsèquement séquentiels. En particulier, les mises à jour sont souvent étroitement couplées à l'inférence LLM et nécessitent des réécritures complètes de l'état, ce qui entraîne une mauvaise évolutivité et une latence croissante à mesure que la mémoire s'accumule. Pour relever ces défis, nous présentons MemForest, un cadre mémoire qui reformule la mémoire des agents comme un problème de gestion de données temporelles efficace en écriture. MemForest brise le goulot d'étranglement séquentiel via une extraction de chunks en parallèle, découplant la construction de la mémoire en opérations concurrentes et indépendantes. Pour éliminer davantage la maintenance à granularité grossière, nous introduisons MemTree, un index temporel hiérarchique qui organise la mémoire sous forme d'arbres ordonnés dans le temps plutôt que de résumés globaux plats. Cette conception remplace les réécritures complètes de l'état par des mises à jour localisées par nœud, réduisant le coût de maintenance aux chemins d'arbre affectés tout en préservant naturellement les états évoluant dans le temps. Nous évaluons MemForest sur deux benchmarks de mémoire à long contexte, LongMemEval-S et LoCoMo. Sur LongMemEval-S, MemForest atteint la meilleure performance globale parmi les bases de référence avec état, atteignant une précision pass@1 de 79,8 % tout en soutenant un débit de construction mémoire environ 6 fois supérieur à celui des approches de pointe, dont EverMemOS.
Les avancées récentes dans les modèles génératifs soulignent la puissance de la modélisation prenant en compte la géométrie dans des contextes contraints par des variétés. Cependant, pour les images naturelles, le domaine reste confiné à des hypothèses euclidiennes, n'exploitant pas le potentiel des structures géométriques intrinsèques des données. Dans ce travail, nous étudions la géométrie des images naturelles et observons que l'information sémantique est principalement encodée dans les composantes directionnelles, tandis que les composantes normes peuvent être approximées par la moyenne globale. Cette propriété est valable à la fois dans les espaces RVB et latents, suggérant que les images naturelles peuvent être efficacement modélisées sur une hypersphère. En nous appuyant sur cette découverte, nous introduisons le Spherical Optimal Transport Flow Matching (SOT-CFM), qui utilise la distance angulaire, et le Spherical Flow Matching (SFM), qui contraint directement la dynamique sur la variété. Nos expériences montrent que ces méthodes prenant en compte la géométrie obtiennent des performances supérieures par rapport aux références euclidiennes. En fin de compte, ce travail offre une perspective nouvelle qui comble le fossé entre la modélisation basée sur les variétés riemanniennes et la génération d'images naturelles.
Dans cet article, nous présentons InstructSAM, un cadre unifié et rationalisé conçu pour la segmentation multi-instances sous instructions arbitraires. Nous formulons la segmentation d'instances guidée par instructions comme un problème de prédiction de requêtes structurées en ensembles et proposons une interface explicite de raisonnement-à-requête-instance qui relie élégamment un modèle vision-langage (VLM) et SAM3. Plus précisément, un ensemble de requêtes d'instances apprenables est injecté dans le VLM et contextualisé avec des instructions et des informations visuelles, permettant à chaque requête de servir de fente spécifique à une instance. Un mécanisme d'attention hybride favorise en outre l'interaction entre ces requêtes, les tokens visuels et les tokens d'instructions, améliorant le dénombrement des instances et réduisant les prédictions en double. Les requêtes conditionnées par le LLM qui en résultent sont projetées dans l'espace des requêtes du détecteur de SAM3 pour produire une segmentation multi-instances précise en un seul passage avant. Cette conception dote SAM3 d'une compréhension d'instructions de haut niveau, d'un raisonnement compositionnel et d'une prédiction d'instances par ensembles sans modifier son architecture principale. Pour soutenir l'entraînement et l'évaluation, nous construisons en outre Inst2Seg, un ensemble de données et un benchmark de segmentation d'instances basée sur des instructions, à grande échelle et de haute qualité, qui associe des instructions libres à des masques d'instances. Des expériences approfondies mont que seul InstructSAM à l'échelle 2B atteint des résultats solides sur des benchmarks complexes de segmentation guidée par instructions et de référencement au niveau des phrases, surpassant les méthodes de bout en bout antérieures et le pipeline agentique de SAM3 tout en permettant une prédiction multi-instances efficace en un seul passage.
Les chaînes de pensée (CoT) sont devenues centrales pour interpréter et auditer les comportements des grands modèles de langage. Cependant, des preuves croissantes suggèrent que ces traces échouent souvent à représenter fidèlement les calculs sous-jacents aux prédictions d’un modèle. Plusieurs métriques de fidélité ont été proposées, mais on ignore si elles mesurent effectivement la fidélité. Pour répondre à cette question, il est nécessaire de disposer d’étiquettes de vérité terrain, difficiles à obtenir car les calculs internes ne sont pas directement observables. Par conséquent, la plupart des travaux proposant des métriques ne rapportent que des scores absolus ou des comparaisons avec des métriques antérieures, et les rares référentiels existants s’appuient sur des proxys comme la plausibilité ou l’importance, des propriétés orthogonales à la fidélité qui peuvent induire en erreur quant à la confiance accordée à une CoT. Nous relevons ce défi en construisant des tâches dont les résultats révèlent quels calculs intermédiaires ont nécessairement dû les produire, et en développant un pipeline d’annotation automatisé qui fournit des étiquettes de fidélité de vérité terrain, à la fois au niveau des étapes et au niveau de la CoT. En nous appuyant sur cette méthodologie, nous présentons BonaFide, un référentiel de 3 066 CoT étiquetées couvrant 13 tâches et 10 modèles, et l’utilisons pour mener la première évaluation systématique des métriques de fidélité les plus connues. Nos expériences montrent que la plupart des métriques obtiennent des résultats proches du hasard, présentent de forts biais de prédiction et se dégradent sur les CoT plus longues. La meilleure métrique atteint seulement 0,70 d’AUROC au niveau de la CoT tandis qu’une autre atteint 0,59 au niveau des étapes, sans transfert entre contextes, et cela à un coût de calcul prohibitif. Nos résultats mettent en évidence des lacunes fondamentales dans l’évaluation actuelle de la fidélité et appellent au développement de métriques plus fiables et plus efficaces.
Les grands modèles de langage basés sur les transformeurs sont de plus en plus utilisés pour des tâches à long horizon ; cependant, leur mécanisme d’attention se dégrade mal avec la longueur du contexte. Pour y remédier, nous étudions un mécanisme de consolidation de type sommeil, dans lequel un modèle convertit périodiquement le contexte récent en poids rapides persistants avant de vider son cache clé-valeur. Pendant le sommeil, le modèle effectue N passages récurrents hors ligne sur le contexte accumulé et met à jour les poids rapides dans ses blocs de modèle à espace d’états (SSM) via une règle locale apprise. Lors de l’inférence, cela reporte le calcul supplémentaire au moment du sommeil tout en préservant la latence de la prédiction en phase d’éveil. Nous testons notre méthode sur des tâches synthétiques contrôlées, notamment des automates cellulaires et la récupération de graphe multi-sauts, ainsi que sur une tâche réaliste de raisonnement mathématique, sur lesquelles un transformeur classique ainsi que des modèles hybrides SSM-attention échouent. Nous montrons ensuite qu’augmenter la durée du sommeil N pour nos modèles améliore les performances, avec les gains les plus importants sur les exemples qui nécessitent un raisonnement plus profond.
Les méthodes actuelles de conversion vidéo-vers-4D peinent face aux changements de topologie complexes, aux matériaux transparents, aux structures fines et aux surfaces internes. Nous présentons Helix4D, un cadre de génération de maillages dynamiques qui hérite de la représentation expressive de Trellis2, en l'adaptant de la génération image-vers-3D à la génération 4D conditionnée par vidéo. Notre conception découle de deux questions clés : (a) comment permettre à l'attention locale aux trames de Trellis2 de partager des informations entre les trames tout en préservant sa qualité pré-entraînée sur les cas rares tels que les objets transparents et les surfaces internes, et (b) comment injecter une information temporelle dans un encodage positionnel purement 3D sans briser les capacités pré-entraînées. Nous répondons à (a) avec une attention inter-trame à fenêtre glissante et un ancrage sur la première trame. La première trame est générée par le modèle de base Trellis2 et injectée dans notre modèle, lui permettant d'hériter de la qualité de Trellis2 dans les cas rares grâce à l'attention inter-trame. Nous répondons à (b) avec un encodage temporel 4D qui réaffecte les bandes spatiales RoPE de basse fréquence redondantes à la dimension temporelle, étendant l'encodage depuis la 3D sans paramètres supplémentaires. Des expériences approfondies montrent l'efficacité de Helix4D pour la génération de maillages dynamiques de haute qualité sur ActionBench et notre propre ensemble de dynamiques complexes difficile.
La prédiction vidéo est de plus en plus considérée comme une voie vers des modèles du monde généralisables, mais il reste incertain que ces systèmes apprennent une structure causale sous-jacente ou exploitent simplement des corrélations visuelles superficielles pour la prédiction future. Nous présentons CRONOS, un benchmark basé sur les interventions conçu pour évaluer la cohérence physique contrefactuelle : à savoir si les prédictions d'un modèle concernant des événements physiques répondent de manière appropriée à des changements contrôlés dans l'entrée visuelle, tels que des variations du contexte de la scène, du point de vue, de l'apparence des objets et de la catégorie d'objets. Construit dans un environnement photoréaliste Unreal Engine, CRONOS permet la génération contrôlée et haute-fidélité de vidéos à travers diverses scènes et dynamiques. Contrairement aux benchmarks précédents, CRONOS intervient systématiquement sur quatre facteurs clés - le point de vue, la scène, la catégorie d'objets et l'apparence des objets - tout en maintenant fixe le type d'événement physique sous-jacent, comme une collision, une occlusion ou une chute. Notre évaluation de générateurs vidéo open-source récents révèle des échecs substantiels en matière de cohérence physique contrefactuelle : la qualité de prédiction pour un même type d'événement physique est affectée par l'apparence, l'environnement, et particulièrement par les changements de point de vue. CRONOS fournit un banc d'essai contrôlé et reproductible pour diagnostiquer comment la qualité des vidéos générées change pour différentes interventions, établissant une cible concrète pour le développement de modèles qui fonctionnent de manière cohérente à travers des changements de multiples conditions. Le jeu de données et le code sont disponibles sur notre page projet.
Les vidéos métaphoriques sont largement utilisées dans divers scénarios du monde réel pour transmettre des idées complexes, et leur compréhension requiert généralement des capacités cognitives de haut niveau. L'absence d'études systématiques sur la compréhension des vidéos métaphoriques limite non seulement l'applicabilité pratique des modèles de langage multimodaux de grande taille (MLLMs), mais entrave également l'évaluation approfondie de leurs capacités cognitives de haut niveau. Pour combler cette lacune, nous proposons MetaphorVU-Bench, le premier benchmark systématique et complet dédié à la compréhension des vidéos métaphoriques. Par le biais d'expériences, nous constatons que les MLLMs actuels peinent à comprendre correctement les vidéos métaphoriques, étant bien en deçà du niveau humain, principalement en raison d'un mappage inter-domaines défectueux. Motivés par ce constat, nous construisons un graphe de connaissances métaphoriques comme augmentation du mappage et proposons MetaphorBoost, un cadre d'amélioration au moment de l'inférence qui permet des gains de performance constants. Notre benchmark, nos analyses et notre méthode offrent des perspectives utiles et une base pour les recherches futures visant à faire progresser les MLLMs.
Les modèles unifiés de compréhension et de génération multimodales permettent des interactions homme-IA plus riches. Pourtant, la personnalisation conjointe du personnage, du style de dialogue et de l'identité visuelle tout en maintenant une cohérence des sorties entre les modalités reste largement inexplorée. Pour combler cette lacune, nous introduisons une nouvelle tâche, le Jeu de Rôle Multimodal Personnalisé (CMRP). Nous construisons l'ensemble de données RoleScape-20, comprenant 20 personnages, avec des données d'entraînement et d'évaluation couvrant la personnalité, les descriptions stylistiques, les indices visuels/expressifs et les interactions texte-image. En nous appuyant sur un modèle unifié, nous concevons UniCharacter, un cadre d'apprentissage en deux étapes comprenant un ajustement supervisé unifié (Unified-SFT) et une optimisation relative par groupe spécifique au personnage (Character-GRPO). À partir de seulement 10 images et d'exemples d'interaction correspondants, le modèle acquiert le personnage cible et affiche une personnalité, un style et une identité visuelle cohérents, tant dans le texte généré que dans les images. Ce processus prend environ 100 heures GPU. Les expériences sur l'ensemble de données RoleScape-20 montrent que la méthode proposée surpasse nettement les approches antérieures. Des études d'ablation valident en outre l'efficacité de notre conception de cohérence cross-modale et de stratégie de personnalisation en quelques échantillons. Nous soutenons que le CMRP, couplé à une modélisation unifiée, fournit une base pour la prochaine génération d'agents interactifs immersifs et dotés de caractère.
Les modèles de diffusion texte-image comme Stable Diffusion génèrent des images de haute qualité à partir de texte, mais ne permettent pas d'injecter un guidage visuel (par exemple, croquis, styles) lors de l'inférence sans réentraînement. Les méthodes existantes nécessitent soit un réglage fin coûteux en calcul, soit reposent sur des techniques de transfert de style qui risquent un désalignement sémantique avec les indications textuelles. Nous introduisons Visual Concept Fusion (VCF), la première méthode offrant un double conditionnement à la fois sur une image et une indication textuelle lors de l'inférence sans aucun entraînement spécifique au concept. VCF permet l'injection de concepts visuels dans Stable Diffusion en alignant les caractéristiques d'image CLIP avec l'espace de plongement textuel. VCF se compose de trois composants : (1) un aligneur léger qui projette les tokens d'image sur la variété de plongement textuel en utilisant les pertes InfoNCE et de reconstruction par attention croisée, (2) une stratégie de fusion qui préserve à la fois les sémantiques textuelle et visuelle, et (3) un module optionnel d'Optimisation Indication-Bruit (Prompt-Noise Optimization, PNO) pour un raffinement au moment du test. Nos expériences démontrent que VCF transfère avec succès des attributs visuels incluant le style, la composition et la palette de couleurs à partir d'images de référence tout en maintenant l'adhérence à l'indication. Les résultats quantitatifs montrent un compromis entre l'alignement textuel (score CLIP) et la correspondance visuelle (LPIPS), VCF surpassant les références en termes de fidélité à l'image de référence.
Les a priori génératifs en super-résolution d'image (SR) compromettent souvent la restauration fidèle ; nous attribuons cette limitation à un désalignement spectral fondamental entre les objectifs isotropes et la variété naturelle intrinsèque des images. Alors que l'Optimisation Directe des Préférences offre une voie vers l'alignement, sa dépendance à un bruit gaussien spectralement plat ne permet pas de distinguer les détails haute fréquence authentiques des hallucinations. Pour combler cet écart géométrique, nous proposons ASASR, un cadre théoriquement fondé qui reformule le flux génératif en une géométrie riemannienne induite par Sobolev, en colorant explicitement le noyau de transition du bruit pour refléter la décroissance spectrale naturelle. Pour piloter cet alignement géométrique, nous intégrons un adversaire paramétrique fondé sur le Théorème de Représentation de Riesz, qui synthétise des échantillons négatifs ciblés équivalents aux gradients de Sobolev dans le pire cas, afin d'orienter l'optimisation le long de l'espace tangent des défaillances structurelles plausibles. Des évaluations approfondies montrent qu'ASASR surpasse les références génératives de pointe, en particulier pour préserver la cohérence spectrale et la fidélité structurelle, offrant ainsi une solution robuste qui atténue efficacement les artefacts.
Les agents de grand modèle de langage (LLM) sont de plus en plus améliorés par l'interaction, mais la plupart des méthodes d'auto-évolution adaptent soit la politique, soit l'environnement d'apprentissage de manière isolée. Nous identifions ce fossé structurel comme un désalignement agent-environnement : la frontière de capacité de l'agent change pendant l'entraînement, tandis que l'environnement qui fournit la supervision reste statique ou seulement faiblement couplé aux défaillances révélées de l'agent. Nous proposons SEAL, un cadre de co-évolution en boucle fermée pour les agents interactifs utilisant des outils. SEAL collecte des trajectoires sur-politique sous vérification exécutable, diagnostique les échecs d'exécution en étiquettes d'échec au niveau des tours, et utilise ces diagnostics comme signal partagé à la fois pour l'adaptation du côté de l'environnement et l'optimisation de la politique du côté du modèle. L'environnement fait évoluer son interface d'apprentissage pendant l'entraînement en exposant des indices d'affordance des outils plus clairs, des informations de contrainte et un retour orienté récupération, tandis que la politique est mise à jour avec une repondération d'avantage guidée par le diagnostic. Des expériences approfondies sur des évaluations d'utilisation d'outils multi-tours dans la distribution et hors distribution montrent que SEAL améliore l'apprentissage d'agent avec peu de ressources : avec seulement 400 échantillons d'entraînement, il obtient des gains moyens de +8,25 à +26,25 points sur trois modèles de base et présente un transfert positif hors distribution. Ces résultats démontrent la valeur d'adapter conjointement l'apprenant et son substrat d'apprentissage en temps d'entraînement pour des agents LLM robustes auto-améliorants.
Récemment, l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) et la Mise à l'Échelle au Moment du Test (TTS) ont fait progresser la génération de code par LLM via une vérification exécutable. Pourtant, les Tests Unitaires de Vérité Terrain (GT UTs) restent un goulot d'étranglement : les méthodes RLVR de pointe les exigent pour un entraînement coûteux, tandis que les méthodes TTS existantes perdent en compétitivité sans eux. Cela motive le TTS sans GT, où les méthodes existantes utilisent directement des UT auto-générés pour affiner et sélectionner les candidats de code. Cependant, ces UT sont souvent bruités ou couplés de manière fallacieuse à un code erroné, et la qualité des UT ne peut à son tour être validée sans code fiable. Le défi clé est donc d'améliorer conjointement les deux. À cette fin, nous présentons CoSPlay, un cadre sans GT et sans entraînement qui améliore conjointement les codes et les UT par auto-jeu coopératif. Il explore d'abord diverses idées de solutions et identifie leurs modes d'échec potentiels pour produire des idées d'UT discriminantes. Il utilise ensuite des signaux bidirectionnels de nombre de passages provenant de la matrice d'exécution Code-UT pour élaguer ou corriger itérativement les codes faibles et rafraîchir ou remplacer les UT peu fiables, permettant aux deux pools de co-évoluer. Enfin, lorsque plusieurs codes restent à égalité au nombre de passages le plus élevé, il sélectionne le code final à partir du plus grand groupe de consensus de sortie, car les codes corrects s'accordent sur les mêmes entrées tandis que les codes erronés divergent. Des expériences sur quatre benchmarks exigeants montrent que CoSPlay sur Qwen2.5-7B-Instruct améliore le BoN moyen de 22,1 % à 33,2 % et la précision des UT de 14,6 % à 78,3 %, égalant ou surpassant le modèle RLVR CURE-7B. Appliqué à CURE-7B, il améliore encore le BoN de 5,7 %. CoSPlay se généralise également à diverses architectures de base et surpasse les bases de référence TTS sans GT sous des budgets de jetons comparables, avec des gains continus à mesure que le budget augmente. Ces résultats suggèrent une stratégie d'inférence scalable pour une génération de code compétitive sans aucune donnée GT.
Les récentes avancées en distillation de diffusion en peu d’étapes ont permis une génération d’images efficace, mais aligner ces modèles sur les préférences humaines reste un défi. Nous proposons Reward-Tilted Distribution Matching Distillation (RTDMD), un cadre en deux étapes qui unifie la distillation par appariement de distributions avec l’apprentissage par renforcement guidé par récompense pour les générateurs de flux en peu d’étapes. Nous montrons que la minimisation de la divergence KL par rapport à une distribution enseignante inclinée par récompense se décompose naturellement en un terme d’appariement de distributions et un terme de maximisation de récompense. Dans la première étape, nous introduisons Ambient-Consistent Distribution Matching Distillation (AC-DMD), qui effectue un appariement de distributions par sous-intervalles et augmente l’objectif de score factice avec un régularisateur de cohérence pour aider le modèle de score factice à suivre la distribution du générateur en évolution sous des mises à jour limitées. Dans la deuxième étape, nous optimisons conjointement les deux termes : pour le terme de maximisation de récompense, nous dérivons un gradient de politique hybride qui combine un estimateur de type GRPO pour les transitions intermédiaires stochastiques avec une rétropropagation directe de la récompense à travers l’étape finale déterministe, et nous introduisons en outre le GRPO par sous-ensemble d’étapes (SubGRPO) pour réduire la variance. Les expériences sur SD3, SD3.5 et FLUX.2 montrent que RTDMD établit de nouveaux résultats de pointe sur les métriques de préférence, esthétiques et compositionnelles avec seulement 4 étapes d’inférence, surpassant les précédentes méthodes de génération texte-image en peu d’étapes. Le code et les modèles sont disponibles à l’adresse https://github.com/Harahan/RTDMD.
À mesure que les agents basés sur de grands modèles de langage (LLM) participent de plus en plus aux discours en ligne, il est essentiel, pour l'intégrité de l'information, de tester leur capacité à soutenir des campagnes d'influence politique. Dans cette optique, nous nous concentrons sur les LLM open-source déployés localement, plutôt que sur les modèles d'API de pointe, en raison de leur meilleure adéquation avec les contraintes opérationnelles des acteurs malveillants soucieux de leur vie privée dans les environnements de médias sociaux. Nous introduisons un cadre empirique de red-teaming pour mesurer les fenêtres d'Overton (OW) des LLM, définies comme l'éventail d'opinions politiques qu'un modèle peut exprimer de manière fiable sur des sujets controversés, et pour quantifier comment des jailbreaks simples en langage naturel élargissent cet éventail. Nous évaluons plus de 30 LLM couvrant 10 familles de modèles et cinq pays d'origine. Nous constatons des asymétries systématiques dans l'expressivité politique : les LLM open-source sont généralement plus disposés à générer du contenu orienté à gauche sur les réseaux sociaux, les OW tendent à se contracter inversement à la taille du modèle, et les différences régionales sont substantielles malgré une représentation inégale dans l'écosystème open-source. L'efficacité des jailbreaks varie également fortement selon les familles de modèles, ce qui motive un flux de travail pour identifier des combinaisons efficaces de techniques de jailbreak. Dans l'ensemble, nos résultats établissent un cadre pratique pour auditer la dirigeabilité politique des LLM open-source et aider les futurs chercheurs à concevoir des contre-mesures plus robustes contre les campagnes d'influence permises par les LLM.
Le détournement de récompense survient lorsqu'un modèle améliore une récompense proxy en exploitant des raccourcis plutôt qu'en résolvant la tâche visée. Nous étudions ce mode de défaillance à travers la géométrie des mises à jour de l'apprentissage par renforcement dans les modèles de langage et avançons que le détournement émerge lorsque l'optimisation s'écarte d'une trajectoire d'apprentissage stable et de faible dimension. Nous analysons cette dérive à l'aide des directions singulières dominantes des mises à jour de paramètres et montrons que les exécutions présentant un détournement de récompense enregistrent un changement directionnel considérablement plus important que les exécutions propres. Motivés par cette observation, nous introduisons la projection de direction de confiance, qui contraint les gradients à rester dans un sous-espace de référence propre. À travers des expériences de détournement de récompense sur le raisonnement mathématique, l'approche proposée retarde l'exploitation des raccourcis et préserve mieux la performance sur la tâche.
Les encodeurs parcimonieux offrent une recherche de haute précision en représentant l'importance des termes dans un espace de vocabulaire, mais leurs structures centrées sur l'anglais constituent un obstacle critique au transfert linguistique pour les langues non anglaises. Pour surmonter cette limitation structurelle, nous proposons SemBridge, une nouvelle méthode d'initialisation d'embeddings conçue pour l'adaptation cross-lingue dans les encodeurs parcimonieux en exploitant des modèles multilingues passerelles. SemBridge établit des alignements sémantiques entre les vocabulaires source et cible en utilisant des embeddings denses multilingues comme passerelle. Plutôt que de se fier directement à l'ensemble des tokens sources, SemBridge sélectionne un petit ensemble de tokens sources sémantiquement apparentés et les utilise pour initialiser chaque token cible, filtrant ainsi efficacement le bruit sémantique et reconstruisant les tokens cibles sous forme de combinaisons linéaires précises de synonymes centraux. Cela accélère la convergence lors du fine-tuning et améliore l'efficacité de l'entraînement. Des expériences approfondies menées sur cinq langues et quatre architectures parcimonieuses démontrent que SemBridge atteint des performances de recherche zero-shot supérieures et améliore constamment les performances de recherche après fine-tuning par rapport aux références existantes. Ces résultats confirment que SemBridge constitue une solution pratique pour déployer des systèmes de recherche parcimonieux haute performance dans des environnements linguistiques diversifiés.
Les agents GUI mobiles alimentés par de grands modèles de langage ont connu des progrès rapides, créant un besoin urgent d'évaluations réalistes et complètes. Les bancs d'essai existants privilégient la reproductibilité mais sont souvent limités à des applications open source ou à des tâches de manipulation de fichiers en raison de la difficulté à construire des récompenses sur des applications réelles, creusant ainsi un fossé entre les paramètres d'évaluation et l'utilisation réelle. De plus, la plupart des bancs d'essai se concentrent sur l'ancrage de base et la navigation, avec une couverture limitée des interactions complexes et à long horizon. Pour remédier à ces limitations, nous présentons SimuWoB, un banc d'essai entièrement synthétique pour les agents GUI mobiles, comprenant 120 tâches difficiles couvrant divers types et niveaux de difficulté. Nous construisons un cadre robuste de génération d'environnements virtuels qui synthétise des tâches et environnements de haute fidélité, et fournit automatiquement des récompenses valides pour chaque tâche. Chaque environnement est déployé sous forme de page web sans backend, accessible via une URL, permettant une évaluation efficace et reproductible. Nous menons des expériences approfondies sur plusieurs agents GUI mobiles de pointe. Le taux de succès moyen n'est que de 27,92 %, tombant à 17,82 % pour les tâches à long horizon, ce qui révèle des faiblesses substantielles des agents actuels dans des scénarios complexes. Une comparaison des résultats d'évaluation avec des tâches échantillons du monde réel montre que les évaluations des agents basées sur notre environnement synthétique se généralisent bien. Nous fournissons également des informations diagnostiques sur les dimensions clés des capacités et discutons des implications pour le développement futur des agents GUI mobiles.
L'attribution temporelle du crédit dans l'apprentissage par renforcement constitue depuis longtemps un défi central. Inspirées par l'encodage multi-échelle temporelle du système dopaminergique en neurobiologie, des recherches récentes ont cherché à introduire plusieurs facteurs d'actualisation dans les architectures Acteur-Critique, telles que l'Optimisation de Politique Proximale (PPO), afin d'équilibrer les réponses à court terme et la planification à long terme. Cependant, cet article révèle que la fusion aveugle de signaux multi-échelles temporelles dans des tâches complexes à récompenses différées peut entraîner de graves pathologies algorithmiques. Nous démontrons systématiquement qu'exposer un mécanisme de routage attentionnel temporel aux gradients de politique conduit à un détournement d'objectif substitut, tandis que l'adoption d'une pondération d'incertitude sans gradient déclenche une dégénérescence myope irréversible, un phénomène que nous nommons le Paradoxe de l'Incertitude Temporelle. Pour remédier à ces problèmes, nous proposons une architecture de Découplage de Cible : du côté du Critique, nous conservons les prédictions multi-échelles temporelles pour imposer un apprentissage auxiliaire de représentation, tandis que du côté de l'Acteur, nous isolons strictement les signaux à court terme et mettons à jour la politique uniquement sur la base des avantages à long terme. Des évaluations empiriques rigoureuses, menées sur plusieurs germes aléatoires indépendants dans l'environnement LunarLander-v2, démontrent que notre architecture proposée obtient des améliorations de performance statistiquement significatives. Sans recourir à un réglage hyperparamétrique arbitraire, elle dépasse systématiquement le seuil de résolution de l'environnement avec une variance minimale, élimine complètement l'effondrement de la politique et échappe aux optima locaux stagnants qui piègent les références à échelle temporelle unique. Le code source permettant de reproduire nos expériences est disponible publiquement à l'adresse https://github.com/ben-dlwlrma/Representation-Over-Routing.
La communication permet la coordination dans l'apprentissage par renforcement multi-agent (MARL), mais de nombreuses applications réelles, comme les opérations de recherche et de sauvetage avec des essaims de drones, fonctionnent sous des contraintes sévères de bande passante. De nombreuses architectures de communication présentent encore un goulot d'étranglement couplé dans lequel une représentation latente partagée est utilisée à la fois pour l'exécution de la politique et la communication inter-agents. Par conséquent, réduire la taille des messages limite directement l'espace latent de la politique, ce qui entraîne souvent une dégradation significative des performances. Nous abordons ce problème avec deux contributions. Premièrement, nous introduisons β, un budget de bande passante normalisé par agent qui unifie la sparsité, les cycles et la dimension des messages en une seule contrainte comparable. Deuxièmement, nous proposons SLIM, une architecture minimale qui découple la voie de communication de la représentation latente de la politique, permettant ainsi d'isoler l'effet de la bande passante de l'effet de la capacité de la politique tout en bénéficiant d'une communication en phase. Nous évaluons notre méthode sur plusieurs bancs d'essai MARL partiellement observables où la communication est essentielle. Notre approche atteint des performances de pointe et fait preuve de passage à l'échelle et de robustesse sous une communication limitée, avec seulement une dégradation marginale à mesure que la bande passante est réduite.
Les harnais d'évaluation sont des systèmes logiciels qui orchestrent l'évaluation des modèles en gérant l'invocation des modèles, le chargement des données, le calcul des métriques et le rapport des résultats. Malgré leur rôle crucial dans l'infrastructure d'apprentissage automatique, leurs défis opérationnels et leurs préoccupations techniques ont jusqu'à présent reçu une attention limitée. Nous présentons une étude empirique de 57 harnais d'évaluation, dérivant un modèle de harnais en cinq étapes et classifiant 16 560 problèmes par étape du flux de travail et cause racine. La plupart des défis opérationnels des harnais se concentrent dans l'étape de Spécification (41,4 % des problèmes), où les harnais intègrent des modèles externes, des ensembles de données et des juges de notation. Les trois causes racines les plus fréquentes des défis opérationnels sont les fonctionnalités non implémentées (24,3 %), les lacunes documentaires (20,3 %) et l'absence de validation des entrées (17,2 %), qui représentent ensemble 61,7 % des problèmes classifiés, couvrant à la fois des défauts dans les fonctionnalités existantes et des lacunes de capacité qui bloquent les flux de travail prévus. Les causes racines varient également selon l'étape du flux de travail : l'incompatibilité d'environnement et la rupture des dépendances externes représentent 36,2 % des problèmes d'approvisionnement, tandis que l'erreur algorithmique (25,9 %) et le manque de validation (22,5 %) dominent les problèmes d'évaluation. Ensemble, ces contributions établissent une base empirique pour considérer l'ingénierie d'évaluation comme une préoccupation distincte du génie logiciel.
Les agents CLI sont ce que les modèles de langage offrent de plus proche d'un contexte incarné : le modèle émet des commandes, le terminal les exécute, et le flux renvoyé – sortie standard, erreurs, fichiers, journaux et traces – enregistre les conséquences. Nous soutenons que ce flux constitue un signal de supervision, mais l'apprentissage par renforcement (RL) standard des agents le néglige : l'entraînement de type GRPO met à jour les tokens d'action avec des récompenses éparses au niveau du résultat, tout en ignorant les réponses de l'environnement déjà présentes dans le déploiement. Les déploiements échoués fournissent peu de signal de gradient de politique malgré la richesse des informations sur la manière dont l'environnement réagit. Nous introduisons ECHO (Objectif Hybride d'Entropie Croisée Environnementale), un objectif hybride qui combine la perte standard de gradient de politique sur les tokens d'action avec une perte auxiliaire entraînant la politique à prédire les tokens d'observation de l'environnement résultant de ses propres actions. ECHO réutilise la même passe avant que GRPO, ne nécessite aucun déploiement supplémentaire et transforme le retour terminal en supervision dense pour tous les déploiements. ECHO double le pass@1 de GRPO sur TerminalBench-2.0 : Qwen3-8B passe de 2,70 % à 5,17 %, et Qwen3-14B de 5,17 % à 10,79 %. ECHO produit également des politiques qui prédisent mieux la dynamique terminale, même sur des trajectoires qu'elles n'ont pas générées : sur des déploiements exclus, elle réduit fortement l'entropie croisée des tokens environnementaux, tandis que GRPO seul ne la modifie guère. À partir de Qwen3-8B de base, ECHO atteint les performances d'expert-SFT suivi de GRPO sur des tâches terminales exclues sans démonstrations expertes, et récupère environ la moitié du bénéfice d'initialisation de l'expert-SFT sur TerminalBench-2.0. Dans certains contextes, la seule perte de prédiction environnementale permet une auto-amélioration sans vérificateur, autorisant les politiques à progresser sur des tâches OOD inédites en apprenant uniquement des interactions avec l'environnement. Ensemble, ces résultats suggèrent que les observations environnementales ne sont pas simplement un contexte pour les actions futures, mais bien un signal de supervision dense et sur-politique déjà présent dans chaque déploiement.
L'analyse de la sécurité des transports nécessite l'intégration des données d'accidents, des caractéristiques routières et des données géospatiales via des flux de travail fondés sur les SIG, mais l'accès reste inégal entre les agences et les parties prenantes communautaires. Les prérequis techniques créent un fossé entre les outils analytiques essentiels à la planification de la sécurité et les praticiens capables de les utiliser. Les agences locales, les comités scolaires et les résidents peuvent avoir des préoccupations de sécurité, mais une capacité limitée à récupérer, filtrer, cartographier et analyser les données pertinentes. L'IA générative offre un moyen de réduire cet écart, mais son utilisation dans le secteur public soulève des questions de fiabilité, de reproductibilité et de gouvernance. Cet article présente une interface en langage naturel ancrée dans un schéma pour l'analyse de la sécurité des transports, utilisant un grand modèle de langage (LLM) pour interpréter l'intention de l'utilisateur tout en préservant une exécution déterministe et vérifiable par rapport à une base de données faisant autorité. Les requêtes des utilisateurs sont traduites en cadres sémantiques structurés, validées par une couche basée sur des règles, compilées en un graphe acyclique orienté typé d'opérations spatiales, puis exécutées sur une base de données PostGIS. Cette conception délimitée sépare l'interprétation du langage de l'exécution déterministe, garantissant des résultats reproductibles et ancrés dans le schéma tout en supprimant les barrières d'accès. Le cadre est évalué à l'aide d'une base de données de sécurité des transports à l'échelle de l'État du Massachusetts, intégrant les données d'accidents, les caractéristiques routières et des couches géospatiales incluant les écoles, les arrêts de bus, les passages piétons et les limites municipales. Toutes les requêtes ont été exécutées avec succès ; la couche de validation corrige les erreurs dans 29 % des requêtes d'évaluation, reflétant l'écart entre le langage naturel flexible et les exigences strictes ancrées dans le schéma. Les résultats suggèrent que combiner l'accessibilité du langage naturel avec une exécution déterministe constitue une direction pratique pour élargir l'accès aux données de sécurité des transports, avec des implications pour une IA digne de confiance dans la planification du secteur public.
La reconstruction 3D en ligne nécessite l'estimation de la pose de la caméra et de la géométrie de la scène sous des contraintes strictes de causalité et de mémoire bornée. Les méthodes existantes souffrent souvent de dérive, de tremblements ou d'effondrement sur les longues séquences. Nous attribuons ces échecs à une inadéquation fondamentale. La géométrie en flux est intrinsèquement hétérogène dans le temps, avec des indices allant de correspondances éphémères à une échelle globale persistante. Cependant, les architectures actuelles imposent des schémas d'influence uniformes et pathologiques. Par exemple, les fenêtres glissantes imposent des coupures nettes, tandis que la récurrence non régulée et l'attention causale provoquent une saturation du cache et des puits d'attention en forme de pics. Pour résoudre ce problème, nous formalisons la propagation géométrique comme un noyau d'influence de preuves et proposons HorizonStream, un Transformer à long horizon qui factorise explicitement ce noyau. Pour le facteur temporel à longue portée, l'Attention Linéaire Géométrique apprend des taux de décroissance par canal afin de permettre une propagation bornée et multi-échelle des preuves géométriques. Pour le facteur spatial à courte portée, l'Attention Locale Géométrique avec RoPE Spatiotemporelle effectue un appariement 3D fiable tout en supprimant les puits d'attention. Enfin, les Jetons de Lecture Métrique récupèrent une échelle stable et une pose rigide directement à partir de l'état géométrique persistant. Des expériences approfondies montrent qu'HorizonStream, entraîné uniquement sur des clips de 48 images, se généralise de manière stable à des séquences dépassant 10 000 images avec une mémoire constante et un temps linéaire, atteignant des performances de pointe en reconstruction 3D en continu. Page du projet : https://3dagentworld.github.io/horizonstream/
À mesure que des applications interactives basées sur les LLM sont créées et perfectionnées, les développeurs de modèles doivent évaluer la qualité du texte généré selon de nombreux axes possibles. Pour les systèmes plus simples, une évaluation humaine peut être envisageable, mais dans des systèmes complexes comme les chatbots conversationnels, la quantité de texte généré peut submerger les ressources d'annotation humaine. Les développeurs de modèles ont commencé à s'appuyer fortement sur l'auto-évaluation, où les LLM sont également utilisés pour juger la qualité de la génération. Cependant, les benchmarks existants « LLM comme juge » se concentrent largement sur des tâches simples de questions-réponses qui ne correspondent pas à la complexité des conversations multi-tours. Nous présentons RankJudge, un générateur de benchmark pour évaluer le LLM en tant que juge dans des conversations multi-tours ancrées dans des documents de référence. RankJudge crée des paires de conversations où une conversation présente un défaut unique injecté dans un tour. Cette construction permet d'étiqueter sans ambiguïté les paires de conversations comme meilleures ou moins bonnes, et d'isoler précisément les catégories d'échec à des tours individuels, permettant ainsi un critère de correction conjoint strict pour le jugement. Nous implémentons RankJudge dans les domaines de l'apprentissage automatique, de la biomédecine et de la finance, évaluons 21 juges LLM de pointe, et classons ces juges via le modèle de Bradley-Terry. Notre formulation permet également de classer chaque paire de conversations avec des niveaux de difficulté, que nous utilisons pour organiser dynamiquement la tranche d'évaluation afin de réduire le bruit d'étiquetage, comme confirmé par annotation humaine. Nous constatons que les classements des juges sont stables sous une observabilité partielle, des critères de correction plus grossiers et un algorithme de notation alternatif basé sur une marche aléatoire.
Les modèles actuels de génération d'images en vidéo contrôlée par le mouvement suivent rigidement des trajectoires fournies par l'utilisateur, souvent éparses, imprécises et causalement incomplètes. Cette dépendance produit fréquemment des résultats non naturels ou invraisemblables, notamment en omettant les conséquences causales secondaires. Pour y remédier, nous présentons MotiMotion, un nouveau cadre qui reformule le contrôle du mouvement comme un problème de raisonnement puis de génération. Afin d'encourager des interactions fondées sur la causalité et cohérentes avec le sens commun, nous exploitons un raisonneur vision-langage sans entraînement pour affiner les coordonnées dans l'espace image des trajectoires primaires et pour halluciner des mouvements secondaires plausibles. Pour améliorer davantage le naturel du mouvement, nous proposons un schéma de contrôle sensible à la confiance qui module la force de guidage, permettant au modèle de suivre étroitement les plans à haute confiance tout en corrigeant les artefacts sous des entrées à faible confiance grâce à ses priorités génératives internes. Pour soutenir une évaluation systématique, nous élaborons un nouveau benchmark d'images en vidéo, MotiBench, composé de scènes centrées sur l'interaction où de nouveaux événements sont déclenchés par le mouvement. L'évaluation basée sur un modèle de vision-langage (VLM) ainsi qu'une étude humaine sur MotiBench montrent que MotiMotion produit des vidéos avec des comportements et interactions d'objets plus plausibles, et est préféré aux approches existantes.
L'évaluation automatisée des dégradations de chaussées nécessite davantage qu'une classification au niveau de l'image ou une détection grossière par boîtes englobantes, exigeant une localisation précise des fissures fines, ramifiées et irrégulières afin d'atteindre la précision géométrique requise pour une quantification utile à la maintenance. Cet article présente un système d'analyse des dégradations de chaussées basé sur la vision, utilisant la segmentation d'instances Mask R-CNN, et l'évalue sur UWGB-StreetCrack, un jeu de données d'images routières collectées sur le terrain avec un smartphone monté sur véhicule et annotées manuellement avec des polygones pour les fissures longitudinales, les fissures transversales, les fissures en peau de crocodile et les nids-de-poule. Cinq variantes de l'encodeur de Mask R-CNN basé sur Detectron2 ont été envisagées selon un protocole de réglage fin cohérent. Le modèle le plus performant, Mask R-CNN avec un encodeur ResNet-101 FPN, a atteint une précision de 84,23 %, un rappel de 90,04 % et un score F1 de 87,04 % selon le protocole d'appariement des boîtes englobantes spécifique au projet. Le même modèle a produit une fraction de surface de fissures prédite agrégée de 2,164 %, correspondant étroitement à la fraction de surface de fissures réelle de 2,170 %. Pour contextualiser le système de segmentation par rapport à une alternative orientée détection, un détecteur YOLO basé sur CSPDarknet53 a également été adapté et réentraîné sur le jeu de données, atteignant une précision de 27,5 % et un rappel de 20,7 % selon le protocole de validation. Les résultats montrent que la segmentation d'instances constitue une direction pratique pour l'imagerie de chaussées sur le terrain et l'estimation agrégée de la surface de fissures, tout en exposant des défis ouverts liés à la cohérence des annotations, au déséquilibre des classes, au rejet des facteurs de confusion et à l'évaluation au niveau des masques.
Le légendage d'images longues expose un problème de granularité des récompenses en apprentissage par renforcement (RL) : les légendes sont évaluées comme des séquences entières, alors que les erreurs importantes surviennent au niveau des affirmations visuelles individuelles. Une bonne légende dense doit être à la fois fidèle et informative, évitant l'hallucination sans omettre de détails saillants. Pourtant, les préférences par paires, les métriques basées sur une référence et les récompenses scalaires holistiques compressent ces erreurs locales en un seul signal au niveau de la séquence, occultant le compromis entre factualité et couverture. Nous introduisons ClaimDiff-RL, un cadre qui utilise les différences atomiques d'affirmations conditionnées par une référence comme unité de récompense pour le RL de légendage. Étant donné une image, une légende produite par un acteur et une légende de référence, un juge multimodal énumère les différences ancrées visuellement, vérifie chaque différence par rapport à l'image, attribue des types d'erreurs à vocabulaire ouvert et des niveaux de sévérité, et produit des statistiques par différence pour la composition des récompenses. Cela permet de mesurer et d'ajuster séparément les affirmations hallucinées et les faits saillants omis. Les expériences montrent que les récompenses scalaires holistiques peuvent réduire l'hallucination en augmentant les faits manquants, tandis que ClaimDiff-RL expose ce compromis entre fidélité et couverture et permet d'atteindre des points de fonctionnement plus équilibrés. Sur un benchmark diagnostique étiqueté par des humains de 160 images, des benchmarks publics de légendage et des benchmarks de VQA, ClaimDiff-RL améliore l'équilibre entre hallucination et faits manquants, préserve les capacités générales et dépasse même Gemini-3-Pro-Preview sur plusieurs dimensions fines de capacité telles que le comptage d'objets, les relations spatiales et la reconnaissance de scène. Ces résultats suggèrent que les différences d'affirmations typées et vérifiables constituent une unité de récompense efficace pour un RL de légendage fin et diagnosticable.
Les Modèles de Raisonnement de Grande Taille (LRMs) présentent des mécanismes de retour en arrière et d'auto-vérification qui leur permettent de réviser les étapes intermédiaires et d'atteindre des solutions correctes, offrant ainsi des performances élevées sur des benchmarks logiques complexes. Nous formulons l'hypothèse que de tels comportements ne sont bénéfiques que lorsque le modèle possède une capacité de « critique » suffisamment forte pour détecter ses propres erreurs. Ce travail examine systématiquement comment les LRMs actuels se remettent d'erreurs en insérant des erreurs arithmétiques dans leurs étapes de raisonnement intermédiaires. Notamment, nous découvrons un phénomène particulier mais important : malgré la propagation de l'erreur dans toute la chaîne de pensée (CoT) sans aucune correction verbalisée, le modèle parvient néanmoins à la réponse finale correcte après la fin du processus de réflexion. Ce rétablissement implique l'existence d'un mécanisme interne qui aide le modèle à détecter les erreurs et à déclencher une autocorrection, ce que nous appelons la capacité de critique cachée. En nous appuyant sur une analyse de l'espace des caractéristiques, nous identifions un vecteur de critique hautement interprétable représentant ce comportement. Des expériences approfondies menées sur plusieurs échelles et familles de modèles démontrent qu'orienter les représentations latentes avec ce vecteur améliore la capacité de détection d'erreurs du modèle et renforce les performances du passage à l'échelle au moment du test, sans coût d'entraînement supplémentaire. Nos résultats offrent une compréhension précieuse du comportement de critique des LRMs, suggérant une direction prometteuse pour contrôler et améliorer leur mécanisme d'auto-vérification. Notre code est disponible à l'adresse : https://github.com/mail-research/lrm-critique-vectors.
La détection d'anomalies dans les journaux (logs) est une tâche cruciale pour l'exploitation des systèmes et la garantie de la sécurité. Cependant, dans les systèmes en réseau à grande échelle, les données de logs sont générées en masse tandis que les annotations au niveau des instances sont d'un coût prohibitif, ce qui pose de grandes difficultés pour une localisation fine des anomalies. Pour relever ce défi, nous proposons LogMILP (localisation d'anomalies dans les logs basée sur l'Apprentissage Multi-Instances enrichi par des prototypes et la perturbation), un cadre faiblement supervisé qui permet à la fois la détection d'anomalies au niveau des sacs et la localisation d'anomalies au niveau des instances en utilisant uniquement des étiquettes de niveau sac. Notre méthode guide le modèle pour identifier les entrées de logs critiques grâce à une modélisation structurelle guidée par prototypes couplée à une régularisation de cohérence par perturbation contrefactuelle, améliorant ainsi la fiabilité de la localisation et l'interprétabilité sous une supervision à granularité grossière. Les résultats expérimentaux sur trois ensembles de données publics montrent que LogMILP atteint des performances de détection compétitives tout en fournissant une localisation au niveau des instances nettement plus fiable. Notre code est disponible en open source à l'adresse https://github.com/YUK1207/LogMILP.