Articles de recherche IA sélectionnés quotidiennement avec traductions
Le déploiement de modèles fondation multimodaux en tant que politiques en boucle fermée nécessite de plus en plus de conditionner les actions sur des observations qui ne sont plus visibles. Cependant, les bancs d'essai existants soit exposent l'état complet, confondent la reconstruction de l'état caché avec d'autres compétences de l'agent, soit ne testent la mémoire qu'après la fin d'un épisode. Nous introduisons RNG-Bench (Reconstructive Non-Markov Games), une suite de bancs d'essai conçue pour isoler la capacité d'un modèle de base à reconstruire des observations passées et à agir en fonction de celles-ci lors d'une interaction multi-étapes. RNG-Bench comprend deux jeux complémentaires : Matching Pairs, où les identités de cartes brièvement révélées à des emplacements spécifiques doivent être rappelées ultérieurement, et 3D Maze, où les vues égocentriques doivent être intégrées dans une carte spatiale. Les deux jeux sont évalués sous un cadre unifié avec trois axes de difficulté contrôlés : la taille de la grille, le motif visuel et la modalité d'observation. Le banc d'essai introduit en outre un protocole de duel face à face pour contrôler la variance au niveau des instances et une métrique d'écart de mémoire (Memory Gap) qui dissocie l'oubli d'une mauvaise sélection d'actions. Les configurations les plus difficiles exigent des contextes d'environ 128 000 tokens et 350 entrées d'image par épisode, et restent loin d'être saturées par les MLLM de pointe. L'analyse de l'écart de mémoire montre que la plupart des erreurs résiduelles proviennent de l'oubli d'observations antérieures plutôt que d'une prise de décision sous-optimale. Enfin, le fine-tuning de Qwen3.5-9B sur des déploiements de politiques optimales et des démonstrations de modèles filtrées améliore les performances sur RNG-Bench et se transfère aux bancs d'essai existants sans dégrader la capacité multimodale générale.
La prévision de mouvement est centrale pour l'intelligence visuelle : les agents doivent anticiper comment les objets vont se déplacer afin de planifier des actions, raisonner sur des interactions physiques et synthétiser des futurs réalistes. Nous soutenons que les points 3D en coordonnées mondiales fournissent une représentation générale qui est indépendante de la classe, stable en termes de vue, compacte et directement utile pour les tâches en aval. Nous formalisons la tâche de prévision de mouvement de points 3D conditionnée par un objectif : étant donné un court historique visuel, un ensemble de points de requête 3D sur un objet d'intérêt et une description linguistique de l'objectif visé, le modèle prédit la trajectoire 3D future de chaque point. Nous introduisons une pile complète pour étudier cette tâche à grande échelle : (1) MolmoMotion-1M est un vaste corpus de trajectoires de points 3D ancrées sur des objets et décrites par des actions, annotées à partir de 1,16 million de vidéos non contraintes ; (2) PointMotionBench est un benchmark vérifié par des humains couvrant 111 catégories d'objets et 61 types de mouvement ; et (3) MolmoMotion est un modèle général de prévision de mouvement qui prend en charge à la fois la prédiction de coordonnées autorégressive et la génération de trajectoires basée sur l'appariement de flux. MolmoMotion prédit avec précision divers schémas de mouvement avec différentes instructions linguistiques et surpasse significativement les lignes de base existantes de prédiction de mouvement sur PointMotionBench. Enfin, nous montrons que l'apriori de mouvement 3D appris se transfère bien aux applications en aval : il améliore l'efficacité de l'entraînement et la généralisation pour la manipulation robotique, et ses trajectoires prédites fournissent un guidage de mouvement efficace pour les modèles génératifs afin de synthétiser des vidéos avec un mouvement d'objet plus réaliste.
Les modèles du monde passent de générateurs visuels passifs à une infrastructure opérationnelle fondamentale pour l'IA physique : ils doivent acquérir de manière native des connaissances sur le monde à partir d'expériences hétérogènes, maintenir des états persistants sur de longs horizons et s'exécuter efficacement dans les contraintes réelles de déploiement. Nous présentons Kairos, une pile de modèles du monde native conçue autour de ces exigences. (1) Kairos apprend le monde en inaugurant un paradigme de pré-entraînement natif régi par un curriculum de données inter-embodiments, qui organise les vidéos du monde ouvert, les données comportementales humaines et les interactions robotiques en un parcours développemental progressif. (2) Kairos maintient le monde grâce à une compréhension, génération et prédiction unifiées du monde au sein d'une architecture native unifiée dotée d'une attention temporelle linéaire hybride, où l'attention par fenêtre glissante capture la dynamique locale, les fenêtres glissantes dilatées capturent les dépendances à moyenne portée, et l'attention linéaire à porte maintient une mémoire globale persistante. Nous établissons des bornes théoriques formelles démontrant que cette factorisation temporelle limite strictement l'accumulation d'erreurs, garantissant mathématiquement la propagation d'état sur des horizons étendus. (3) Kairos exécute le monde en intégrant une co-conception système adaptée au déploiement pour prendre en charge la génération de roulage à faible latence sur du matériel serveur et grand public pour les boucles d'observation-action-retour d'information réelles. Les expériences sur les benchmarks de modèles du monde incarnés, de longs horizons et de politiques d'action montrent que Kairos atteint un niveau de performance de pointe tout en offrant un solide compromis efficacité-capacité. Ensemble, ces résultats positionnent Kairos comme une base opérationnelle cohérente pour la future intelligence physique auto-évolutive.
Les modèles de langue entraînés sur des données vision-langage à grande échelle ont démontré un fort potentiel pour les agents incarnés. L'exploitation de modèles via l'utilisation d'outils incarnés offre une alternative prometteuse aux systèmes vision-langage-action de bout en bout, en combinant un raisonnement de haut niveau avec des modules externes pour la perception, la planification et le contrôle. Cependant, il reste flou ce qui constitue un cadre efficace pour la manipulation incarnée, et dans quelle mesure un tel cadre peut libérer des capacités incarnées dans un large éventail de modèles de raisonnement. Dans ce travail, nous présentons Guava, un cadre d'exploitation pour l'utilisation d'outils incarnés, développé par une exploration systématique de l'espace de conception des flux de travail, des espaces d'action et des espaces d'observation des agents. Notre étude identifie trois ingrédients clés pour des agents incarnés efficaces : les boucles itératives perception-raisonnement-action, les abstractions d'actions sémantiques et les observations multimodales. Afin de comprendre si ces principes de conception sont universels, même pour les petits modèles, nous développons un pipeline d'entraînement de bout en bout qui distille les capacités de manipulation incarnée dans un modèle open-source de 4B paramètres en utilisant moins de 2000 trajectoires collectées entièrement en simulation. Les résultats expérimentaux, tant en simulation qu'en environnements réels, montrent des performances comparables aux modèles propriétaires de pointe, tout en faisant preuve d'une forte généralisation à des objets inédits, des instructions nouvelles et des tâches à long horizon. Les résultats suggèrent qu'un cadre bien conçu peut servir d'interface évolutive et indépendante du modèle pour la manipulation incarnée, permettant de fortes capacités incarnées émergentes dans des modèles open-source compacts avec un minimum de données d'entraînement.
Les modèles d’appariement de score et de flot recourent souvent à l’apprentissage par renforcement basé sur les préférences pour deux objectifs : s’aligner sur des préférences subjectives et, de manière surprenante, récupérer des propriétés telles que le réalisme visuel et la structure cohérente des objets que l’entraînement par appariement est censé apprendre à partir des données elles-mêmes. Nous soutenons que cela reflète un décalage structurel. Les pertes d’appariement mesurent l’erreur de régression en norme ell_2 sur le champ de vitesse ou de score sous les marginales temporelles de l’entraînement, un proxy mal aligné avec les propriétés visuelles et sémantiques qui déterminent la qualité des échantillons à l’inférence. Étant donné une récompense alignée sur ces propriétés, l’apprentissage par renforcement contourne le décalage en évaluant le modèle sur ses propres échantillons et en suivant directement le paysage de récompense. Le défi consiste à obtenir une telle récompense sans recourir aux préférences humaines, qui sont coûteuses et confondent le réalisme des données avec les inclinations des annotateurs. Nous proposons l’apprentissage par renforcement guidé par un discriminateur (DRL). DRL entraîne un discriminateur à séparer les données des échantillons du modèle de base dans un espace de représentation pré-entraîné et utilise son logit comme récompense dans un apprentissage par renforcement régularisé par KL. L’espace pré-entraîné restreint le discriminateur à des directions perceptuellement significatives, et le logit estime le rapport de vraisemblance logarithmique entre les données et le modèle, ce qui constitue la récompense optimale pour cibler la distribution des données. Sur SiT, JiT, REPA et RAE, DRL réduit le FID sans guidage (par exemple, de 9,38 à 2,62 sur SiT) et le FD dans l’espace sémantique (par exemple, de 88,2 à 19,3 sur DINOv3 pour SiT), avec des gains constants sur tous les modèles de base, et améliore les récompenses de préférence humaine sans s’entraîner sur celles-ci. Il produit également une meilleure frontière de Pareto entre la récompense de préférence et la fidélité de l’image lors d’un post-entraînement ultérieur basé sur les préférences, augmentant l’alignement tout en réduisant les artefacts de bas niveau tels que la sursaturation et la luminosité excessive.
L'apprentissage par renforcement (RL) est devenu un paradigme post-entraînement représentatif pour les grands modèles de langage (LLMs), conférant de solides capacités de raisonnement et agentiques. Cependant, la génération de déploiement (rollout) reste un goulot d'étranglement majeur en termes de latence, car l'échantillonnage autorégressif décode les réponses de manière séquentielle et un petit nombre de générations à longue traîne déterminent souvent le temps d'achèvement. Le décodage spéculatif (SD) offre un moyen naturel de résoudre ce goulot d'étranglement, étant une technique bien établie pour servir des LLMs fixes qui réduit la latence en rédigeant rapidement des tokens et en les acceptant via une vérification parallèle tout en préservant la distribution du modèle cible. Cependant, ses accélérations pratiques ne se transfèrent pas directement aux déploiements RL : (i) la politique cible évolutive rend tout modèle de brouillon fixe de plus en plus inadapté à la distribution de sortie de la politique ; et (ii) les tailles de lots actives diminuent tout au long du décodage de déploiement, faisant passer le décodage de régimes limités par le calcul à des régimes limités par la mémoire, où la vérification parallèle peut exploiter une puissance de calcul sous-utilisée. Par conséquent, accélérer les déploiements RL nécessite à la fois un modèle de brouillon qui reste efficace sous de longues générations à haute température issues d'une politique évolutive, et une utilisation du SD tenant compte du système pour éviter les régimes limités par le calcul. Nous présentons EfficientRollout, un cadre d'auto-décodage spéculatif (self-SD) conscient du système, conçu pour combler cette lacune dans les déploiements RL. EfficientRollout induit un modèle de brouillon quantifié à partir du modèle cible (i.e., auto-décodage spéculatif), le maintenant couplé à la politique évolutive sans pré-entraînement séparé du modèle de brouillon ni adaptation en ligne. Il coordonne en outre une politique d'activation du SD consciente du système avec une adaptation de la longueur des brouillons tenant compte du taux d'acceptation, permettant la spéculation uniquement dans les régimes bénéfiques tout en adaptant le budget de rédaction à la qualité évolutive du modèle de brouillon. EfficientRollout réduit la latence de déploiement et de bout en bout jusqu'à 19,6 % et 12,7 %, respectivement, par rapport à une référence de déploiement AR accélérée, tout en préservant la qualité finale du modèle.
Les autoencodeurs parcimonieux (Sparse Autoencoders, SAE) décomposent les activations du flux résiduel en caractéristiques interprétables. Les défenses récentes dans l’espace latent reposent de plus en plus sur ces décompositions, en supposant que les caractéristiques SAE identifiées comme « dangereuses » constituent des leviers exploitables pour la surveillance et l’intervention. Dans ce paradigme, fixer une caractéristique nuisible spécifique est censé empêcher de manière fiable tout comportement indésirable du modèle. Cependant, nous montrons que ce succès peut masquer un mode de défaillance récupérable : la fixation peut bloquer une voie visible vers un comportement sans pour autant éliminer le comportement lui-même. Nous formalisons cette vulnérabilité comme une récupération post-intervention, un problème d’optimisation sous contrainte dans l’espace résiduel. À partir de l’état résiduel post-intervention, nous optimisons les perturbations résiduelles afin de retrouver le comportement pré-intervention tout en préservant les valeurs post-intervention des caractéristiques SAE ciblées. Même sous un modèle de menace fort où l’intervention reste active tout au long de l’optimisation et de la génération, la récupération reste possible. Pour écarter l’hypothèse que la récupération annule simplement l’intervention, nous utilisons des mises à jour orthogonales à l’encodeur pour les interventions monocouches et le jacobien de l’application de caractéristiques correspondant dans le contexte multicouche. À travers des expériences sur TPP, l’oubli (unlearning), IOI et le guidage par refus, ce test de résistance met en évidence un comportement récupérable malgré une intervention réussie au niveau des caractéristiques. En particulier, dans le contexte critique de guidage par refus, nous obtenons un taux de récupération de 95,8 % sur les échantillons valides tout en maintenant la dérive relative des caractéristiques défendues à 0,131, soit bien en dessous des références basées sur des suffixes. Une analyse d’attribution du chemin de récupération localise en outre cette récupération dans le résidu de reconstruction du SAE, la composante non expliquée par le SAE. Ces résultats révèlent un écart entre le contrôle au niveau des caractéristiques et la complétude comportementale : les caractéristiques SAE peuvent soutenir une intervention causale, mais les contrôler ne garantit pas le contrôle du comportement sous-jacent.
Les pipelines d'apprentissage par renforcement pour l'entraînement des grands modèles de langage (LLM) reposent souvent sur des environnements redessinés manuellement entre les étapes, ce qui oblige les praticiens à inférer de manière heuristique quelle configuration améliorera le mieux la politique actuelle. Pour automatiser ce processus, nous proposons le cadre LLM-as-Environment-Engineer, dans lequel le modèle de politique actuel analyse les trajectoires d'échec ainsi que les informations contextuelles et propose des modifications à la configuration de l'environnement d'entraînement de l'étape suivante. Nous introduisons également MAPF-FrozenLake, un banc d'essai contrôlable dont le générateur expose des configurations d'environnement multidimensionnelles, ce qui le rend adapté à l'étude et à l'évaluation comparative de la refonte de l'environnement. Sur ce banc d'essai, nous conditionnons l'ingénieur d'environnement sur des résumés structurés du comportement de la politique, des cas d'échec et des statistiques de l'environnement, à partir desquels il produit la configuration pour l'étape d'entraînement suivante. Avec Qwen3-4B comme modèle de base, notre cadre obtient la performance agrégée la plus élevée sur nos bancs d'essai, surpassant les LLM propriétaires plus grands (par exemple, GPT, Gemini) et les lignes de base d'entraînement en environnement fixe. Nous analysons en outre quelles formes de contexte sont les plus efficaces, constatant que les mises à jour réussies de l'environnement reposent sur des preuves d'échec et préservent les configurations qui fonctionnent déjà. Fait intéressant, le point de contrôle RL actuel sert de meilleur ingénieur d'environnement que le modèle de base original, ce qui suggère que l'apprentissage de la politique améliore la capacité du modèle à diagnostiquer ses faiblesses restantes.
Les VLM spatiaux ont réalisé des progrès substantiels dans la perception géométrique, mais le raisonnement spatial complexe nécessitant des inférences multi-étapes sur la profondeur, la distance et les relations de scène reste difficile. De plus, différentes requêtes spatiales exigent des stratégies fondamentalement distinctes : certaines sont mieux traitées par une déduction purement linguistique et étape par étape, tandis que d'autres nécessitent un ancrage 3D explicite avant une inférence quantitative. Nous présentons le Raisonnement Spatial à Double Voie par Apprentissage par Renforcement pour les VLM Spatiaux (SR-REAL), un cadre unifié qui dote un VLM spatial de deux voies de raisonnement complémentaires : le Raisonnement Langagier Seul (LOR), qui effectue une déduction linguistique étape par étape, et la Détection-Puis-Raisonnement (DTR), qui détecte des indices géométriques 3D (par exemple, centres ou boîtes englobantes) via des jetons de région avant une inférence géométrique explicite. SR-REAL commence par une étape de fine-tuning supervisé à froid qui construit la supervision de chaîne de pensée pour LOR et DTR et expose une interface région-3D, suivie d'un apprentissage par renforcement qui optimise le modèle de politique avec des récompenses de précision et de format ; pour DTR, une récompense de détection discrète basée sur le centre affine davantage l'alignement géométrique. Sur divers benchmarks spatiaux, SR-REAL surpasse significativement les lignes de base des VLM spatiaux : (i) un modèle unique entraîné par RL supporte les deux voies de raisonnement, DTR excellant dans les tâches conscientes des régions grâce à une localisation 3D précise et LOR améliorant le raisonnement spatial général ; (ii) l'entraînement conjoint des deux voies favorise un renforcement mutuel ; (iii) des données à froid de haute qualité et mélangées sont cruciales pour une optimisation stable du RL ; et (iv) le modèle généralise à travers les ensembles de données et les domaines sans réglage par tâche, démontrant un transfert positif entre LOR et DTR.
L'ancrage d'interface graphique (GUI grounding) nécessite que les modèles vision-langage (VLM) identifient de petits éléments cibles dans des captures d'écran haute résolution et prédisent des coordonnées précises à l'écran. L'auto-distillation sur politique (OPSD) est une approche prometteuse de post-entraînement pour cette tâche sensible aux coordonnées, car elle fournit des signaux d'enseignant denses au niveau des jetons, au-delà des simples étiquettes de coordonnées binaires. Cependant, l'OPSD naïve n'est pas bien adaptée à l'ancrage d'interface graphique : elle évalue l'enseignant sur des préfixes générés par l'étudiant, et la qualité des signaux d'enseignant liés aux jetons de coordonnées peut se dégrader lorsque le préfixe s'est déjà écarté de la coordonnée cible, conduisant à des signaux d'enseignant peu fiables. Pour atténuer ce problème, nous proposons une auto-distillation sensible à la qualité pour l'ancrage d'interface graphique basé sur VLM, qui améliore la qualité des signaux d'enseignant des jetons de coordonnées grâce à un filtrage doux basé sur l'exactitude et une mise à l'échelle des probabilités de l'enseignant. Le filtrage doux basé sur l'exactitude vérifie si la prédiction actuelle de l'enseignant pour le jeton de coordonnées peut encore être complétée en la boîte de vérité terrain sous le préfixe généré par l'étudiant. Dans le cas contraire, le signal d'enseignant correspondant est pondéré à la baisse. La mise à l'échelle des probabilités de l'enseignant utilise ensuite la confiance de l'enseignant comme facteur léger pour calibrer davantage la force de la supervision filtrée. Un constat empirique clé est qu'aucun des deux composants pris isolément n'améliore les performances globales, tandis que leur combinaison les améliore systématiquement. Cela suggère que les deux mécanismes jouent des rôles complémentaires : le filtrage basé sur l'exactitude supprime la supervision peu fiable des jetons de coordonnées, tandis que la mise à l'échelle des probabilités de l'enseignant calibre la force des signaux restants. Des expériences sur six bases de référence d'ancrage d'interface graphique montrent que notre méthode améliore systématiquement le modèle de base et surpasse les références fortes.
Les modèles passifs pour la compréhension de longues vidéos reposent généralement sur un paradigme « regarder-tout », traitant les images de manière uniforme indépendamment de la difficulté de la requête, ce qui entraîne une augmentation du coût de calcul avec la durée de la vidéo. Bien que des cadres interactifs aient émergé, ils reposent souvent sur un pré-balayage global, et leur coût de contexte reste proportionnel à la longueur de la vidéo. Nous proposons OmniAgent, le premier agent omni-modal natif qui formule la compréhension vidéo comme un cycle itératif Observation-Pensée-Action basé sur POMDP. OmniAgent exécute des actions à la demande pour distiller sélectivement les indices audio-visuels dans une mémoire textuelle persistante, découplant ainsi efficacement la complexité du raisonnement de la durée brute de la vidéo. Pour opérationnaliser cela, nous introduisons (1) le Fine-Tuning Supervisé Agentique (Agentic Supervised Fine-Tuning) pour amorcer la perception active native via une synthèse de trajectoires best-of-N avec un contrôle qualité en deux étapes, et (2) l’Apprentissage par Renforcement Agentique (Agentic Reinforcement Learning) avec TAURA (Turn-aware Adaptive Uncertainty Rescaled Advantage), qui exploite l’entropie au niveau des tours pour orienter l’attribution des crédits vers les tours de découverte cruciaux. Crucialement, OmniAgent présente un passage à l’échelle positif au moment du test, où la performance s’améliore à mesure que le nombre de tours de raisonnement augmente, validant ainsi l’efficacité de la perception active. Les résultats empiriques sur dix benchmarks (par exemple, VideoMME, LVBench) démontrent qu’OmniAgent atteint des performances de pointe parmi les modèles open-source. Notamment, sur LVBench, notre agent 7B surpasse le modèle Qwen2.5-VL-72B, dix fois plus grand (50,5 % contre 47,3 %).
Les algorithmes d'apprentissage par renforcement avec récompenses vérifiables, tels que GRPO, sont devenus le paradigme dominant de post-entraînement pour le raisonnement complexe dans les LLM, mais souffrent fréquemment d'un effondrement de l'entropie de la politique lors de l'entraînement. Nous menons une analyse du gradient du premier ordre de la dynamique de l'entropie au niveau des jetons sous GRPO et identifions un décalage d'attribution de crédit au niveau des jetons : la variation d'entropie par jeton se décompose en produit de l'avantage au niveau de la trajectoire et d'une fonction de sensibilité de l'entropie sur la distribution du jeton suivant, produisant une structure à quatre quadrants d'avantage-surprise et une propriété de quasi-criticalité. Motivés par cela, nous proposons STARE (Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability), qui identifie les sous-ensembles de jetons critiques pour l'entropie via des quantiles de surprise intra-lot, re-pondère sélectivement leurs avantages effectifs, et intègre une porte en boucle fermée d'entropie cible pour une régulation stable de l'entropie. Sur des échelles de modèle de 1,5B à 32B et trois familles de tâches (Short CoT, Long CoT et Multi-Turn Tool Use), STARE maintient un entraînement RL stable sur des milliers d'étapes tout en maintenant l'entropie de la politique dans la bande cible. Sur AIME24 et AIME25, STARE surpasse DAPO et d'autres références concurrentielles de 4 % à 8 % en précision moyenne, avec des jetons de réflexion et une longueur de réponse augmentant conjointement, indiquant un équilibre soutenu entre exploration et exploitation qui libère davantage le potentiel d'entraînement RL. Le code est disponible à l'adresse https://github.com/hp-luo/STARE.
Les modèles de diffusion sont devenus une alternative prometteuse aux modèles autorégressifs. Parmi eux, les modèles de langage à diffusion uniforme (UDLM) permettent de mettre à jour n'importe quel token à n'importe quelle étape, offrant en principe une génération plus flexible. Cependant, aucun UDLM n'a encore été pré-entraîné à partir de zéro à la fois à grande échelle paramétrique et avec un budget de tokens conséquent. La modélisation autorégressive et la modélisation par diffusion masquée disposent déjà de modèles performants à grande échelle que la communauté peut étudier et sur lesquels s'appuyer ; ce n'est pas le cas pour la diffusion uniforme. Un UDLM pré-entraîné à partir de zéro à grande échelle fournirait un point de référence clair pour étudier le comportement de mise à l'échelle, la dynamique de génération, la contrôlabilité et les compromis par rapport aux modèles autorégressifs et à diffusion masquée établis. Dans cette optique, nous présentons Sumi (« encre » en japonais), un modèle de langage à diffusion uniforme de 7B entièrement ouvert, pré-entraîné à partir de zéro sur 1,5T tokens. Sumi obtient des performances compétitives avec les modèles autorégressifs entraînés sur des budgets de tokens comparables dans les domaines des connaissances, du raisonnement et du codage, mais sous-performe dans les références de bon sens, où notre mélange de données axé sur l'éducation est probablement un facteur contributif. Nous publions les poids de notre modèle, ses points de contrôle et la recette complète d'entraînement, y compris une spécification complète du mélange de données à partir de corpus publics. Nous espérons que cette publication permettra à la communauté d'étudier la diffusion uniforme native à grande échelle et catalysera les travaux sur ses aspects encore mal compris.
Alors qu'une majorité croissante des contenus vidéo mondiaux est consommée sur les plateformes sociales à des fins interactives, les modèles de génération vidéo conçus pour les mondes sociaux sont importants mais largement négligés par les études antérieures. Dans ce travail, nous définissons la position des modèles de mondes sociaux et construisons un modèle prototype comme premier pas vers cet objectif. Alors que les précédents modèles de mondes simulent avec succès des environnements physiques ou l'exploration de mondes de jeux, ils restent fondamentalement déconnectés des dynamiques sociales centrées sur l'humain. Pour combler ce fossé comme première étape vers les modèles de mondes sociaux, nous présentons MaineCoon, le premier modèle autorégressif audio-visuel en temps réel qui comporte 22 milliards de paramètres et est capable de génération en flux continu en temps réel ainsi que d'interaction en moins d'une seconde, avec un taux d'images record allant jusqu'à 47,5 FPS sur un seul GPU. À notre connaissance, MaineCoon est également le premier modèle de génération audio-visuelle en temps réel spécifiquement optimisé pour les applications sociales et interactives. Pour permettre un apprentissage efficace et stable, nous introduisons plusieurs techniques novatrices dans MaineCoon, notamment l'auto-rééchantillonnage, l'alignement des représentations inter-modales, l'optimisation des préférences contextuelles et la distillation renforcée de politique en ligne (ROPD). Nous concevons également le premier cadre d'inférence en flux continu agentique qui prend en charge une génération à l'échelle de la milliseconde, voire plus longue, tout en atténuant la dérive grâce à une gestion agentique du cache et à une planification des invites. Ces innovations accélèrent considérablement l'apprentissage tout en optimisant les performances d'inférence en temps réel. Nous pensons que ce travail établit non seulement un nouveau benchmark de performance de pointe (SOTA) pour les modèles autorégressifs audio-visuels de haute qualité, à faible latence et à long horizon, mais qu'il indique également le changement de paradigme souhaité pour les plateformes sociales de nouvelle génération natives de l'IA.
Les systèmes multi-agents multiculturels sont de plus en plus déployés dans des contextes mondialement diversifiés, où différents agents sont ancrés dans des bagages culturels distincts. L'évaluation culturelle existante se concentre sur l'alignement des valeurs : à quel point un agent individuel correspond à une culture cible. Cependant, l'alignement est une propriété propre à chaque agent et ne peut révéler si un système, pris dans son ensemble, préserve la pluralité culturelle qu'il est censé représenter. Nous proposons la diversité des valeurs comme un axe d'évaluation au niveau du système pour les systèmes d'agents multiculturels, définie par la dissimilarité entre les réponses d'agents conditionnés culturellement à un questionnaire de valeurs partagé. En utilisant l'enquête sur les valeurs mondiales (World Values Survey), nous évaluons 19 cultures et 18 modèles de base (backbone models) dans un large éventail de configurations système. Nous constatons que la diversité est largement non corrélée avec l'alignement, indiquant que les deux capturent des propriétés système complémentaires, et que les systèmes d'agents multiculturels actuels sont nettement inférieurs aux sociétés humaines en termes de diversité des valeurs. Les systèmes à modèles de base mixtes réduisent cet écart mais ne le comblent pas, et l'écart persiste à travers les compositions culturelles et les échelles d'agents. L'interaction sociale érode davantage la diversité en poussant les agents vers un consensus, et une étude de cas sur la budgétisation participative montre que cette homogénéisation réduit l'étendue de la prise de décision collective. Ensemble, nos résultats établissent la diversité des valeurs comme un axe d'évaluation distinct pour les systèmes multi-agents multiculturels et révèlent une tendance persistante à l'homogénéisation dans les sociétés actuelles basées sur les grands modèles de langage. Notre code et nos données sont disponibles publiquement à l'adresse https://github.com/iNLP-Lab/MultiAgent-Diversity.
Les agents de modèles de langage deviennent des exécutants compétents pour des tâches isolées à horizon court, telles que le génie logiciel et le service client. Pourtant, les défis du monde réel exigent une combinaison de compétences sophistiquées qui restent largement non testées chez les agents : (1) naviguer sur de longs horizons en situation d'incertitude ; (2) acquérir des informations dans des environnements bruités ; (3) s'adapter à un monde en mutation ; (4) orchestrer de multiples éléments mobiles vers un objectif cohérent. Nous présentons CEO-Bench, qui évalue ces capacités conjointement en simulant une tâche représentative du monde réel : diriger une startup pendant 500 jours. Un agent gère la tarification, le marketing, le budget et de nombreux autres aspects d'une entreprise fictive via une interface Python programmable, opérant dans le même environnement et faisant face aux mêmes défis qu'un PDG humain. La réussite exige d'analyser des bases de données commerciales bruitées et interconnectées, de traduire les signaux en une stratégie solide, et de coordonner de nombreuses décisions par la programmation. Les agents les plus performants écrivent du code sophistiqué qui simule des cohortes de clients pour prévoir la trésorerie future et exploitent l'historique des négociations pour découvrir les préférences cachées des clients. Malgré cela, la plupart des modèles de pointe peinent dans cet environnement. Seuls Claude Opus 4.8 et GPT-5.5 terminent au-dessus du solde initial de 1 million de dollars, et aucun ne génère systématiquement des bénéfices. CEO-Bench constitue un premier pas vers la mesure de l'intelligence nécessaire pour soutenir un progrès durable et adaptatif dans le temps.
Les Vision Transformers (ViTs) sont devenus une architecture dominante pour l'apprentissage de représentations visuelles, offrant des caractéristiques de backbone exceptionnellement solides et largement réutilisables. Cependant, les ViTs sont généralement exploités sur des grilles de patch-tokens relativement petites en raison du coût quadratique de l'auto-attention globale, ce qui crée un goulot d'étranglement persistant pour les tâches de prédiction dense telles que la segmentation sémantique et l'estimation de profondeur. Cela a motivé le développement de sur-échantillonneurs de caractéristiques agnostiques aux tâches. Alors que les méthodes récentes de pointe produisent des représentations denses visuellement nettes, leur dépendance à des encodeurs d'image peu profonds pour le sur-échantillonnage guidé peut introduire des fuites de caractéristiques, une fragmentation et un flou. Nous introduisons ViT-Up, un cadre de sur-échantillonnage implicite de caractéristiques qui remplace le guidage par image externe par une construction de requêtes par couche à partir des états cachés intermédiaires du ViT. Cela permet la prédiction de caractéristiques à des coordonnées d'image continues arbitraires tout en préservant l'alignement avec l'espace de caractéristiques du backbone. Des expériences montrent que ViT-Up surpasse systématiquement les sur-échantillonneurs guidés par image de pointe en prédiction dense et correspondance sémantique. Avec DINOv3-S+, ViT-Up améliore les méthodes précédentes jusqu'à +2,07 mIoU sur Cityscapes et +4,17 PCK@0,10 sur SPair-71k. Avec le backbone plus grand DINOv3-B, ces gains augmentent à +3,36 mIoU et +8,09 PCK@0,10, démontrant que ViT-Up évolue favorablement avec la capacité du backbone.
Les modèles fondamentaux du monde (WFM) sont de puissants simulateurs, mais ils fonctionnent principalement dans un cadre mono-vue et ne possèdent pas la cohérence 3D multi-vue requise pour la manipulation robotique. Alors que les systèmes robotiques s'appuient sur plusieurs caméras (égocentrique, œil-main et montée au poignet) pour l'apprentissage de politiques, les modèles du monde multi-vue actuels se contentent de concaténer les jetons de vue sans raisonnement géométrique explicite. Cela entraîne une dérive des objets entre les vues, une incohérence de profondeur et un désalignement de texture. Nous attribuons ces échecs à deux lacunes : l'absence d'un mécanisme de communication inter-vue explicite et le manque d'un a priori géométrique 3D. Nous soutenons que résoudre ces deux problèmes simultanément est à la fois nécessaire et suffisant. Pour y remédier, nous présentons PAIWorld, un cadre qui améliore les modèles du monde de type transformateur-diffusion via trois composants principaux : (1) des blocs d'attention cross-vue sensibles à la géométrie, qui établissent une voie explicite entre les vues, (2) un encodage de position rotatoire géométrique, qui encode les directions des rayons de la caméra et les poses extrinsèques dans le mécanisme d'attention, et (3) le REPA 3D latent, qui distille des caractéristiques 3D à partir de modèles fondamentaux 3D gelés pour garantir la cohérence 3D. Construit sur un modèle fondamental du monde basé sur DiT, PAIWorld atteint une cohérence 3D multi-vue de pointe sur les benchmarks de manipulation robotique, se classant 1er au classement WorldArena et 2ème au classement AgiBot-Challenge2026, tout en permettant des applications en aval telles que la planification basée sur modèle, les modèles d'action du monde et le post-entraînement de politiques multi-vue.
Le raisonnement scientifique de pointe demeure un défi majeur pour les grands modèles de langage (LLM), où même les systèmes commerciaux les plus performants n'atteignent pas le niveau d'expertise attendu. Un examen plus attentif du comportement des modèles révèle une complémentarité substantielle que l'évaluation d'un seul modèle masque : différents modèles de pointe excellent sur différents types de questions, et aucun modèle unique ne capture l'intégralité du tableau. Nous présentons SciOrch, un cadre qui entraîne un modèle léger de 8B à orchestrer les LLM de pointe pour le raisonnement scientifique. L'orchestrateur décompose chaque question, délègue les sous-problèmes à des modèles commerciaux sélectionnés via des appels API, et synthétise une réponse finale. Entraîner un tel orchestrateur est fondamentalement plus difficile que l'apprentissage par renforcement agentique classique : chaque action déclenche un appel API qui est coûteux à la fois en termes de coût monétaire et de latence, rendant les déploiements en ligne standard irréalisables. Nous abordons cela avec une approche basée sur MCTS, produisant des trajectoires d'orchestration diverses, extrayant des échantillons par nœud à un seul tour, et optimisant l'orchestrateur avec un entraînement de type GRPO. Sur un ensemble de test de 240 questions couvrant SGI-Reasoning et Scientists' First Exam, SciOrch atteint une précision moyenne de 56,66 %, surpassant le meilleur modèle commercial unique de 3,74 % et la meilleure baseline multi-agent de 3,33 %. Il atteint également la meilleure précision à la fois sur SGI et SFE avec moins de la moitié du coût API des méthodes multi-agents typiques.
L'apprentissage par renforcement avec utilisation d'outils en multi-tours est limité par l'épuisement rapide des échantillons informatifs dans les ensembles de données statiques. Nous observons que le signal de gradient dans GRPO se concentre sur les tâches présentant la plus grande variance de récompense des rollouts, une conséquence de la borne supérieure de Popoviciu. Par conséquent, les échantillons proches de la frontière de capacité de l'agent -- où les succès et les échecs sont à peu près équilibrés -- contribuent de manière disproportionnée aux gradients de politique. Au fur et à mesure de l'entraînement, cette frontière se déplace continuellement, ce qui épuise progressivement le réservoir d'échantillons informatifs dans un ensemble de données statique. Nous proposons RODS (synthèse en ligne de données pilotée par la récompense) pour résoudre cet épuisement. RODS boucle la boucle entre l'entraînement RL et la génération de données en réutilisant la variance de la récompense de progression comme un détecteur de frontière pratique et sans coût, qui ne nécessite aucune inférence supplémentaire au-delà des rollouts déjà calculés pour l'entraînement. Il identifie continuellement ces échantillons limites, synthétise de nouvelles variantes multi-tours correspondant à leur complexité structurelle (par exemple, topologie API et profondeur de dépendance) via un pipeline de rééchantillonnage aligné sur les compétences, et gère un tampon de rejeu dynamique qui co-évolue avec la politique. En partant de 400 amorces humaines et en maintenant un pool d'entraînement actif d'environ 800 échantillons, RODS atteint des performances comparables à celles d'un pipeline hors ligne de 17 000 échantillons tout en nécessitant environ 20 fois moins de trajectoires, et améliore les résultats par rapport au RL sur données fixes et à l'augmentation d'environnement dans notre environnement contrôlé.
L'apprentissage par renforcement hors ligne est typiquement analysé sous une supervision des récompenses au niveau des processus, pourtant de nombreux ensembles de données de décisions séquentielles n'enregistrent que des résultats au niveau des trajectoires. Nous développons une théorie statistique pour l'optimisation de politique hors ligne à partir d'une telle supervision au niveau des résultats. Nous étudions d'abord le cadre canonique où la cible reste la récompense cumulative attendue, mais chaque trajectoire hors ligne ne fournit qu'une étiquette scalaire dont la moyenne conditionnelle est le retour cumulé. Nous proposons OPAC, un algorithme acteur-critique pessimiste qui apprend un modèle de récompense latent et optimise une politique à partir d'étiquettes au niveau des trajectoires. Nous prouvons une garantie à haute probabilité d'ordre \(\widetilde{O}\left(\frac{H^2 C_{sa(\pi^*)}}{n}\right)\) et une borne inférieure correspondante, caractérisant le coût statistique précis du remplacement des récompenses au niveau des processus par une seule étiquette au niveau de la trajectoire. Nous étendons ensuite le principe aux retours basés sur les préférences, en préservant la dépendance en horizon et en concentrabilité jusqu'aux constantes du modèle de préférence. Enfin, nous étudions le RL hors ligne généralisé basé sur les résultats, où la supervision et l'objectif sont des quantités au niveau des trajectoires induites par une agrégation non linéaire des récompenses latentes par étape. Ce problème n'est pas apprenable en général : pour des objectifs de tout-succès, tout apprenant hors ligne peut nécessiter \(\Omega(2^H)\) trajectoires même avec des transitions déterministes et une concentrabilité constante. Nous identifions ensuite un régime traitable à travers deux coefficients structurels, \(\kappa_\mu(\sigma)\) et \(\chi_\mu(\sigma)\), capturant la perte d'information dans l'agrégation des résultats et les mises à jour généralisées de Bellman, sous lesquelles OPAC généralisé atteint une complexité d'échantillonnage polynomiale. Ensemble, nos résultats délimitent quand la supervision au niveau des résultats permet un contrôle hors ligne efficace en termes d'échantillons et quand l'absence de récompenses au niveau des processus crée des barrières statistiques fondamentales.
Apprendre à simuler des utilisateurs humains dans des environnements interactifs pourrait faire progresser la formation d’agents assistants, l’évaluation de systèmes de personnalisation, la recherche en sciences sociales, et bien plus encore. Les approches existantes procèdent généralement en entraînant un grand modèle de langage (LLM) à correspondre à une unique réponse de référence, soit en maximisant la log-probabilité, soit en utilisant une récompense de similarité. Nous proposons à la place {Turing-RL} : une approche d’apprentissage par renforcement basée sur le test de Turing pour entraîner des modèles de simulation d’utilisateurs. {Turing-RL} utilise une récompense Turing discriminative avec un juge LLM pour évaluer à quel point une réponse générée est indistinguable de celle de l’utilisateur réel, compte tenu de l’historique de ce dernier, et le LLM simulateur d’utilisateurs apprend à produire des réponses indistinguables de ce que l’utilisateur aurait pu dire grâce à ces récompenses. Dans deux domaines différents — le chat conversationnel et les discussions sur le forum Reddit — nous constatons que {Turing-RL} surpasse systématiquement les méthodes de référence sur les métriques d’évaluation tant par LLM que par des humains. Notre étude suggère qu’optimiser l’indistinguabilité, plutôt que la correspondance des réponses, est efficace pour apprendre des simulateurs d’utilisateurs.
Les modèles génératifs vidéo (MGVs) constituent une nouvelle frontière, utilisables non seulement pour la génération de vidéos, mais aussi pour une multitude de tâches en aval, y compris la modélisation du monde. Pour faire progresser ces tâches, un bon modèle vidéo doit comprendre la réalité physique du monde. L'évaluation de cette compréhension est un domaine émergent qui a donné naissance au benchmark Physics-IQ, lequel quantifie explicitement cette capacité en comparant des vidéos générées par modèle à des vidéos réelles d'expériences physiques. Dans ce travail, nous présentons un audit systématique du benchmark Physics-IQ, en exposons les lacunes et proposons trois solutions qui affinent la manière de mesurer la compréhension physique des MGVs. Plus précisément, nous améliorons la qualité des prompts et des vérités terrain afin de réduire l'influence des facteurs confondants, et introduisons en outre un système de notation au niveau des échantillons qui pondère chaque échantillon et chaque métrique de manière égale. Le benchmark qui en résulte, Physics-IQ Verified, affine 57,6 % de tous les échantillons et améliore plus de 34,8 % des prompts. Dans une étude comparative utilisant six modèles génératifs image-vers-vidéo, nous observons des changements de classement modérés mais significatifs (τ de Kendall = 0,46). Nous espérons que Physics-IQ Verified fera progresser la communauté en fournissant un signal plus fiable vers des MGVs physiquement précis. Le code du benchmark est accessible à l'adresse https://github.com/google-deepmind/physics-iq-benchmark.
Les systèmes d'IA peuvent de plus en plus automatiser les flux de travail scientifiques, mais le raisonnement qui relie les preuves antérieures, les idées générées, les expériences et les affirmations finales reste souvent implicite dans l'inférence du modèle. Nous présentons ici Xcientist, un cadre de recherche qui externalise la synthèse de recherche et la validation expérimentale en processus inspectables et régis par des contrats. Xcientist organise les preuves issues de la littérature, les états des idées, les plans de mise en œuvre, les enregistrements d'ablation et les traces de réparation sous forme d'artefacts de recherche persistants, de sorte que les mécanismes générés puissent être fondés, exécutés, testés et révisés sans perdre leur base probante. Nous identifions la dérive des affirmations comme un mode de défaillance de la recherche automatisée, où les artefacts exécutables ne soutiennent plus le mécanisme initialement affirmé. Dans des systèmes de mémoire sans entraînement, la prévision du trafic structurée en graphes et les réseaux de neurones informés par la physique multi-échelle, Xcientist préserve des trajectoires traçables depuis la formulation du problème jusqu'à la conception de mécanisme, la validation et la révision bornée. Ces résultats suggèrent que les scientifiques IA devraient être évalués non seulement sur leurs artefacts finaux, mais aussi sur le fait que leurs processus de synthèse et de validation restent attribuables, inspectables et scientifiquement responsables.
La mise à l'échelle au moment du test via une révision séquentielle est devenue un paradigme puissant pour améliorer le raisonnement des grands modèles de langage (LLM). Cependant, les méthodes standard de post-entraînement optimisent principalement des objectifs en un seul passage, créant un décalage fondamental avec la dynamique d'inférence multi-étapes. Bien que des travaux récents traitent cela comme un apprentissage par renforcement multi-tours (RL), les approches conventionnelles optimisent directement les trajectoires multi-étapes, sans exploiter davantage les erreurs de haute qualité dans les étapes intermédiaires dont le modèle peut apprendre en les corrigeant. Nous proposons un cadre itératif en deux étapes qui alterne entre l'augmentation de données/instructions en ligne et l'optimisation de la politique. En convertissant les étapes intermédiaires (réponses « presque correctes ») dans les trajectoires de récupération réussies en instructions de révision et de vérification découplées, notre approche concentre l'entraînement à la fois sur la transformation efficace des réponses et sur l'identification des erreurs. Cette approche permet une génération de données hors politique efficace et réduit le surcoût computationnel de l'échantillonnage sur long horizon par rapport au RL multi-tours standard. Sur LiveCodeBench, en utilisant des cas de test disponibles publiquement comme retour, nous observons des gains de +6,5 points par rapport à la base RL et de +4,0 points par rapport à l'entraînement multi-tours standard. Au-delà du codage, notre approche égalise le résultat SOTA précédemment rapporté sur le circle packing tout en utilisant le plus petit modèle de base (4B) et beaucoup moins de déploiements que les systèmes de recherche évolutionnaire beaucoup plus grands. Les résultats en mathématiques sous vérification par vérité terrain confirment en outre une capacité de correction améliorée. Elle se généralise également à des puzzles de satisfaction de contraintes hors distribution tels que n_queens et mini_sudoku, où la correction est entièrement définie par les contraintes du problème. Le code est disponible à l'adresse https://github.com/yxliu02/REVES.git.
Les benchmarks actuels pour les agents d’utilisation d’ordinateur évaluent les modèles dans des environnements impersonnels. Cela crée un fossé entre l’évaluation et le déploiement, alors que les assistants personnels sont censés travailler sur l’ensemble de la vie numérique d’un utilisateur, y compris son contexte, ses données historiques et ses comptes connectés. Ce fossé est le plus marqué dans les tâches web, où les évaluations sur le web réel ne peuvent pas utiliser les sites nécessitant une connexion ou des informations personnelles — le type de site qu’un véritable assistant personnel doit piloter. Nous présentons MyPCBench, qui teste les agents d’utilisation d’ordinateur en tant qu’assistants personnels sur un bureau Linux peuplé de 17 applications web simulées et réalistes, ainsi que d’une pile de bureau complète, le tout initialisé pour un persona canonique : Michael Scott de *The Office*. Nous définissons 184 tâches dans cet environnement, chacune inspirée d’une requête réelle issue de la communauté OpenClaw, et nous évaluons six modèles fermés et à poids ouverts avec une surface d’outils uniforme combinant ordinateur et bash. Nous constatons que le meilleur modèle, Claude Opus 4.6, résout complètement 55,4 % des tâches, étant le seul modèle au‑dessus de 50 %. Les échecs des modèles se concentrent sur les tâches couvrant de nombreuses applications et sur les trajectoires longues, domaines où la personnalisation sollicite le plus un assistant. Nous publions l’environnement, l’ensemble des tâches et le harnais d’agent à l’adresse https://mypcbench.com.
Un agent téléphonique utile doit être doté d'une intelligence personnelle. Il doit raisonner sur l'identité, l'historique et les préférences de l'utilisateur tels qu'ils existent sur l'appareil, et non se contenter de suivre des instructions isolées dans un bac à sable impersonnel. Les benchmarks existants pour agents mobiles ne tiennent pas compte de ce type de personnalisation. Nous présentons iOSWorld, le premier benchmark interactif natif sur simulateur iOS, construit autour d'une identité utilisateur persistante couvrant 26 applications iOS nouvellement développées. Ces applications contiennent des données connectées telles que des transactions, des messages, des enregistrements de voyages, des relations sociales et des activités financières. iOSWorld comprend 133 tâches réparties en trois catégories de difficulté croissante. Les tâches mono-application (27) testent une seule application, les tâches multi-applications (60) couvrent de 2 à 8 applications, et les tâches de mémoire et de personnalisation (46) exigent que les agents infèrent des motifs à partir de données personnelles. Nous évaluons des modèles de pointe et open source d'utilisation d'ordinateur dans des configurations de vision seule et de vision+XML privilégiée. La meilleure configuration atteint 52 % en global, mais seulement 37 % sur les tâches multi-applications. L'accès privilégié vision+XML améliore les modèles de pointe jusqu'à 26 points de pourcentage, tandis que les modèles plus petits ne bénéficient pas de l'apport de l'arbre d'accessibilité. Nous publions iOSWorld en tant que benchmark open source avec toutes les applications, les données initialisées, les tâches, les grilles d'évaluation et le code d'évaluation.
Les produits industriels tels que les vannes et les disjoncteurs sont définis par des spécifications techniques denses qui régissent l'approvisionnement, la compatibilité et la sécurité à travers les chaînes d'approvisionnement. Ces spécifications sont dispersées dans de multiples images de produits hétérogènes, incluant des tableaux de spécifications, des plaques signalétiques et des dessins techniques, mais la question de savoir si les modèles de langage multimodaux à grande échelle (MLLMs) peuvent les récupérer de manière fiable reste peu explorée. Pour combler cette lacune, nous présentons IndustryBench-MIPU, le premier benchmark à grande échelle pour la compréhension multi-image de produits industriels, construit autour de l'extraction structurée d'attributs — la récupération de paires propriété-valeur à partir d'images de produits. Cette tâche sollicite conjointement la reconnaissance de texte sur les tableaux de spécifications et les plaques signalétiques, le raisonnement visuel sur les dessins techniques, les connaissances du domaine pour décoder la terminologie industrielle, et l'intégration de preuves inter-images pour assembler des spécifications dispersées. Concrètement, le benchmark comprend 4 559 produits répartis sur 27 652 images avec 103 703 annotations couvrant 18 catégories industrielles, construit par consensus multi-modèle et assurance qualité à trois niveaux. L'évaluation de neuf MLLMs dans des contextes d'image unique et d'images multiples au niveau produit révèle un écart de complétude frappant : les modèles atteignent une précision élevée (86–94 %) mais le meilleur ne récupère que 49,9 % des attributs au niveau produit ; le passage de l'extraction sur image unique à l'extraction multi-image entraîne une perte de 15 à 34 points de pourcentage de rappel. La complétude multi-image, et non la précision sur image unique, constitue le goulot d'étranglement principal. L'ensemble de données et le code sont disponibles publiquement.
Nous montrons que la base standard des états cachés du transformeur fournit déjà une base de caractéristiques sans entraînement et générale pour l'architecture. Les dimensions individuelles encodent le contenu sémantique via leurs signes (+/-1) et la confiance via leurs magnitudes, agissant comme des registres binaires indépendants ; une caractéristique est un sous-ensemble de dimensions avec un patron de signes cohérent, lue en comptant les accords de signes sans rotation apprise. Nous validons ce cadre « Bag of Dims » sur sept modèles couvrant le langage (Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), la vision (DINOv2, ViT-Base) et l'audio (AST). Les signes seuls portent un contenu prédictif : les patrons de signes à magnitude unitaire préservent 60 à 93 % de la précision top-5 du jeton suivant à travers la tête LM, et le score de Hamming sans décodeur atteint 80 à 90 % de la précision top-4096. À partir d'un cache de jeton unique (un passage avant par jeton, sans contexte, sans étiquettes), nous détectons 175 catégories avec une AUC de 0,97 à 0,99 par accord de signes ; une sonde entraînée n'ajoute que +0,018 à l'AUC et converge vers des poids alignés sur les axes. Ces caractéristiques sont causalement opérationnelles : elles survivent aux projections d'attention K/V, remontent aux coalitions de neurones FFN qui les écrivent (les contrôles à poids aléatoires ne les reproduisent jamais), et inverser les signes d'une caractéristique pendant le passage avant en direct supprime son concept dans quatre modèles de langage, avec appariement en magnitude et spécificité conceptuelle. Les dimensions restent indépendantes tout au long (information mutuelle par paire inférieure à 0,006 bit). La structure n'est pas spécifique au langage : les mêmes signes par dimension apparaissent en vision auto-supervisée (DINOv2, 9/12 superclasses ImageNet), en vision supervisée (ViT-Base, 11/12) et en audio (AST, 50/50 catégories ESC-50), ce qui reflète l'entraînement général des transformeurs, et non l'objectif de modélisation du langage. La base standard suffit déjà pour lire les caractéristiques en un seul passage avant, sans optimisation, sans jours de GPU. Le problème ouvert passe de la recherche de la bonne rotation au catalogue de ce que chaque dimension encode.
Les outils de retouche d'image créative, tels que les boutons Supprimer ou Remplissage génératif de Photoshop, sont au cœur de l'utilisation quotidienne des clients et représentent une part majeure du trafic dans Photoshop et Lightroom. Cependant, les modèles d'IA générative actuels sont confrontés à des défis de latence significatifs, qui deviennent encore plus prononcés lors du passage des U-Net basés sur la convolution aux Transformers de Diffusion (DiTs). Dans notre évaluation sur des centaines d'échantillons représentatifs de retouche d'image couvrant une large gamme de ratios de masque, le module DiT à lui seul représente en moyenne 73 % de la latence totale du modèle, même après avoir été distillé de 50 étapes temporelles à 8. Pour relever ce défi, nous proposons HiLo-Token, un cadre de compression de tokens adaptatif à l'entrée qui alloue davantage de budget de tokens aux régions à haute fréquence et à contexte riche, tout en attribuant moins de tokens aux zones à basse fréquence. Plus précisément, pour la région de retouche spécifiée par le masque utilisateur, nous conservons tous les tokens à l'intérieur d'un masque dilaté afin de préserver une forte localité et une pertinence contextuelle. En dehors de la région de retouche, nous introduisons une stratégie simple mais efficace de sélection de tokens à haute fréquence basée sur la fréquence spatiale pour capturer les détails locaux importants, tout en utilisant des tokens provenant d'une image sous-échantillonnée d'un facteur 16 pour représenter les composantes à basse fréquence et préserver la structure globale floue. Des expériences approfondies sur des données d'évaluation de niveau production confirment l'efficacité de la méthode proposée, atteignant des accélérations du DiT de 3,13x, 2,59x et 1,67x sur A100-80GB pour les tâches de retouche d'image avec des catégories de ratio de masque petit, moyen et grand, correspondant à des ratios moyens de 6,38 %, 15,92 % et 35,36 % respectivement, sans aucune régression de la qualité de génération.
L'auto-distillation sur politique (OPSD) entraîne un modèle sur ses propres rollouts et utilise une copie gelée pour fournir des cibles denses au niveau des tokens, conditionnées par une cible de référence. Cette approche fonctionne bien pour le raisonnement des LLM, mais une extension directe aux modèles de langage multimodaux de grande taille (MLLM) peut créer un raccourci : la cible privilégiée risque de guider les tokens principalement sur la base de la cible de référence textuelle plutôt que de l'image. Nous proposons ViGOS, un cadre OPSD ancré visuellement pour le post-entraînement des MLLM. L'étudiant commence par rédiger une description visuelle, puis raisonne pour parvenir à la réponse finale. Pour les rollouts valides, un enseignant perceptif uniquement basé sur l'image supervise la description, tandis qu'un enseignant privilégié pour le raisonnement supervise le raisonnement et la réponse finale sur le même préfixe de l'étudiant. Un enseignant de référence n'est utilisé que pour les rollouts invalides afin de rétablir le format de sortie. Sur les benchmarks de vision-langage général, de raisonnement expert, de mathématiques visuelles, d'ancrage spatial et de priorité visuelle-langage, ViGOS conserve les principaux avantages de l'OPSD et améliore le comportement ancré sur l'image dans les contextes sujets aux raccourcis.
Le turc est une langue agglutinante : le sens est porté par des morphèmes, pourtant les tokeniseurs de sous-mots qui animent les modèles de langue modernes segmentent les mots selon les statistiques de corpus, fragmentant les suffixes chargés sémantiquement et – dans le cas de WordPiece et des analyseurs à base de règles – échouant à décoder leur sortie pour revenir au texte original. Cet article présente Morpheus, un modèle neuronal de frontières de morphèmes pour le turc qui est à la fois un tokeniseur sans perte et conscient de la morphologie, et un producteur de plongements lexicaux. Un programme dynamique poisson-binomial différentiable transforme les probabilités de frontière par caractère en appartenances souples aux morphèmes pendant l’entraînement et en segments exacts à l’inférence, sans normalisation de chaîne, de sorte que decode(encode(w)) = w est garanti par construction. Parce que le modèle est neuronal, la même passe avant qui tokenise émet également un plongement lexical structuré. Parmi les tokeniseurs réversibles – les seuls valables pour la génération – Morpheus atteint le plus faible nombre de bits par caractère (1,425), double approximativement l’alignement morphologique de référence de la famille de sous-mots (macro-F1 MorphScore 0,61 contre ~0,32) et utilise ~19% de mémoire GPU en moins que les tokeniseurs de sous-mots à vocabulaire 64K. En tant que plongeur, les vecteurs Morpheus gelés mènent sur la recherche lexicale (MAP de famille de racines 0,85) et la vérification de racine identique (AUC-ROC 1,00), surpassant le répéteur multilingue BGE-M3 et BERTurk ; sur les tâches dépendantes du contexte et de l’inflexion (NER, sondage cas/nombre), les encodeurs contextuels plus lourds restent en tête – un compromis que nous attribuons à la géométrie centrée sur la racine de Morpheus. Code : https://github.com/lonewolf-rd/TurkishMorpheus ; modèle : https://huggingface.co/lonewolflab/Morpheus-TR-50K ; démo interactive : https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.
Malgré un intérêt croissant, la plupart des évaluations des capacités de personnalisation des grands modèles de langage (LLMs) reposent sur des données synthétiques. On ne sait pas encore dans quelle mesure les systèmes de personnalisation actuels fonctionnent pour les utilisateurs réels. Dans cet article, nous étudions l'écart de performance en matière de personnalisation des LLMs entre l'utilisation de données synthétiques et de données humaines. Nous collectons des conversations humaines (550 conversations) et des jugements à travers trois étapes de personnalisation : l'extraction des attributs utilisateur à partir des conversations (5 949 jugements), l'appariement des attributs pertinents avec de nouvelles requêtes (11 919), et l'intégration des attributs pertinents dans une réponse personnalisée (1 101). L'incorporation de données humaines révèle les limitations du système à chaque étape. Les modèles peinent à extraire les attributs des conversations humaines, sont en désaccord avec les jugements humains sur les attributs pertinents, et génèrent des réponses personnalisées que les humains jugent comme n'étant pas meilleures que des réponses génériques (bien que les LLMs les considèrent largement comme meilleures). Nous introduisons deux interventions légères basées sur l'apprentissage qui rapprochent l'évaluation automatisée de la personnalisation des données humaines dans nos deux premières étapes. Cependant, dans notre troisième étape, nous constatons que les modèles de récompense appris n'atteignent qu'une corrélation modeste avec les évaluations humaines, ce qui suggère que les jugements de qualité de personnalisation alignés sur l'humain sont difficiles à modéliser directement. Les données collectées fournissent une base pour étudier comment les modèles devraient extraire, sélectionner et incorporer les informations utilisateur de manière utile pour les humains.
La complétion prédictive de code accélère considérablement la vitesse de travail des développeurs. Dans les tableurs, bien qu'étant beaucoup plus courants, ces fonctionnalités d'auto-complétion sont pratiquement inexistantes. Pour combler cette lacune, nous introduisons un benchmark pour les systèmes qui observent une séquence d'actions utilisateur dans un tableur et prédisent les actions futures. Deux défis sont (1) l'absence d'historiques d'édition dans les corpus publics de tableurs et (2) l'espace complexe des actions de tableur (spatiales, temporelles, composites). Pour relever (1), nous organisons manuellement 52 séquences de 12 000 actions qui reconstituent des tableurs à partir de corpus publics, amorcées par des heuristiques paramétrées et un affinage par LLM. Pour relever (2), nous proposons une évaluation en ligne qui attend une prédiction après chaque action utilisateur, accepte ou rejette cette prédiction, met à jour les actions futures en cas d'acceptation, et répète ce processus jusqu'à l'obtention du tableur cible. Nous utilisons plusieurs prédicteurs de base (incluant des LLMs zero-shot, des SLMs affinés et des modèles classiques) et analysons différentes propriétés que notre benchmark nous enseigne, notamment : les propriétés des actions sauvegardées et des faux positifs, l'efficacité, l'effet des profils utilisateur, l'effet des déclencheurs et l'effet du contexte.
Les systèmes robotiques perçoivent le monde à travers de multiples modalités d'entrée — notamment des flux de caméra visuelle et des instructions en langage naturel — et doivent sélectionner des actions appropriées en fonction de ces signaux. Cependant, supposer la disponibilité permanente de tous les dispositifs d'entrée est irréaliste, car les capteurs peuvent tomber en panne, être occultés, ou disparaître complètement lors du déploiement. Une gestion robuste de ces scénarios de modalité manquante est donc essentielle pour le fonctionnement des robots dans le monde réel. Cet article présente RL4IL, une méthode d'apprentissage par imitation guidée par l'apprentissage par renforcement, qui sélectionne l'action la plus appropriée pour une observation donnée en identifiant les démonstrations d'experts les plus pertinentes dans une bibliothèque d'apprentissage. Une politique d'apprentissage par renforcement, entraînée via l'Optimisation de Politique Proximale sur des ensembles de candidats issus de la recherche en largeur, classe les démonstrations candidates, et une tête de fusion par attention croisée douce agrège leurs signaux d'action pour produire la prédiction finale. Lorsqu'une modalité est manquante au moment de l'inférence, une politique de récupération RL dédiée par modalité identifie les démonstrations donatrices dans la bibliothèque d'apprentissage, et une tête d'imputation douce reconstruit le plongement manquant via une attention croisée sur les donatrices les mieux classées — sans nécessiter de réentraînement du système. Des expériences sur trois suites de référence LIBERO montrent que RL4IL surpasse considérablement les méthodes d'apprentissage par imitation de pointe dans des conditions de perte de capteurs, tout en ne nécessitant aucun entraînement du réseau de politique. Le code est disponible à l'adresse https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera
La fonction d'analyse des données réseau (NWDAF) est essentielle pour permettre une gestion réseau zéro-touch dans les réseaux de cinquième génération (5G) en prenant en charge l'analyse en temps réel et l'automatisation en boucle fermée. Malgré son rôle critique, les implémentations open-source de la NWDAF restent limitées en termes de portée et d'accessibilité. Dans cet article, nous développons une NWDAF open-source, compatible avec le cœur de réseau open-source Free5GC, qui collecte des données réseau via des souscriptions aux Fonctions Réseau (NF), et inclut également une interface intégrée pour Grand Modèle de Langage (LLM) permettant une interaction en langage naturel avec les opérateurs humains. L'interface traite les intentions des utilisateurs, les encode à l'aide d'un modèle d'embedding sémantique, et les associe à l'une des sept catégories d'intention prédéfinies pour déclencher des requêtes d'analyse ou des commandes d'abonnement aux événements. Cette architecture abstrait la complexité des interfaces traditionnelles, permettant aux utilisateurs non experts de gérer facilement les analyses réseau et les abonnements. Le système prend en charge les abonnements aux événements de la Fonction d'Accès et de Gestion (AMF) et de la Fonction de Gestion de Session (SMF), la surveillance en temps réel et la récupération d'analyses via Prometheus, le tout accessible par une interface conversationnelle. En faisant le pont entre la reconnaissance d'intention pilotée par l'IA et les analyses réseau normalisées, notre implémentation améliore l'utilisabilité pour l'opérateur et fournit une base pour les réseaux 6G natifs de l'IA. Les codes sources et les ensembles de données générés au cours de la présente étude sont disponibles dans le dépôt GitHub, https://github.com/HenokDanielbfg/testbed.