papers.description
Le développement d'agents natifs d'utilisation informatique (ANU) représente un bond en avant significatif dans l'IA multimodale. Cependant, leur potentiel est actuellement limité par les contraintes de l'expansion des données statiques. Les paradigmes existants, qui reposent principalement sur l'imitation passive de jeux de données statiques, peinent à saisir les dynamiques causales complexes inhérentes aux tâches informatiques de long terme. Dans ce travail, nous présentons EvoCUA, un modèle agentif natif d'utilisation informatique. Contrairement à l'imitation statique, EvoCUA intègre la génération de données et l'optimisation des politiques dans un cycle évolutif autonome. Pour pallier la pénurie de données, nous développons un moteur de synthèse vérifiable qui génère de manière autonome des tâches diversifiées couplées à des validateurs exécutables. Pour permettre l'acquisition d'expérience à grande échelle, nous concevons une infrastructure évolutive orchestrant des dizaines de milliers de déploiements asynchrones en bac à sable. En nous appuyant sur ces trajectoires massives, nous proposons une stratégie d'apprentissage évolutive itérative pour internaliser efficacement cette expérience. Ce mécanisme régule dynamiquement les mises à jour des politiques en identifiant les limites des capacités – en renforçant les routines réussies tout en transformant les trajectoires d'échec en une supervision riche grâce à l'analyse des erreurs et à l'auto-correction. Les évaluations empiriques sur le benchmark OSWorld démontrent qu'EvoCUA atteint un taux de réussite de 56,7 %, établissant un nouvel état de l'art open-source. Notamment, EvoCUA surpasse significativement le précédent meilleur modèle open-source, OpenCUA-72B (45,0 %), et dépasse les modèles à poids fermés leaders tels que UI-TARS-2 (53,1 %). Surtout, nos résultats soulignent la généralisabilité de cette approche : le paradigme évolutif, piloté par l'apprentissage à partir de l'expérience, génère des gains de performance constants sur des modèles de fondation de différentes tailles, établissant une voie robuste et évolutive pour faire progresser les capacités des agents natifs.
Les modèles de langage à diffusion (dLLM) brisent la contrainte rigide de gauche à droite des LLM traditionnels, permettant la génération de tokens dans des ordres arbitraires. Intuitivement, cette flexibilité implique un espace de solution qui surpasse strictement la trajectoire autogressive fixe, débloquant théoriquement un potentiel de raisonnement supérieur pour des tâches générales comme les mathématiques et la programmation. Par conséquent, de nombreux travaux ont exploité l'apprentissage par renforcement (RL) pour susciter la capacité de raisonnement des dLLM. Dans cet article, nous révélons une réalité contre-intuitive : la génération en ordre arbitraire, dans sa forme actuelle, rétrécit plutôt qu'elle n'élargit la frontière de raisonnement des dLLM. Nous constatons que les dLLM ont tendance à exploiter cette flexibilité d'ordre pour contourner les tokens à forte incertitude qui sont cruciaux pour l'exploration, conduisant à un effondrement prématuré de l'espace de solution. Cette observation remet en cause le postulat des approches RL existantes pour les dLLM, où des complexités considérables, comme la gestion des trajectoires combinatoires et des vraisemblances intraçables, sont souvent consacrées à préserver cette flexibilité. Nous démontrons qu'un raisonnement efficace est mieux suscité en renonçant intentionnellement à l'ordre arbitraire et en appliquant à la place l'Optimisation de Politique Relative par Groupe (GRPO) standard. Notre approche, JustGRPO, est minimaliste mais étonnamment efficace (par exemple, 89,1 % de précision sur GSM8K) tout en conservant pleinement la capacité de décodage parallèle des dLLM. Page du projet : https://nzl-thu.github.io/the-flexibility-trap
Les récents progrès des modèles de langage multimodaux (MLLM) ont démontré des améliorations significatives dans la compréhension vidéo hors ligne. Cependant, l'extension de ces capacités aux flux vidéo en temps réel reste un défi, car les modèles existants peinent à maintenir simultanément des performances de compréhension stables, des réponses en temps réel et une faible consommation de mémoire GPU. Pour relever ce défi, nous proposons HERMES, une nouvelle architecture sans apprentissage pour la compréhension précise et en temps réel des flux vidéo. Sur la base d'une analyse mécanistique de l'attention, nous conceptualisons le cache clé-valeur (KV) comme un framework de mémoire hiérarchique qui encapsule l'information vidéo à plusieurs granularités. Lors de l'inférence, HERMES réutilise un cache KV compact, permettant une compréhension efficace des flux sous contraintes de ressources. Fait notable, HERMES ne nécessite aucun calcul supplémentaire lors de la réception des requêtes utilisateur, garantissant ainsi des réponses en temps réel pour les interactions continues avec les flux vidéo, ce qui permet d'atteindre un TTFT jusqu'à 10 fois plus rapide que les méthodes SOTA précédentes. Même en réduisant jusqu'à 68 % les tokens vidéo par rapport à un échantillonnage uniforme, HERMES obtient une précision supérieure ou comparable sur tous les benchmarks, avec des gains allant jusqu'à 11,4 % sur les ensembles de données de streaming.
Les modèles Vision-Langage-Action (VLA) ont montré des résultats prometteurs en manipulation robotique, mais peinent souvent à généraliser à de nouvelles instructions ou à des scénarios multi-tâches complexes. Nous identifions une pathologie critique dans les paradigmes d'entraînement actuels où la collecte de données axée sur les objectifs crée un biais de dataset. Dans de tels jeux de données, les instructions langagières sont hautement prévisibles à partir des seules observations visuelles, ce qui entraîne la disparition de l'information mutuelle conditionnelle entre les instructions et les actions, un phénomène que nous nommons Effondrement Informationnel. Par conséquent, les modèles dégénèrent en politiques purement visuelles qui ignorent les contraintes langagières et échouent dans des contextes hors-distribution (OOD). Pour résoudre ce problème, nous proposons BayesianVLA, un nouveau cadre qui impose le suivi des instructions via une décomposition bayésienne. En introduisant des Requêtes d'Action Latentes apprenables, nous construisons une architecture à double branche pour estimer à la fois un a priori purement visuel p(a|v) et un a posteriori conditionné par le langage π(a|v, ℓ). Nous optimisons ensuite la politique pour maximiser l'Information Mutuelle Ponctuelle Conditionnelle (PMI) entre les actions et les instructions. Cet objectif pénalise efficacement le raccourci visuel et récompense les actions qui expliquent explicitement la commande langagière. Sans nécessiter de nouvelles données, BayesianVLA améliore significativement la généralisation. Des expériences approfondies sur SimplerEnv et RoboCasa démontrent des gains substantiels, notamment une amélioration de 11,3 % sur le benchmark OOD difficile de SimplerEnv, validant la capacité de notre approche à ancrer robustement le langage dans l'action.
Nous présentons LLM-in-Sandbox, une approche permettant aux LLMs d'explorer un bac à sable de code (c'est-à-dire un ordinateur virtuel) pour susciter une intelligence générale dans des domaines non liés au code. Nous démontrons d'abord que des LLMs performants, sans entraînement supplémentaire, possèdent des capacités de généralisation leur permettant d'utiliser le bac à sable de code pour des tâches non codées. Par exemple, les LLMs accèdent spontanément à des ressources externes pour acquérir de nouvelles connaissances, exploitent le système de fichiers pour gérer des contextes longs et exécutent des scripts pour satisfaire des exigences de formatage. Nous montrons en outre que ces capacités agentielles peuvent être renforcées via l'apprentissage par renforcement LLM-in-Sandbox (LLM-in-Sandbox-RL), qui utilise uniquement des données non agentielles pour entraîner les modèles à l'exploration du bac à sable. Les expériences démontrent que LLM-in-Sandbox, dans des configurations sans entraînement et post-entraînement, atteint une généralisation robuste couvrant les mathématiques, la physique, la chimie, la biomédecine, la compréhension de contextes longs et le suivi d'instructions. Enfin, nous analysons l'efficacité de LLM-in-Sandbox sous les angles computationnel et système, et l'ouvrons en tant que package Python pour faciliter son déploiement en conditions réelles.
Les autoencodeurs de représentation (RAE) ont démontré des avantages distincts dans la modélisation de diffusion sur ImageNet en s'entraînant dans des espaces latents sémantiques de haute dimension. Dans ce travail, nous étudions si ce cadre peut être étendu à la génération texte-image (T2I) libre à grande échelle. Nous commençons par mettre à l'échelle les décodeurs RAE sur l'encodeur de représentation figé (SigLIP-2) au-delà d'ImageNet en les entraînant sur des données web, synthétiques et de rendu de texte, constatant que si l'échelle améliore la fidélité générale, une composition ciblée des données est essentielle pour des domaines spécifiques comme le texte. Nous soumettons ensuite rigoureusement à des tests de stress les choix de conception RAE initialement proposés pour ImageNet. Notre analyse révèle que la mise à l'échelle simplifie le cadre : bien que la planification du bruit dépendante de la dimension reste critique, les complexités architecturales telles que les têtes de diffusion larges et le décodage avec ajout de bruit offrent des bénéfices négligeables à grande échelle. En nous appuyant sur ce cadre simplifié, nous menons une comparaison contrôlée des RAE par rapport au VAE FLUX state-of-the-art à travers des échelles de transformeurs de diffusion de 0,5 à 9,8 milliards de paramètres. Les RAE surpassent constamment les VAE pendant le pré-entraînement à toutes les échelles de modèle. De plus, lors du réglage fin sur des ensembles de données de haute qualité, les modèles basés sur les VAE surajustent de façon catastrophique après 64 époques, tandis que les modèles RAE restent stables jusqu'à 256 époques et atteignent des performances constamment meilleures. Dans toutes les expériences, les modèles de diffusion basés sur les RAE démontrent une convergence plus rapide et une meilleure qualité de génération, établissant les RAE comme une fondation plus simple et plus solide que les VAE pour la génération T2I à grande échelle. De plus, puisque la compréhension visuelle et la génération peuvent opérer dans un espace de représentation partagé, le modèle multimodal peut raisonner directement sur les latents générés, ouvrant de nouvelles possibilités pour des modèles unifiés.
Les modèles de langage basés sur la diffusion (DLLM) offrent une génération non séquentielle par blocs et une réutilisation des données plus riche que les modèles autorégressifs (AR), mais les DLLM existants pour le code restent inférieurs aux modèles AR de référence sous des budgets comparables. Nous revisitons ce cadre dans une étude contrôlée et présentons Stable-DiffCoder, un modèle de code à diffusion par blocs qui réutilise l'architecture, les données et le pipeline d'entraînement de Seed-Coder. Pour permettre un apprentissage efficace des connaissances et un entraînement stable, nous intégrons une phase de pré-entraînement continu (CPT) par diffusion de blocs, améliorée par une période de chauffage adaptée et un plan de bruit écrétré par blocs. Avec les mêmes données et architecture, Stable-DiffCoder surpasse globalement son homologue AR sur un large éventail de benchmarks de code. De plus, en s'appuyant uniquement sur les phases de CPT et de réglage fin supervisé, Stable-DiffCoder obtient de meilleures performances qu'une large gamme de modèles AR et DLLM d'environ 8B, démontrant que l'entraînement par diffusion peut améliorer la qualité de modélisation du code au-delà de l'entraînement AR seul. Par ailleurs, la modélisation à ordre arbitraire basée sur la diffusion améliore la modélisation du code structuré pour l'édition et le raisonnement, et, grâce à l'augmentation des données, bénéficie aux langages de programmation peu dotés.
Les capacités pixel à pixel sont essentielles pour développer des systèmes intelligents interactifs. Cependant, les modèles de langage multimodaux (MLLM) opérant au niveau pixel restent difficiles à mettre à l'échelle en raison d'encodeurs régionaux complexes, de décodeurs de segmentation spécialisés et d'objectifs d'entraînement incompatibles. Pour relever ces défis, nous présentons SAMTok, un tokeniseur de masques discret qui convertit tout masque régional en deux tokens spéciaux et reconstruit le masque avec une haute fidélité à l'aide de ces tokens. En traitant les masques comme de nouveaux tokens linguistiques, SAMTok permet aux MLLM de base (tels que la série QwenVL) d'acquérir des capacités pixel à pixel via la prédiction standard du token suivant et un apprentissage par renforcement simple, sans modifications architecturales ni conception de perte spécialisée. SAMTok s'appuie sur SAM2 et est entraîné sur 209 millions de masques diversifiés à l'aide d'un encodeur de masques et d'un quantificateur vectoriel résiduel pour produire des tokens discrets, compacts et riches en informations. Avec 5 millions d'échantillons de données de compréhension et de génération de masques formatés SAMTok, QwenVL-SAMTok obtient des résultats à l'état de l'art ou comparables sur des tâches de légendage régional, de question-réponse visuel régional, de conversation ancrée, de segmentation référentielle, d'analyse de graphe de scène et de segmentation interactive multi-tours. Nous introduisons en outre une récompense d'appariement de réponse textuelle qui permet un apprentissage par renforcement efficace pour la génération de masques, apportant des améliorations substantielles sur les benchmarks GRES et GCG. Nos résultats démontrent un paradigme évolutif et simple pour doter les MLLM de solides capacités pixel à pixel. Notre code et nos modèles sont disponibles.
Comment pouvons-nous utiliser l'IA pour découvrir un nouvel état de l'art pour un problème scientifique ? Les travaux antérieurs sur l'adaptation au moment du test, comme AlphaEvolve, effectuent une recherche en sollicitant un grand modèle de langage (LLM) figé. Nous réalisons un apprentissage par renforcement au moment du test, permettant au LLM de continuer à s'entraîner, mais cette fois avec une expérience spécifique au problème testé. Cette forme d'apprentissage continu est particulière, car son objectif est de produire une excellente solution plutôt que plusieurs bonnes solutions en moyenne, et de résoudre ce problème précis plutôt que de généraliser à d'autres problèmes. Par conséquent, notre objectif d'apprentissage et notre sous-programme de recherche sont conçus pour prioriser les solutions les plus prometteuses. Nous appelons cette méthode « Entraînement au moment du test pour la découverte » (TTT-Discover). Conformément aux travaux antérieurs, nous nous concentrons sur les problèmes avec des récompenses continues. Nous rapportons les résultats pour chaque problème abordé, couvrant les mathématiques, l'ingénierie de noyaux GPU, la conception d'algorithmes et la biologie. TTT-Discover établit le nouvel état de l'art dans presque tous ces domaines : (i) le problème de recouvrement minimum d'Erdős et une inégalité d'autocorrélation ; (ii) une compétition de noyaux GPUMode (jusqu'à 2 fois plus rapide que l'état de l'art précédent) ; (iii) d'anciennes compétitions d'algorithmes AtCoder ; et (iv) un problème de débruitage dans l'analyse unicellulaire. Nos solutions sont examinées par des experts ou les organisateurs. Tous nos résultats sont obtenus avec un modèle ouvert, OpenAI gpt-oss-120b, et peuvent être reproduits avec notre code public, contrairement aux meilleurs résultats précédents qui nécessitaient des modèles fermés de pointe. Nos entraînements au moment du test sont effectués en utilisant Tinker, une API de Thinking Machines, pour un coût de seulement quelques centaines de dollars par problème.
Dans ce rapport, nous présentons la série Qwen3-TTS, une famille de modèles de synthèse vocale avancés, multilingues, contrôlables, robustes et fonctionnant en flux continu. Qwen3-TTS prend en charge un clonage vocal de pointe en 3 secondes ainsi qu'un contrôle par description, permettant à la fois la création de voix entièrement nouvelles et une manipulation fine de la parole générée. Entraîné sur plus de 5 millions d'heures de données vocales couvrant 10 langues, Qwen3-TTS adopte une architecture de modèle de langage à double piste pour une synthèse en temps réel, couplée à deux tokenizers vocaux : 1) Qwen-TTS-Tokenizer-25Hz est un codec à livre de codes unique privilégiant le contenu sémantique, qui permet une intégration transparente avec Qwen-Audio et une reconstruction de forme d'onde en flux continu via un DiT par blocs. 2) Qwen-TTS-Tokenizer-12Hz réalise une réduction extrême du débit binaire et un streaming à très faible latence, permettant une émission immédiate du premier paquet (97 ms) grâce à sa conception multi-livres de codes à 12,5 Hz et 16 couches, et un ConvNet causal léger. Des expériences approfondies indiquent des performances à l'état de l'art sur divers benchmarks objectifs et subjectifs (par exemple, l'ensemble de test multilingue TTS, InstructTTSEval et notre ensemble de test de parole longue). Pour favoriser la recherche et le développement communautaires, nous publions les tokenizers et les modèles sous licence Apache 2.0.
Les agents d'IA pourraient bientôt devenir capables d'accomplir de manière autonome des tâches complexes et à long terme dans divers domaines. Les référentiels actuels ne mesurent pas les tâches du monde réel ou ne présentent pas une difficulté suffisante pour évaluer significativement les modèles de pointe. Pour pallier cela, nous présentons Terminal-Bench 2.0 : un référentiel difficile soigneusement conçu, composé de 89 tâches en environnements de terminal informatique, inspirées de problèmes issus de flux de travail réels. Chaque tâche dispose d'un environnement unique, d'une solution rédigée par des humains et de tests complets pour la vérification. Nous démontrons que les modèles et agents de pointe obtiennent moins de 65 % sur ce référentiel et menons une analyse des erreurs pour identifier les axes d'amélioration des modèles et agents. Nous publions le jeu de données et l'infrastructure d'évaluation pour aider les développeurs et chercheurs dans leurs travaux futurs sur https://www.tbench.ai/.
Ce document présente une famille d'encodeurs visuels avancés, nommée OpenVision 3, qui apprend une représentation visuelle unique et unifiée capable de servir à la fois à la compréhension et à la génération d'images. Notre architecture principale est simple : nous fournissons des latents d'images compressées par VAE à un encodeur ViT et entraînons sa sortie pour supporter deux rôles complémentaires. Premièrement, la sortie de l'encodeur est transmise au décodeur ViT-VAE pour reconstruire l'image originale, encourageant la représentation à capturer une structure générative. Deuxièmement, la même représentation est optimisée avec des objectifs d'apprentissage contrastif et de légendage d'images, renforçant les caractéristiques sémantiques. En optimisant conjointement les signaux pilotés par la reconstruction et la sémantique dans un espace latent partagé, l'encodeur apprend des représentations qui se synergie et généralisent bien dans les deux régimes. Nous validons cette conception unifiée par des évaluations en aval approfondies avec l'encodeur figé. Pour la compréhension multimodale, nous intégrons l'encodeur dans le cadre LLaVA-1.5 : il performe de manière comparable à un encodeur visuel CLIP standard (par exemple, 62,4 contre 62,2 sur SeedBench, et 83,7 contre 82,9 sur POPE). Pour la génération, nous le testons dans le cadre RAE : le nôtre surpasse substantiellement l'encodeur standard basé sur CLIP (par exemple, gFID : 1,89 contre 2,54 sur ImageNet). Nous espérons que ce travail pourra stimuler les futures recherches sur la modélisation unifiée.
La recherche d'images composées (CIR) est une tâche cruciale et complexe dans la compréhension multimodale. Les benchmarks CIR actuels présentent généralement des catégories de requêtes limitées et ne parviennent pas à capturer les exigences diverses des scénarios réels. Pour combler cette lacune en matière d'évaluation, nous exploitons l'édition d'images pour obtenir un contrôle précis des types de modifications et du contenu, permettant la création d'un pipeline pour synthétiser des requêtes couvrant un large spectre de catégories. En utilisant ce pipeline, nous construisons EDIR, un nouveau benchmark CIR à granularité fine. EDIR comprend 5 000 requêtes de haute qualité structurées en cinq catégories principales et quinze sous-catégories. Notre évaluation complète de 13 modèles d'incorporation multimodale révèle un écart de capacité significatif ; même les modèles les plus avancés (par exemple, RzenEmbed et GME) peinent à performer de manière cohérente dans toutes les sous-catégories, soulignant la rigueur de notre benchmark. Par une analyse comparative, nous mettons en lumière les limitations inhérentes aux benchmarks existants, telles que les biais de modalité et une couverture catégorielle insuffisante. De plus, une expérience d'entraînement en domaine démontre la faisabilité de notre benchmark. Cette expérience clarifie les défis de la tâche en distinguant les catégories qui peuvent être résolues avec des données ciblées de celles qui révèlent les limitations intrinsèques des architectures de modèles actuelles.
Les performances des systèmes d'IA modernes sont fondamentalement limitées par la qualité de leurs noyaux sous-jacents, qui traduisent la sémantique algorithmique de haut niveau en opérations matérielles de bas niveau. Atteindre des noyaux quasi optimaux nécessite une compréhension experte des architectures matérielles et des modèles de programmation, ce qui fait de l'ingénierie des noyaux un processus critique mais notoirement long et difficile à industrialiser. Les récents progrès des grands modèles de langage (LLM) et des agents basés sur les LLM ont ouvert de nouvelles possibilités pour automatiser la génération et l'optimisation des noyaux. Les LLM sont bien adaptés pour compresser les connaissances expertes sur les noyaux, difficiles à formaliser, tandis que les systèmes agentiques permettent une optimisation scalable en transformant le développement des noyaux en une boucle itérative pilotée par les retours. Des progrès rapides ont été réalisés dans ce domaine. Cependant, le champ de recherche reste fragmenté, manquant d'une perspective systématique pour la génération de noyaux pilotée par les LLM. Cette étude comble cette lacune en fournissant une vue d'ensemble structurée des approches existantes, couvrant les approches basées sur les LLM et les workflows d'optimisation agentique, et en recensant systématiquement les jeux de données et les benchmarks qui sous-tendent l'apprentissage et l'évaluation dans ce domaine. De plus, les principaux défis ouverts et les futures directions de recherche sont esquissés, visant à établir une référence complète pour la prochaine génération d'optimisation automatique des noyaux. Pour suivre l'évolution de ce domaine, nous maintenons un dépôt GitHub open source à l'adresse https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation.
L'estimation de la progression d'une tâche nécessite un raisonnement sur des dynamiques à long terme plutôt que la reconnaissance de contenu visuel statique. Si les modèles vision-langage (VLM) modernes excellent à décrire ce qui est visible, leur capacité à déduire le degré d'avancement d'une tâche à partir d'observations partielles reste incertaine. Pour cela, nous présentons Progress-Bench, un benchmark pour évaluer systématiquement le raisonnement de progression dans les VLM. Au-delà de l'évaluation comparative, nous explorons également un paradigme de raisonnement de progression en deux étapes inspiré de l'humain, via à la fois l'utilisation d'invites sans entraînement et une approche avec entraînement basée sur l'ensemble de données ProgressLM-45K. Les expériences sur 14 VLM montrent que la plupart des modèles ne sont pas encore prêts pour l'estimation de la progression des tâches, présentant une sensibilité à la modalité de démonstration et aux changements de point de vue, ainsi qu'une mauvaise gestion des cas sans réponse. Alors que l'utilisation d'invites sans entraînement imposant un raisonnement structuré de la progression donne des gains limités et dépendants du modèle, ProgressLM-3B avec entraînement obtient des améliorations constantes même à petite échelle, malgré un entraînement sur un ensemble de tâches totalement disjoint de celles d'évaluation. Des analyses plus poussées révèlent des schémas d'erreur caractéristiques et précisent quand et pourquoi le raisonnement de progression réussit ou échoue.
La généralisation des modèles de matting vidéo aux vidéos du monde réel reste un défi majeur en raison de la rareté des données annotées. Pour y remédier, nous présentons le modèle Video Mask-to-Matte (VideoMaMa) qui convertit des masques de segmentation grossiers en mattes alpha précis au niveau du pixel, en exploitant des modèles de diffusion vidéo pré-entraînés. VideoMaMa démontre une forte capacité de généralisation zero-shot sur des séquences réelles, bien qu'il soit uniquement entraîné sur des données synthétiques. En nous appuyant sur cette capacité, nous développons un pipeline d'étiquetage pseudo-supervisé évolutif pour le matting vidéo à grande échelle et constituons le jeu de données Matting Anything in Video (MA-V), qui fournit des annotations de matting de haute qualité pour plus de 50 000 vidéos réelles couvrant des scènes et des mouvements variés. Pour valider l'efficacité de ce jeu de données, nous affinons le modèle SAM2 sur MA-V pour obtenir SAM2-Matte, qui surpasse le même modèle entraîné sur des jeux de données de matting existants en termes de robustesse sur des vidéos in-the-wild. Ces résultats soulignent l'importance du matting vidéo pseudo-étiqueté à grande échelle et montrent comment les préalables génératifs et les indices de segmentation accessibles peuvent stimuler les progrès évolutifs dans la recherche sur le matting vidéo.
Les modèles récents de génération vidéo démontrent une capacité remarquable à capturer les interactions physiques complexes et l'évolution temporelle des scènes. Pour exploiter leurs préconnaissances spatiotemporelles, les travaux en robotique ont adapté les modèles vidéo pour l'apprentissage de politiques, mais introduisent une complexité en nécessitant plusieurs étapes de post-formation et de nouveaux composants architecturaux pour la génération d'actions. Dans ce travail, nous présentons Cosmos Policy, une approche simple pour adapter un grand modèle vidéo préentraîné (Cosmos-Predict2) en une politique robotique efficace grâce à une seule étape de post-formation sur les données de démonstration robotique collectées sur la plateforme cible, sans modifications architecturales. Cosmos Policy apprend à générer directement des actions robotiques encodées comme des images latentes dans le processus de diffusion latente du modèle vidéo, exploitant les préconnaissances préentraînées du modèle et son algorithme d'apprentissage central pour capturer des distributions d'actions complexes. De plus, Cosmos Policy génère des images d'états futurs et des valeurs (récompenses cumulatives attendues), qui sont similairement encodées comme des images latentes, permettant une planification au moment du test des trajectoires d'actions avec une probabilité de succès plus élevée. Dans nos évaluations, Cosmos Policy atteint des performances de pointe sur les benchmarks de simulation LIBERO et RoboCasa (taux de réussite moyens de 98,5 % et 67,1 %, respectivement) et le score moyen le plus élevé dans des tâches de manipulation bimanuelle réelles difficiles, surpassant les politiques de diffusion fortes entraînées à partir de zéro, les politiques basées sur des modèles vidéo, et les modèles vision-langue-action de pointe affinés sur les mêmes démonstrations robotiques. Par ailleurs, étant donné les données d'exécution de la politique, Cosmos Policy peut apprendre de l'expérience pour affiner son modèle du monde et sa fonction de valeur et tirer parti de la planification basée modèle pour atteindre des taux de réussite encore plus élevés dans des tâches difficiles. Nous publions le code, les modèles et les données d'entraînement sur https://research.nvidia.com/labs/dir/cosmos-policy/
La conversion d'images et de vidéos en perspective vers des panoramas 360° permet la génération immersive de mondes 3D. Les approches existantes reposent souvent sur un alignement géométrique explicite entre l'espace de projection perspective et l'espace de projection équirectangulaire (ERP). Cependant, cette méthode nécessite des métadonnées caméra connues, limitant son application aux données en conditions réelles où cette calibration est généralement absente ou bruitée. Nous proposons 360Anything, un framework exempt de géométrie basé sur des transformers de diffusion pré-entraînés. En traitant simplement l'entrée perspective et la cible panoramique comme des séquences de tokens, 360Anything apprend le mapping perspective-à-équirectangulaire de manière purement data-driven, éliminant le besoin d'informations caméra. Notre approche atteint des performances state-of-the-art pour la génération d'images et de vidéos perspective-à-360°, surpassant les travaux antérieurs utilisant l'information caméra ground-truth. Nous identifions également la cause fondamentale des artefacts de jointure aux limites ERP comme étant le zero-padding dans l'encodeur VAE, et introduisons l'Encodage Latent Circulaire pour faciliter une génération sans couture. Enfin, nous montrons des résultats compétitifs sur des benchmarks d'estimation zero-shot du champ de vision et de l'orientation caméra, démontrant la compréhension géométrique profonde de 360Anything et son utilité élargie pour les tâches de vision par ordinateur. Des résultats supplémentaires sont disponibles sur https://360anything.github.io/.
La génération d'objets 3D animés est au cœur de nombreuses applications, pourtant la plupart des travaux avancés sont généralement difficiles à appliquer en pratique en raison de leur configuration limitée, de leur temps d'exécution long ou de leur qualité restreinte. Nous présentons ActionMesh, un modèle génératif qui prédit de manière directe ("feed-forward") des maillages 3D prêts pour la production et "en action". En nous inspirant des premiers modèles vidéo, notre idée clé est de modifier les modèles de diffusion 3D existants pour inclure un axe temporel, aboutissant à un cadre que nous avons nommé "diffusion 3D temporelle". Concrètement, nous adaptons d'abord l'étape de diffusion 3D pour générer une séquence de latents synchronisés représentant des formes 3D indépendantes et variant dans le temps. Ensuite, nous concevons un autoencodeur 3D temporel qui traduit une séquence de formes indépendantes en les déformations correspondantes d'une forme de référence prédéfinie, nous permettant ainsi de construire une animation. En combinant ces deux composants, ActionMesh génère des maillages 3D animés à partir de différentes entrées, comme une vidéo monoculaire, une description textuelle, ou même un maillage 3D accompagné d'une instruction textuelle décrivant son animation. Par ailleurs, comparée aux approches précédentes, notre méthode est rapide et produit des résultats exempts de squelette ("rig-free") et à topologie cohérente, permettant ainsi une itération rapide et des applications transparentes comme le texturage et le transfert d'animation ("retargeting"). Nous évaluons notre modèle sur des benchmarks standards de conversion vidéo-en-4D (Consistent4D, Objaverse) et rapportons des performances à l'état de l'art en termes de précision géométrique et de cohérence temporelle, démontrant que notre modèle peut fournir des maillages 3D animés avec une rapidité et une qualité sans précédent.
La généralisation des grands modèles de langage multimodaux (MLLM) à de nouveaux domaines vidéo est essentielle pour leur déploiement en conditions réelles, mais reste difficile en raison de la rareté des données annotées. Si l'apprentissage en contexte (ICL) offre une voie d'adaptation sans entraînement, les méthodes standard reposent sur de grands ensembles annotés, souvent impraticables dans des environnements spécialisés comme les contextes industriels ou chirurgicaux car ils nécessitent l'expertise d'annotateurs spécialisés. Pour combler cette lacune, nous présentons VIOLA (Video In-cOntext Learning with minimal Annotation), un cadre efficace en annotation qui associe une supervision experte minimale à des données non labellisées abondantes. Premièrement, pour maximiser l'efficacité d'un budget d'annotation strict, nous proposons un échantillonnage pondéré par l'incertitude et la densité. Contrairement aux stratégies standard de diversité ou d'incertitude qui risquent de sélectionner des valeurs aberrantes visuelles, notre méthode utilise l'estimation de densité pour identifier des échantillons à la fois diversifiés, représentatifs et informatifs. Deuxièmement, pour exploiter les données non labellisées restantes sans propager le bruit, nous construisons un pool hybride et introduisons un système de récupération et d'incitation conscient de la confiance. Ces mécanismes modélisent explicitement la fiabilité des étiquettes, en récupérant des démonstrations basées sur un score composite de similarité et de confiance, tout en permettant au MLLM de distinguer de manière adaptative les vérités terrain vérifiées des pseudo-étiquettes bruitées. Des expériences approfondies sur neuf benchmarks diversifiés utilisant quatre MLLM démontrent que notre cadre surpasse significativement diverses méthodes de référence dans des contextes pauvres en ressources, atteignant une adaptation robuste avec des coûts d'annotation minimaux.
Les grands modèles de langage (LLM) sont de plus en plus utilisés comme simulateurs humains, tant pour l'évaluation des systèmes conversationnels que pour la génération de données de fine-tuning. Cependant, l'invitation naïve à « agir comme un utilisateur » produit souvent des énoncés verbeux et irréalistes, soulignant la nécessité d'une évaluation rigoureuse des agents mandataires d'utilisateurs. Nous présentons MIRRORBENCH, un cadre d'évaluation reproductible et extensible qui évalue ces mandataires uniquement sur leur capacité à produire des énoncés utilisateurs réalistes dans diverses tâches conversationnelles, en les découplant explicitement de la réussite de la tâche en aval. MIRRORBENCH intègre un moteur d'exécution modulaire avec des interfaces typées, des registres pilotés par métadonnées, la prise en charge de multiples backends, la mise en cache et une solide observabilité. Le système prend en charge des mandataires d'utilisateurs, des jeux de données, des tâches et des métriques interchangeables, permettant aux chercheurs d'évaluer des simulateurs arbitraires dans un cadre uniforme et conscient de la variance. Nous incluons trois métriques de diversité lexicale (MATTR, K de YULE et HD-D) et trois métriques basées sur des juges LLM (GTEval, l'indiscernabilité par paires et Rubric-and-Reason). Sur quatre jeux de données ouverts, MIRRORBENCH produit des résultats tenant compte de la variance et révèle des écarts systématiques entre les mandataires d'utilisateurs et les utilisateurs humains réels. Le cadre est open source et comprend une interface en ligne de commande simple pour exécuter des expériences, gérer les configurations et la mise en cache, et générer des rapports. Le cadre est accessible à l'adresse https://github.com/SAP/mirrorbench.
Nous présentons dla-ideal-solver, un cadre haute performance pour la simulation d'Aggrégation Limitée par Diffusion (DLA) bidimensionnelle utilisant Python accéléré par Numba. En tirant parti de la compilation à la volée (JIT), nous obtenons un débit computationnel comparable aux implémentations statiques historiques tout en conservant une flexibilité de haut niveau. Nous étudions l'instabilité de croissance laplacienne pour différentes géométries d'injection et concentrations de marcheurs. Notre analyse confirme la robustesse de la dimension fractale standard D_f ≈ 1,71 pour les régimes dilués, cohérente avec la classe d'universalité de Witten-Sander. Cependant, nous observons une transition distincte vers une croissance compacte de type Eden (D_f ≈ 1,87) dans les environnements à haute densité, attribuée à la saturation de la longueur d'écran. Au-delà de la méthode standard de mise à l'échelle masse-rayon, nous utilisons les dimensions de Rényi généralisées et des métriques de lacunarité pour quantifier le caractère monofractal et l'hétérogénéité spatiale des agrégats. Ce travail établit un banc d'essai reproductible et open-source pour explorer les transitions de phase en mécanique statistique hors équilibre.
Alors que les modèles de langage de grande taille (LLM) deviennent de plus en plus courants dans les applications éducatives, il est nécessaire de développer des méthodes fondées sur des preuves pour concevoir et évaluer les prompts qui produisent des résultats personnalisés et pédagogiquement alignés. Cette étude présente une approche systématique et généralisable pour évaluer les prompts, démontrée à travers l'analyse de questions de suivi générées par un LLM dans le cadre d'une activité de dialogue structuré. Six modèles de prompts ont été conçus et testés. Ces modèles intégraient des patrons établis d'ingénierie des prompts, chaque prompt mettant l'accent sur des stratégies pédagogiques distinctes. Les modèles de prompts ont été comparés grâce à un cadre d'évaluation de type tournoi, adaptable à d'autres applications éducatives. Le tournoi a utilisé le système de classement Glicko2, avec huit juges évaluant des paires de questions selon trois dimensions : le format, le soutien au dialogue et l'adéquation pour les apprenants. Les données provenaient de 120 interactions utilisateur authentiques issues de trois déploiements éducatifs distincts. Les résultats ont montré qu'un prompt unique, lié à la lecture stratégique, surperformait les autres modèles avec des probabilités de victoire allant de 81 % à 100 % dans les comparaisons par paires. Ce prompt combinait les patrons de persona et de gestionnaire de contexte et était conçu pour soutenir des stratégies d'apprentissage métacognitives telles que l'apprentissage auto-dirigé. La méthodologie illustre comment les chercheurs en technologies éducatives peuvent évaluer et améliorer systématiquement la conception des prompts, dépassant ainsi l'ingénierie des prompts ad hoc vers un développement fondé sur des preuves pour les applications éducatives.
Si les grands modèles de langage (LLM) démontrent des capacités remarquables, leur manque de fiabilité demeure un obstacle critique à leur déploiement dans des domaines à haut risque. Cette étude retrace une évolution fonctionnelle dans la réponse à ce défi : l'évolution de l'incertitude, d'une métrique de diagnostic passive vers un signal de contrôle actif guidant le comportement du modèle en temps réel. Nous démontrons comment l'incertitude est exploitée comme un signal de contrôle actif sur trois fronts : dans le raisonnement avancé pour optimiser le calcul et déclencher l'auto-correction ; dans les agents autonomes pour régir les décisions métacognitives concernant l'utilisation d'outils et la recherche d'information ; et dans l'apprentissage par renforcement pour atténuer le détournement de récompense et permettre l'auto-amélioration via des récompenses intrinsèques. En ancrant ces avancées dans des cadres théoriques émergents comme les méthodes bayésiennes et la Prédiction Conforme, nous offrons une perspective unifiée sur cette tendance transformationnelle. Cette étude fournit une vue d'ensemble complète, une analyse critique et des modèles de conception pratiques, soutenant que la maîtrise de cette nouvelle approche de l'incertitude est essentielle pour construire la prochaine génération d'IA évolutive, fiable et digne de confiance.
Les agents IA évoluent rapidement de modèles linguistiques passifs vers des systèmes autonomes exécutant des tâches complexes à multiples étapes. Pourtant, leur surconfiance face à l'échec reste une barrière fondamentale à leur déploiement dans des contextes à haut risque. Les méthodes de calibration existantes, conçues pour des sorties statiques en un seul tour, ne peuvent résoudre les défis uniques des systèmes agentiels, tels que l'accumulation d'erreurs le long des trajectoires, l'incertitude liée aux outils externes et les modes de défaillance opaques. Pour relever ces défis, nous introduisons, pour la première fois, le problème de la Calibration de Confiance Agentielle et proposons la Calibration Holistique de Trajectoire (HTC), un cadre diagnostique novateur qui extrait de riches caractéristiques au niveau processus, allant de la dynamique macro à la stabilité micro, sur l'ensemble de la trajectoire d'un agent. Propulsé par un modèle simple et interprétable, HTC surpasse constamment des bases de référence solides à la fois en calibration et en discrimination, sur huit benchmarks, plusieurs grands modèles de langage (LLM) et divers cadres agentiels. Au-delà des performances, HTC offre trois avancées essentiables : il fournit de l'interprétabilité en révélant les signaux sous-jacents aux échecs, permet la transférabilité en s'appliquant à différents domaines sans réentraînement, et atteint la généralisation grâce à un Calibrateur Agentiel Général (GAC) qui obtient la meilleure calibration (ECE le plus bas) sur le benchmark hors domaine GAIA. Ensemble, ces contributions établissent un nouveau paradigme centré sur le processus pour la calibration de confiance, offrant un cadre pour diagnostiquer et améliorer la fiabilité des agents IA.
Bien que les agents d'IA aient démontré des capacités impressionnantes en matière de raisonnement à long terme, leur fiabilité est gravement compromise par la « Spirale des Hallucinations », où les erreurs épistémiques précoces se propagent de manière irréversible. Les méthodes existantes sont confrontées à un dilemme : les méthodes de quantification de l'incertitude (UQ) agissent généralement comme des capteurs passifs, se contentant de diagnostiquer les risques sans les traiter, tandis que les mécanismes d'auto-réflexion souffrent de corrections continues ou sans but. Pour combler cette lacune, nous proposons un cadre unifié de Quantification de l'Incertitude Agentique à Double Processus (AUQ) qui transforme l'incertitude verbalisée en signaux de contrôle actifs et bidirectionnels. Notre architecture comprend deux mécanismes complémentaires : le Système 1 (Mémoire Sensibilisée à l'Incertitude, UAM), qui propage implicitement la confiance verbalisée et les explications sémantiques pour éviter la prise de décision aveugle ; et le Système 2 (Réflexion Sensibilisée à l'Incertitude, UAR), qui utilise ces explications comme indices rationnels pour déclencher une résolution ciblée au moment de l'inférence, uniquement lorsque cela est nécessaire. Cela permet à l'agent d'équilibrer dynamiquement l'exécution efficace et la délibération approfondie. Des expériences approfondies sur des benchmarks en boucle fermée et des tâches de recherche approfondie ouvertes démontrent que notre approche sans entrainement atteint des performances et une calibration au niveau de la trajectoire supérieures. Nous pensons que ce cadre fondé sur des principes, l'AUQ, représente une avancée significative vers des agents fiables.
Nous implémentons et évaluons sur le matériel quantique d'IBM la famille de circuits proposée par Violaris pour estimer les témoins opérationnels de communication inter-branches, définis comme des corrélations dans les enregistrements de mesures classiques produits par des circuits compilés de type « ami de Wigner ». Nous réalisons une instance à cinq qubits du protocole sous la forme d'un motif de transfert de message inter-registres au sein d'un seul circuit, plutôt que par signalisation physique, et nous évaluons son comportement sous l'effet du bruit réaliste du dispositif et des contraintes de compilation. Le circuit encode l'évolution conditionnée par branche d'un sous-système observateur dont la dynamique dépend d'un qubit de contrôle, suivie d'une opération de transfert contrôlée qui sonde les corrélations entre les contextes de mesure conditionnels. L'exécution sur le backend `ibm_fez` avec 20000 shots donne une visibilité basée sur les populations de 0,877, des témoins de cohérence de 0,840 et -0,811 le long d'axes orthogonaux, et une magnitude sensible à la phase d'environ 1,17. Bien que la métrique de visibilité soit insensible à certaines classes de déphasage, les témoins de cohérence fournissent une sensibilité complémentaire au bruit hors-diagonal. Ce travail ne teste ni ne discrimine les interprétations de la mécanique quantique. Il fournit plutôt une chaîne de contraintes opérationnelles reproductible pour évaluer la détectabilité de canaux non-idéaux par rapport au bruit calibré du dispositif.