Articles de recherche IA sélectionnés quotidiennement avec traductions
Les agents LLM évoluent de plus en plus dans de grands écosystèmes d'outils, où les tâches du monde réel nécessitent de découvrir les outils pertinents, d'inférer des sous-objectifs implicites et de s'adapter à des environnements dynamiques sur de longs horizons. Cependant, les benchmarks existants évaluent rarement la planification sous une visibilité limitée des outils par la récupération. Pour combler cette lacune, nous présentons PlanBench-XL, un benchmark interactif composé de 327 tâches de vente au détail portant sur 1 665 outils, qui teste la capacité des agents à récupérer itérativement des outils utilisables, à les invoquer pour découvrir des preuves intermédiaires nécessaires aux appels suivants en vue de l'objectif final. PlanBench-XL propose en outre un mécanisme de blocage facultatif qui simule l'imprévisibilité du monde réel via des fonctions d'outils manquantes, défaillantes ou distrayantes, obligeant ainsi les agents à détecter les chemins perturbés et à s'adapter en cours d'exécution. Les expériences menées sur dix LLM leaders montrent que la planification avec de nombreux outils reste un défi : alors que GPT-5.4 atteint une précision de 51,90 % dans des environnements sans blocage, celle-ci chute à 11,36 % sous la condition de blocage la plus sévère. Une analyse plus approfondie révèle que les agents sont particulièrement vulnérables lorsque les échecs ne fournissent pas de signaux d'erreur explicites, ou lorsque la récupération nécessite des chemins d'utilisation d'outils alternatifs plus longs. Ces résultats établissent PlanBench-XL comme un banc d'essai pour diagnostiquer les échecs de planification agentique et soulignent la nécessité d'une planification adaptative robuste dans les tâches à long horizon impliquant de grands environnements d'outils imparfaits.
Les systèmes d'agents modernes souffrent souvent d'un état d'exécution fragmenté : les transcriptions, les effets des outils, les événements mémoire, le placement dans l'espace de travail, la provenance des branches et les preuves de rejeu sont enregistrés séparément, devenant difficiles à inspecter ou à reproduire. OpenRath aborde ce problème avec un modèle de programmation inspiré de PyTorch pour les systèmes multi-agents et multi-sessions. L'analogie porte sur le rôle d'une abstraction centrale d'exécution de première classe, et non sur le calcul tensoriel. Son abstraction centrale est la Session, valeur d'exécution transmise entre agents et workflows. Une Session est ramifiable, inspectable, rejouable, consciente du backend et composable. Elle enregistre les fragments de conversation, l'emplacement dans le bac à sable, les métadonnées de lignée, l'utilisation de jetons, le travail en attente et les preuves d'outils, tout en définissant où les interactions mémoire entrent dans le registre d'exécution. Puisque cet état est porté par la même valeur utilisée lors de l'exécution du programme, les opérations de bifurcation, fusion et rejeu deviennent des opérations explicites d'exécution plutôt que des états reconstruits à partir de traces externes. OpenRath définit en outre le Bac à sable (Sandbox), l'Outil (Tool), l'Agent (Agent), la Mémoire (Memory), le Workflow (Workflow) et le Sélecteur (Selector), ce dernier transformant le flux de contrôle en décisions routées à l'exécution. Ce rapport présente le modèle de programmation, l'architecture, les jalons audités et le protocole de preuve. Ses affirmations se limitent aux propriétés contrôlées de l'exécution, tandis que les comparaisons quantitatives générales, la qualité des fournisseurs en direct, la disponibilité des backends optionnels et la qualité de la mémoire sont laissées à une évaluation ultérieure. La thèse centrale est que la Session fournit aux systèmes d'agents une valeur d'exécution de première classe pour une composition auditables.
Les flux multimodaux massifs non structurés souffrent d'une « entropie de données » élevée, entravant à la fois l'acquisition efficace de connaissances humaines et le post-entraînement de haute qualité des IA. Les paradigmes d'annotation passive existants, fortement dépendants de règles heuristiques ou de VLM généraux, sont coûteux, monotones et ne parviennent pas à exploiter la logique procédurale profonde intégrée dans les données brutes. Nous élevons le traitement des données au rang de capacité apprenable, en proposant un changement de paradigme vers un Façonnage Actif des Données par Agent, qui affine et structure activement les données pour les aligner sur diverses intentions d'utilisateurs et en aval. Pour surmonter le goulot d'étranglement de la rareté des données dans l'entraînement de ces capacités de haut niveau, nous concevons un pipeline en deux étapes ancrant la synthèse sémantique générative dans des Ancres Factuelles déterministes, produisant un ensemble de données à grande échelle couvrant cinq domaines physiques et numériques fondamentaux. Sur cette base, le modèle DataClaw_0-9B synergise le Fine-Tuning Supervisé (SFT) avec l'Optimisation Relative des Politiques par Groupe (GRPO), réalisant un alignement robuste avec les intentions complexes de raffinement et de façonnage. Pour quantifier systématiquement cette capacité, nous construisons DataClaw_0-val, le premier benchmark dédié au raffinement des données. Crucialement, nous adoptons le post-entraînement en aval comme pierre de touche ultime de validation. Les évaluations sur la génération vidéo, la VQA du monde réel et la navigation GUI confirment que DataClaw_0 fournit des données façonnées à haute densité d'information, facilitant une adaptation efficace du modèle à de nouvelles tâches sous des régimes de données d'entraînement limités. Page du projet : https://czjdsg.github.io/MakeAnyData
Les agents d'entreprise opèrent de plus en plus dans des espaces de travail : ils lisent des fichiers hétérogènes, invoquent des outils et livrent des artefacts métier. Nous présentons EnterpriseClawBench, un benchmark d'agents d'entreprise construit à partir de sessions d'agents réelles et propriétaires. À partir d'une vaste archive de sessions de travail, EnterpriseClawBench produit 852 tâches reproductibles, chacune accompagnée de fixtures récupérées, d'invites réécrites, de classes de rôles, de sous-classes de compétences, de règles strictes et de grilles sémantiques. Comme les sessions contiennent du contenu interne d'entreprise, nous ne publions pas les données du benchmark ; notre contribution réutilisable est plutôt le protocole de construction et d'évaluation. Sur EnterpriseClawBench, la meilleure configuration n'atteint que 0,663 (Codex avec GPT-5.5). Ces résultats montrent que l'évaluation des agents d'entreprise doit rapporter les combinaisons harnais-modèle, la livraison d'artefacts, la qualité visuelle, le coût, le temps d'exécution et le comportement de transfert de compétences, plutôt que de réduire la performance à un score unique. Code : https://github.com/FrontisAI/EnterpriseClawBench
L'auto-attention est au cœur des performances du Transformer et constitue souvent la partie la plus coûteuse du modèle pour des longueurs de contexte élevées, car ses interactions par paires de tokens augmentent de manière quadratique avec la longueur de la séquence. L'attention dense standard applique également le même ensemble de têtes d'attention à chaque token, indépendamment de sa difficulté ou de son contenu informationnel. Cette activation uniforme peut entraîner un gaspillage de calcul, en particulier lorsque les séquences s'allongent et que le coût de l'attention augmente rapidement. Nous proposons Grouped Query Experts (GQE), une couche de mélange d'experts placée au-dessus de l'attention par requêtes groupées (GQA). Au sein de chaque groupe GQA, un routeur sélectionne k experts de têtes de requête par token, tandis que toutes les têtes clé-valeur (KV) restent denses et inchangées. Ainsi, GQE préserve les avantages du cache KV de GQA et réduit uniquement le calcul actif des têtes de requête. Sur un budget fixe de 30 milliards de tokens à l'échelle de 250 millions de paramètres, GQE atteint la même précision en aval que la ligne de base GQA à activation complète, tout en activant la moitié des têtes de requête par token.
À mesure que les systèmes de recherche passent à l’échelle, un reclassement de haute qualité devient de plus en plus important. Cependant, la plupart des re-rankers existants, qu’ils soient basés sur un encodeur ou un décodeur, encodent conjointement la requête et le passage, couplant ainsi étroitement leur calcul et limitant l’efficacité de déploiement ainsi que la flexibilité. Nous présentons KaLM-Reranker-V1, un re-rankeur rapide mais non à interaction tardive (FBNL) qui dissocie le calcul de la requête et du passage tout en conservant une modélisation expressive de la pertinence. Construit sur une architecture encodeur-décodeur, KaLM-Reranker-V1 utilise l’encodeur pour pré-encoder les passages avec un regroupement d’embeddings Matriochka, tandis que le décodeur modélise l’instruction système, l’instruction utilisateur et l’intention de la requête ; l’attention croisée capture ensuite la pertinence entre le contexte de la requête et les représentations des passages. Cette conception rend KaLM-Reranker-V1 efficace grâce à un encodage des passages découplé, tout en n’étant pas une interaction tardive, en préservant une modélisation riche de la pertinence via l’attention croisée. Nous instancions KaLM-Reranker-V1 en trois tailles, Nano, Small et Large, avec respectivement 0,27B, 1B et 4B de paramètres activés. Des expériences approfondies sur BEIR, MIRACL et LMEB montrent que KaLM-Reranker-V1 obtient de solides performances de reclassement avec une efficacité supérieure. Sur BEIR, KaLM-Reranker-V1 atteint des performances de pointe, comparables à des modèles industriels puissants comme la série Qwen3-Reranker ; sur MIRACL, bien qu’il n’ait pas été largement entraîné sur des données multilingues, KaLM-Reranker-V1 montre d’excellentes performances de reclassement. De plus, sur LMEB, les modèles de reclassement montrent un avantage clair, le modèle Nano de 0,27B restant même compétitif avec des modèles d’embedding de 7 à 12B.
Les Modèles d'Action Mondiaux (WAMs) sont des modèles prédictifs d'action incarnés qui mettent une prévision du futur à la disposition de l'action. Les WAMs récents réutilisent de grands modèles de génération vidéo, tandis qu'une ligne parallèle s'appuie sur des backbones linguistiques ou vision-langage sans noyau de génération vidéo. Cette expansion rapide a brouillé la frontière entre les modèles du monde larges, les modèles de génération vidéo, les modèles vidéo du monde ancrés dans l'action, les politiques Vision-Langage-Action et les WAMs. Cette synthèse offre au domaine un état des lieux commun. Elle clarifie d'abord ces frontières, puis organise les travaux existants à travers deux perspectives complémentaires. La première perspective examine ce que chaque méthode est tenue de générer, couvrant les futurs rendus, les futurs latents et le raisonnement d'action sans génération vidéo. La seconde perspective décompose chaque méthode selon le substrat prédictif, le backbone, le couplage d'action et le régime de déploiement. Cette anatomie permet une discussion unifiée de l'interactivité, de la causalité, de la persistance, de la plausibilité physique et de la généralisation, suivie par les données, l'évaluation et les défis ouverts. À travers ces axes, un schéma de conception cohérent émerge : les WAMs ne sont pas simplement des générateurs vidéo avec des têtes d'action, mais des méthodes d'action prédictives dont les choix de conception échangent la richesse représentationnelle contre le calcul, la mémoire, la latence et le coût des étiquettes d'action. Le domaine évolue vers des méthodes qui génèrent moins du futur tout en préservant ce que le contrôle exige. La page d'accueil du survey est disponible à l'adresse https://world-action-models.github.io/.
Bien que les récents agents terminaux basés sur les LLM aient démontré des capacités prometteuses, la rareté de données d’entraînement exécutables de haute qualité reste un goulet d’étranglement critique. Les pipelines de synthèse existants passent généralement à l’échelle en adaptant des artefacts de surface en tâches, ce qui produit fréquemment des instructions ambiguës, des chemins d’exécution peu profonds et des tests fragiles offrant des signaux d’apprentissage faibles. Pour surmonter cette difficulté, nous introduisons CLI-Universe, un moteur de synthèse fondé sur des principes qui construit des tâches pour agents terminaux. CLI-Universe génère des tâches candidates en échantillonnant des combinaisons à travers une taxonomie de capacités multidimensionnelle (domaine, type de compétence, capacité et pilier d’ingénierie), puis ancre chaque candidate par une recherche approfondie guidée par des preuves dans des documents techniques réels. Afin d’assurer une supervision rigoureuse, les plans validés sont instanciés dans des environnements Dockerisés et soumis à un pipeline de vérification exécutable en plusieurs étapes, comprenant une construction de tests par grille d’évaluation, un filtrage conditionnel par indice et une vérification stricte de type échec-à-réussite. Sur l’ensemble du pipeline, de la génération des candidates à la vérification, environ deux tiers des candidates sont écartées, ne retenant que celles qui sont authentiques, vérifiables et non trivialement difficiles. Pour valider notre cadre, nous instancions un ensemble de données hautement distillé de 6 000 trajectoires appelé CLI-Universe-6K. De manière remarquable, l’affinage de Qwen3-32B sur CLI-Universe-6K atteint 33,4 % sur Terminal-Bench 2.0. Cela établit un nouvel état de l’art pour les modèles entraînés sur des données open source à 32B paramètres ou moins, et surpasse plusieurs modèles d’un ordre de grandeur plus grands, démontrant l’efficacité profonde en données d’une synthèse structurée et haute-fidélité.
Les modèles d'embedding existants sont intrinsèquement statiques : ils encodent des segments de texte de manière isolée, ignorant leur contexte environnant et leur ordre temporel. Cet article présente EvoEmbedding, un nouveau modèle d'embedding qui génère des représentations évolutives pour la recherche. Il est spécialement conçu pour les scénarios de long contexte, où l'information est dynamique, séquentielle et nécessite un suivi continu de l'état. Notre conception est simple : EvoEmbedding maintient une mémoire latente continuellement mise à jour à mesure qu'il traite séquentiellement les entrées, et l'utilise conjointement avec le contenu brut pour générer des embeddings évolutifs. Ainsi, pour une même requête, notre modèle adapte sa représentation pour retrouver des cibles distinctes en fonction du contexte évolutif, allant au-delà de la recherche sémantique statique. Pour doter le modèle de cette capacité, nous construisons EvoTrain-180K, un ensemble de données diversifié pour l'optimisation conjointe de la mémoire latente et de la recherche. De plus, nous introduisons une file d'attente mémoire pour prévenir l'effondrement de la représentation lors de l'encodage récurrent, ainsi que des techniques de regroupement par segments qui traitent les grandes variations de longueur et accélèrent l'entraînement par un facteur de 3,8. Des expériences approfondies montrent que notre modèle surpasse non seulement des spécialistes de plus grande échelle (par exemple, Qwen3-Embedding-8B et KaLM-Embedding-Gemma3-12B) sur une série de bancs d'essai de recherche en contexte long, mais se généralise également bien à des tâches en aval (par exemple, la personnalisation) avec des contextes 10 fois plus longs que sa fenêtre d'apprentissage. Notablement, EvoEmbedding s'intègre de manière transparente dans les flux de travail agentiques pour améliorer les performances. Par exemple, un pipeline RAG naïf équipé de notre modèle surpasse les systèmes de mémoire agentiques dédiés. Page du projet : https://clare-nie.github.io/EvoEmbedding.
Nous présentons BioMatrix, le premier modèle de fondation multimodal qui intègre de manière native les séquences, les structures et le langage naturel pour les molécules et les protéines au sein d’une architecture exclusivement basée sur un décodeur. Les modèles de fondation biologiques existants abordent séparément la multimodalité native et la couverture étendue des entités : ceux qui fusionnent plusieurs modalités sous un objectif commun restent confinés à un seul type d’entité, tandis que ceux couvrant plusieurs types d’entités omettent soit la modélisation structurale explicite, soit reposent sur des conceptions basées sur des adaptateurs dans lesquelles le modèle ne peut pas générer de manière native les modalités qu’il peut lire. BioMatrix comble cette lacune en cartographiant les séquences moléculaires (prenant en charge les notations SMILES et SELFIES), les structures moléculaires, les séquences protéiques, les structures protéiques et le langage naturel dans un espace de tokens discrets partagé via un schéma de tokenisation unifié, de sorte que toutes les modalités sont consommées et produites uniformément sous un seul objectif de prédiction du prochain token — sans encodeurs externes, adaptateurs de projection ni têtes de sortie spécifiques à une modalité. Construit sur le modèle de langage Qwen3 (1,7B et 4B), BioMatrix est pré-entraîné de manière continue sur 304,4 milliards de tokens couvrant du texte général et spécifique au domaine, des vues de séquences et de structures de molécules et de protéines, ainsi que des corpus intermodaux qui entrelacent des entités biomoléculaires avec du texte scientifique et relient des entités distinctes via des données d’interaction molécule-protéine et protéine-protéine. Après un réglage fin sur un ensemble complet d’applications en aval couvrant 80 tâches réparties en 6 catégories — incluant des tâches de compréhension et de génération pour des entités uniques et multiples, à travers et au sein des modalités — BioMatrix atteint des performances de pointe ou compétitives dans 77 des 80 tâches, démontrant qu’un seul modèle généraliste natif multimodal peut effectivement égaler ou surpasser les approches spécialisées dans un large éventail de tâches biologiques.
La complexité quadratique de l’attention constitue un goulot d’étranglement critique pour le traitement de longs contextes, suscitant un intérêt accru pour les architectures d’attention hybrides. La plupart des modèles hybrides open source adoptent une stratégie par couche. Cependant, des travaux antérieurs ont souligné la difficulté intrinsèque d’intégrer l’attention linéaire (LA) avec l’attention complète (FA), suggérant que l’espace de conception de l’hybridation de l’attention reste sous-exploré. Pour sonder cet espace, nous menons une analyse d’interprétabilité et observons que les couches présentent une similarité fonctionnelle par blocs, tandis que les têtes individuelles au sein d’une même couche affichent une spécialisation fonctionnelle distincte malgré le partage des caractéristiques d’entrée. Cette hétérogénéité au niveau des têtes suggère que la dimension des têtes constitue une granularité naturelle et fondée pour fusionner des signaux d’attention hétérogènes. Sur la base de cette observation, nous introduisons HydraHead, une nouvelle architecture qui hybride FA et LA selon l’axe des têtes. HydraHead présente deux innovations clés : (1) une stratégie de sélection guidée par l’interprétabilité qui identifie les têtes critiques pour la récupération d’information et ne conserve FA que pour celles-ci, et (2) un module de fusion normalisé par échelle qui concilie l’écart distributionnel entre les sorties des têtes FA et LA. En exploitant un pipeline de transfert en trois étapes avec réutilisation des paramètres et distillation, nous obtenons des modèles hybrides performants avec un surcoût d’entraînement minimal. Dans un cadre d’entraînement unifié, HydraHead surpasse les autres architectures hybrides dans les tâches à long contexte tout en maintenant de solides capacités de raisonnement général. Grâce à une sélection des têtes guidée par l’interprétabilité, elle atteint les performances d’un hybride par couche avec un ratio 3:1 pour un ratio LA/FA de 7:1. Plus important encore, entraînée sur seulement 15 milliards de jetons, HydraHead améliore de plus de 69 % les performances de la ligne de base pour une longueur de contexte de 512 000, se rapprochant de Qwen3.5, un modèle leader de taille comparable avec une longueur de contexte native de 256 000. Cela souligne le potentiel de passage à l’échelle significatif de l’hybridation au niveau des têtes.
Les agents d'utilisation d'ordinateur (AUO) sont de plus en plus déployés dans des environnements interactifs dynamiques, créant un besoin croissant d'apprentissage continu de compétences lors des interactions. Les approches récentes relèvent ce défi en apprenant des compétences réutilisables à partir de trajectoires réussies. Cependant, ces méthodes d'apprentissage de compétences supposent en grande partie des environnements statiques et sûrs, négligeant les risques liés aux interactions adverses (par exemple, les injections d'invites) et aux dynamiques environnementales (par exemple, les fenêtres contextuelles). Dans des contextes dynamiques, de telles hypothèses peuvent conduire à un apprentissage risqué des compétences et à une exécution fragile, compromettant la fiabilité des AUO. Cela soulève la question suivante : comment les AUO peuvent-ils apprendre et utiliser des compétences en toute sécurité dans des environnements dynamiques ? Pour résoudre ce problème, nous proposons SkillHarness, un cadre pour l'exploitation sécurisée des compétences dans des environnements dynamiques. SkillHarness dépasse les abstractions statiques de compétences en modélisant l'apprentissage et l'utilisation des compétences comme un processus d'interaction contraint par la sécurité. Plus précisément, nous introduisons la frontière de compétence qui exploite des signaux de supervision multi-sources pour identifier les compétences sûres à partir des trajectoires d'interaction, et construisons des contraintes de sécurité auto-améliorantes tout au long du cycle de vie des compétences. De plus, SkillHarness introduit la réutilisation sélective de compétences, où les tâches sont guidées pour se décomposer en fonction du contexte et accomplies par l'activation sélective de sous-ensembles de compétences. Nos expériences montrent que SkillHarness réduit significativement le taux d'insécurité des compétences apprises de 57,1 % et améliore constamment la stabilité d'exécution face aux changements environnementaux dynamiques, surpassant les références existantes.
La génération autorégressive dans les grands modèles de langage (LLMs) décode classiquement à partir de la dernière couche, en supposant que les représentations plus profondes produisent des prédictions de jetons plus fiables. Nous remettons en question cette hypothèse en révélant une dynamique récurrente d'Estimation-Affinement-Perturbation : les premières couches forment des estimations grossières, les couches intermédiaires affinent les sémantiques liées au raisonnement, et les dernières couches peuvent perturber ces prédictions affinées vers des jetons génériques ou préférés par l'alignement. Nous introduisons le Décodage Confiant, une stratégie de décodage sans entraînement qui sélectionne dynamiquement la couche quasi-finale la plus fiable via une recherche arrière conservatrice guidée par l'entropie. Nous fournissons également une formulation théorique de la sélection de couche comme un problème d'arrêt optimal, montrant que sous un bruit de projection borné et une perturbation d'alignement dominante en phase tardive, notre règle de recherche filtre la perturbation tout en limitant la perte par rapport à la couche d'affinement oracle. Des expériences sur des LLMs denses et à mélange d'experts (MoE) montrent des gains constants sur des benchmarks de raisonnement exigeants, notamment GPQA-Diamond, Omni-MATH et HLE, avec une surcharge mémoire nulle et une augmentation de latence inférieure à 2 %. Ces résultats suggèrent que contourner dynamiquement les perturbations des dernières couches peut débloquer un comportement de raisonnement plus fort chez les LLMs alignés.
L'auto-distillation améliore le raisonnement dans les grands modèles de langage en utilisant les propres déploiements du modèle comme signal d'entraînement, généralement par un alignement implicite au niveau des logits qui minimise la divergence KL vers une distribution cible privilégiée. Cependant, comme cette supervision est générée par un échantillonnage non contrôlé, elle n'offre aucun aperçu diagnostique des erreurs spécifiques du modèle ni de guidage correctif pour ses schémas d'échec individuels. Par conséquent, le modèle apprend à imiter une distribution privilégiée plutôt qu'à recevoir des corrections fines qui identifient précisément où et pourquoi son raisonnement échoue. Dans cet article, nous proposons l'Optimisation de Politique par Trajectoire Augmentée (TAPO), qui fait passer l'auto-distillation d'un alignement distributionnel implicite à une construction explicite de trajectoire. Lors de l'entraînement par apprentissage par renforcement, le modèle produit à la fois des déploiements corrects et incorrects pour la même requête, et TAPO exploite cette structure contrastive pour construire des micro-corrections réflexives : de nouvelles trajectoires d'entraînement qui conservent le raisonnement erroné du modèle jusqu'au point d'échec, puis insèrent un diagnostic en langage naturel et un raisonnement corrigé guidé par une référence correcte issue du même groupe d'échantillonnage. Puisque chaque trajectoire est ancrée dans le propre préfixe et les propres solutions de l'apprenant, le signal correctif préserve la distribution selon la politique en cours dans une plus large mesure que l'alignement positionnel imposé par les méthodes basées sur la divergence KL. Pour intégrer ces trajectoires, TAPO introduit une sélection de candidats tenant compte de la difficulté à la limite des capacités du modèle et une estimation d'avantage découplée afin d'éviter la contamination du gradient. Les expériences sur AIME 2024, AIME 2025 et HMMT 2025 montrent que TAPO obtient des améliorations cohérentes par rapport à GRPO pour un même nombre d'étapes d'entraînement. Une analyse complémentaire démontre que TAPO renforce à la fois le raisonnement de premier passage et l'efficacité de correction des erreurs.
Récemment, les modèles OCR de bout en bout, illustrés par DeepSeek OCR, ont une fois de plus remis l’OCR au premier plan. Un avis largement répandu est que l’utilisation d’un modèle de langage de grande taille (LLM) comme décodeur permet au modèle d’exploiter la distribution a priori du langage, améliorant ainsi les performances de l’OCR. Cependant, l’inconvénient est tout aussi évident : à mesure que la séquence de sortie s’allonge, le cache KV accumulé augmente la consommation mémoire et ralentit progressivement la génération. Cela contraste fortement avec les humains, qui ne présentent pas cette baisse d’efficacité lors de tâches de copie sur de longues séquences. Dans ce rapport technique, nous proposons Unlimited OCR, un modèle conçu pour imiter la mémoire de travail de décodage humain. En prenant DeepSeek OCR comme référence, nous remplaçons toutes les couches d’attention du décodeur par notre mécanisme d’attention à fenêtre glissante de référence (R-SWA), qui réduit les coûts de calcul de l’attention tout en maintenant un cache KV constant tout au long du processus de décodage. En combinant le taux de compression élevé du codeur de DeepSeek OCR avec notre conception de cache KV constant, Unlimited OCR peut transcrire des dizaines de pages de documents en un seul passage avant sous une longueur maximale standard de 32K. Plus important encore, R-SWA est un mécanisme d’attention de décodage universel – au-delà de l’OCR, il est également applicable à des tâches telles que la reconnaissance automatique de la parole (ASR), la traduction, etc. Les codes et les poids du modèle sont disponibles publiquement sur http://github.com/baidu/Unlimited-OCR.
Les agents de recherche approfondie sont des systèmes basés sur de grands modèles de langage (LLM) conçus pour un raisonnement scientifique autonome et multi-étapes, et ils offrent un immense potentiel pour accélérer la recherche dans les sciences physiques. Cependant, des évaluations complètes et approfondies de leurs capacités dans ce domaine font encore défaut. Pour combler cette lacune, nous présentons PhySciBench, un benchmark hautement pertinent pour la recherche en sciences physiques, comprenant 200 questions sélectionnées par des experts, équilibrées entre la physique et la chimie, réparties en six catégories de tâches qui reflètent les flux de travail scientifiques réels. Les évaluations des modèles et systèmes d'agents de pointe sur PhySciBench révèlent des performances limitées ; même la référence la plus solide, Gemini Deep Research, n'atteint qu'une précision de 33,5 %. L'analyse des cas d'échec identifie trois lacunes récurrentes : fragilité dans les chaînes de raisonnement étendues, transfert de connaissances limité entre les étapes, et absence d'auto-vérification ancrée dans la physique. Motivés par ces résultats, nous développons DelveAgent, un cadre multi-agents modulaire doté d'une boucle de planification adaptative, d'une mémoire à double granularité et d'un mécanisme de réflexion hiérarchique ancré dans la physique. Sur quatre benchmarks scientifiques, DelveAgent améliore la précision jusqu'à 7,5 points de pourcentage tout en réduisant les coûts d'inférence à environ un tiers de la meilleure référence. Ces résultats établissent l'importance de PhySciBench en tant que benchmark critique pour évaluer les systèmes d'IA dans les sciences physiques et démontrent que la spécialisation architecturale peut améliorer efficacement la fiabilité de la recherche scientifique autonome.
Les tâches à long horizon sont courantes dans les déploiements robotiques réels, mais la détection des défaillances pour de telles tâches reste sous-explorée. Détecter les défaillances dans les tâches robotiques à long horizon est particulièrement difficile car l'apparition des défaillances est souvent ambiguë et les annotations temporelles denses sont généralement indisponibles. Nous présentons Foresight, un cadre de détection des défaillances qui surveille les trajectoires de manipulation en utilisant des représentations latentes issues d'un modèle du monde conditionné par les actions. Foresight est entraîné en utilisant uniquement les étiquettes finales de succès ou d'échec au niveau de la tâche. En exploitant les embeddings prédictifs du modèle du monde, notre méthode fournit un cadre unifié pour la détection des défaillances à travers différentes politiques. Nous utilisons en outre la prédiction conforme fonctionnelle (FCP) pour calibrer les seuils de détection de manière adaptative. Nous évaluons Foresight avec des politiques vision-langage-action de pointe en simulation sur LIBERO-Long, ManiSkill-Long et BEHAVIOR-1K, le comparons aux méthodes de détection des défaillances de pointe, et le validons sur des robots réels avec trois tâches à long horizon sur un bras ReactorX-200 et une tâche sur un bras Franka. Nos résultats suggèrent que les embeddings de modèle du monde conditionnés par les actions fournissent une représentation scalable pour une surveillance fiable des défaillances dans la manipulation à long horizon.
Les longues traces d'agent composées de chaînes de pensée et d'appels d'outils accumulent un contenu obsolète qui ancre les générations suivantes et finit par dépasser la fenêtre de contexte. Les échafaudages existants y remédient par un compactage à intervalle fixe déclenché à un seuil de tokens. Ces déclencheurs ne tiennent pas compte de la structure de la trajectoire, risquant de supprimer des résultats partiels en cours de déduction ou de recherche. Nous proposons SelfCompact, un échafaudage qui permet au modèle lui-même de décider quand et comment compacter. Plus précisément, il associe deux éléments au moment de l'inférence : (i) un outil de compactage que le modèle invoque pour résumer le contexte accumulé, et (ii) une rubrique légère spécifiant quand déclencher (une sous-tâche est résolue, ou la trajectoire converge) et quand supprimer (en cours de déduction, ou en cas de blocage). Les deux sont nécessaires. L'outil seul est utilisé de manière inégale selon les modèles à poids ouverts, souvent invoqué à des moments inopportuns ou pas du tout ; la rubrique seule ne peut agir. Ensemble, ils suscitent un compactage adaptatif efficace sans aucun réglage fin ni supervision externe. Nous présentons des résultats empiriques sur six références (mathématiques compétitives et recherche agentique) et sept modèles. Nos résultats montrent que SelfCompact égalise ou dépasse la synthèse à intervalle fixe pour une fraction du coût en tokens, améliorant une base de référence sans synthèse de jusqu'à 18,1 points en mathématiques et de 5 à 9 points en recherche agentique, avec un coût par question réduit de 30 à 70 %. Nos résultats révèlent un fossé métacognitif : bien que les modèles non incités ne puissent pas déterminer de manière fiable quand leur propre contexte se détériore, une rubrique légère comble ce fossé, recadrant le moment du compactage comme une capacité que les échafaudages peuvent fournir sans entraînement.
Les téléphones deviennent une surface d’exécution importante pour les agents polyvalents, mais l’entraînement de modèles ouverts à une utilisation fiable du téléphone reste difficile car l’environnement pertinent lors du déploiement—les appareils réels exécutant des applications réelles—est lent, doté d’un état, générateur d’effets de bord, et difficile à réinitialiser ou à vérifier, tandis que les environnements simulés évolutifs ne se rapprochent que du comportement réel. Nous présentons PhoneBuddy, une méthode d’entraînement et une gamme de modèles ouverts pour l’utilisation agentique du téléphone, qui combine un environnement d’applications réelles avec un environnement d’applications simulées, PhoneWorld, qui reconstruit des applications simulées exécutables à partir de la structure d’utilisation réelle de l’interface graphique. PhoneBuddy commence par une étape partagée de réglage fin supervisé à partir de trajectoires collectées dans les deux environnements, puis compare le RL sur applications réelles au RL mixte sur les deux environnements. Sur une évaluation humaine de 150 tâches sur des téléphones réels couvrant des applications, mini-applications et workflows inter-applications, le taux de réussite des tâches passe de 36,67 % après le réglage fin supervisé à 40,67 % après le RL sur applications réelles et à 45,33 % après le RL mixte. Sur AndroidWorld, cette même progression passe de 60,3 % à 77,2 % puis 83,2 %. Ces résultats montrent que l’entraînement sur applications simulées ne remplace pas le RL sur applications réelles, mais constitue une source complémentaire d’interaction évolutive, réinitialisable et vérifiable automatiquement. Les gains sont les plus marqués sur les tâches d’applications et de mini-applications, tandis que les workflows inter-applications de longue haleine restent un défi ouvert important.
Les workflows de découverte scientifique reposent généralement et fortement sur les notes de laboratoire, où les chercheurs consignent leurs observations, interprètent des résultats incertains et planifient des expériences de suivi. Ces notes de laboratoire informatives préservent l'évolution du raisonnement scientifique et l'incertitude de l'auteur, plutôt que les résultats finaux et polis présentés dans les publications, offrant ainsi une opportunité précieuse pour que l'IA s'engage dans une exploration scientifique à un niveau plus complet et plus profond. Cependant, la plupart des travaux antérieurs sur les textes scientifiques se concentrent sur les articles, les protocoles ou les bases de données structurées, laissant les notes de laboratoire informelles sous-explorées en tant qu'entrées pour les agents d'IA dédiés à la science. Cette lacune est importante car les notes de laboratoire mêlent souvent des observations validées, des jugements provisoires et des prochaines étapes expérimentales possibles au sein d'un même passage. Si ces signaux sont confondus, un agent d'IA pourrait prendre des jugements scientifiques incertains pour des conclusions confirmées ou des actions exécutables. À cette fin, nous présentons Notes2Skills, un cadre en deux étapes pour transformer les cahiers de laboratoire en compétences vérifiables pour les agents d'IA scientifiques, tout en préservant la certitude de l'auteur. Sur sept conditions et trois sessions de laboratoire humide, Notes2Skills est la seule configuration qui ne confond ni les notes incertaines avec des instructions fermes, ni ne rejette les notes fermes. Nous montrons que la préservation de la certitude est l'élément manquant entre les cahiers de laboratoire et les compétences fiables des agents, ouvrant ainsi la voie à des systèmes d'IA co-scientifiques plus sûrs.
Les agents de recherche (AR) exploitent généralement des modèles de langage de grande taille (MLGT) pour soutenir des tâches complexes de recherche d'informations en explorant de manière autonome des sources web et en synthétisant les informations en réponses complètes. Pour l'évaluation des AR, les référentiels antérieurs se concentrent principalement sur des tâches spécialisées qui ont peu de chances de survenir dans des scénarios d'utilisation réels. De plus, leur dépendance à des grilles d'évaluation grossières au niveau des tâches limite souvent l'interprétabilité de l'évaluation. Pour combler cette lacune, nous introduisons DailyReport, un référentiel ouvert conçu pour évaluer les capacités des AR sur des tâches de recherche quotidiennes. Il contient 150 tâches ouvertes avec 3 546 grilles d'évaluation associées, capturant les demandes d'information largement discutées et actuelles des utilisateurs réels. Chaque tâche est décomposée en sous-tâches et évaluée à l'aide de grilles d'évaluation en cascade selon des dimensions désintriquées. Grâce à une attribution de performance en cascade et à une agrégation centrée sur l'utilisateur, nous obtenons des scores hautement interprétables pour chaque dimension, ainsi qu'un score de préférence utilisateur. Nos résultats sur 17 systèmes agentiques montrent que les systèmes actuels sont encore en deçà des attentes des utilisateurs. Pour faciliter les recherches futures, notre ensemble de données et notre code sont mis à disposition publiquement à l'adresse https://github.com/AGI-Eval-Official/DailyReport.
Les agents utilisant le terminal sont rapidement devenus l'application aval la plus populaire des modèles de langage (ML). Malgré leur prévalence, relativement peu de travaux académiques ont examiné la formation basée sur l'apprentissage par renforcement (RL) de ces modèles, probablement en raison de références difficiles, d'un manque de données et de l'absence de recettes de base simples. Nous présentons Tmax, la meilleure recette RL open source à ce jour pour les agents terminaux, rapprochant les recettes de données ouvertes de la frontière. Bien que simple, notre recette atteint 27 % sur Terminal-Bench 2.0 avec seulement 9 milliards de paramètres, surpassant des modèles beaucoup plus grands issus de travaux antérieurs. Concrètement, nous générons des données à l'aide d'une nouvelle taxonomie, combinant contrôle de la difficulté, personas et diversification des vérificateurs, ce qui nous permet de produire à moindre coût de grandes quantités d'environnements terminaux pour l'entraînement RL et SFT. Nous publions en open source notre ensemble de données terminales, qui est plus de 2,5 fois plus grand que les ensembles de données d'agents terminaux précédemment publiés. Nous entraînons ensuite des modèles à poids ouverts en utilisant RL avec nos données, selon une recette simple basée uniquement sur les résultats. Nous publions nos données, modèles et code comme référence solide pour les futurs travaux académiques ouverts sur les agents terminaux à l'adresse https://github.com/hamishivi/tmax.
L'alignement des modèles de flow matching texte-image sur les préférences humaines via la rétropropagation directe de la récompense est efficace en termes d'échantillons, mais entravé par deux pathologies bien connues : les activations ne peuvent pas être stockées sur l'ensemble de la trajectoire d'échantillonnage à l'échelle des modèles modernes, et les produits de Jacobiens en chaîne à travers les étapes gonflent le gradient de la récompense lorsqu'il remonte vers les indices précoces. Les méthodes basées sur des connecteurs, telles que LeapAlign, abordent ces problèmes en remplaçant la trajectoire complète de rétropropagation par un chemin fixe court, mettant en évidence un découplage utile entre l'échantillonnage et l'optimisation. Cependant, la qualité du gradient résultant dépend de la précision avec laquelle ce chemin court approxime le déploiement complet, en particulier sur de longs intervalles. Nous proposons FlowBP, un cadre unifié de trajectoire de substitution qui traite la trajectoire de rétropropagation elle-même comme un objet de conception. FlowBP conserve un déploiement mis en cache sans gradient pour l'échantillonnage, puis construit un substitut léger de rétropropagation à partir des vitesses mises en cache et sélectivement ré-avançées. Cette vision sépare quatre choix : l'entrée du modèle de récompense, l'ensemble actif, les poids d'intégration et le couplage de pont, et retrouve les méthodes antérieures de gradient direct comme des cas particuliers. Dans ce cadre, nous instancions trois variantes : FlowBP-Sparse utilise une reconstruction d'Euler parcimonieuse, FlowBP-Bridge ajoute un couplage de pont contrôlé, et FlowBP-Lagrange augmente l'ordre de la quadrature leap. Les trois limitent la mémoire à la taille de l'ensemble actif et contraignent le chaînage du gradient à au plus un facteur Jacobien. Sur les modèles SD3.5-M, FLUX.1-dev et FLUX.2-Klein-base, en termes de préférence, de qualité et de métriques compositionnelles, les trois variantes améliorent les références de gradient direct sur la plupart des métriques.
Le flow matching a récemment émergé comme un paradigme puissant pour la génération texte-image (T2I) de pointe, permettant une génération de haute qualité avec un faible nombre d'étapes d'échantillonnage. Alors que ces modèles sont de plus en plus intégrés dans des applications concrètes, garantir une génération de contenu sûr et non sensible est devenu une exigence critique. Cependant, adapter les méthodes de sécurité et de suppression de concepts à ce nouveau cadre de génération reste un défi ouvert. En particulier, les méthodes antérieures reposent largement sur un guidage itératif de la trajectoire à travers un certain nombre d'étapes de débruitage ou sur une manipulation d'embedding de prompt centrée sur CLIP. Ces hypothèses de conception posent des goulots d'étranglement fondamentaux pour la sécurité dans la génération T2I basée sur le flow matching, où le nombre limité d'étapes d'échantillonnage contraint la correction itérative et où les encodeurs de texte modernes sensibles au contexte réduisent l'efficacité des interventions au niveau des embeddings. Dans cet article, nous proposons VESFlow, une méthode de sécurité sans entraînement adaptée au flow matching avec un nombre extrêmement faible d'étapes d'échantillonnage. En exploitant le fait que les modèles de flow matching apprennent la vitesse marginale, nous modifions directement le champ de vitesse via un postérieur conditionnel sécurisé. VESFlow oriente la trajectoire vers des sorties sûres tout en laissant le prompt de conditionnement inchangé. En nous appuyant sur l'observation que VESFlow laisse les sorties inchangées sous des prompts bénins, nous introduisons en outre un filtrage basé sur un score de risque qui contourne la modification de vitesse pour réduire le coût de calcul tout en préservant la génération de prompts bénins. Sur la base de ce filtrage, nous proposons VESFlow+, une variante plus forte de VESFlow qui non seulement modifie la vitesse dans la direction sûre, mais aussi l'éloigne de la direction non sûre. Les résultats expérimentaux montrent que VESFlow+ supprime le concept cible, réduisant le taux de succès d'attaque par NudeNet à 6,3 % sur Ring-A-Bell et à 6,8 % sur MMA-Diffusion avec le modèle MeanFlow en 4 étapes, tout en préservant la fidélité sur les prompts bénins.
Les modèles de langage de grande taille (LLMs) à poids ouverts permettent le progrès scientifique et un large déploiement. Cependant, ils rendent difficile le contrôle de l'accès à des capacités sensibles. La pratique actuelle consiste soit à supprimer les capacités dangereuses avant la publication, soit à contrôler l'accès via des services fermés qui utilisent des variantes de modèles spécialisées, des moniteurs d'entrée/sortie et des permissions d'API. La première approche est vulnérable aux « jailbreaks » tout en sacrifiant les capacités pour tous les utilisateurs afin d'atténuer les risques posés par quelques-uns, et la seconde est fondamentalement incompatible avec une publication en poids ouverts. Dans cet article, nous proposons les Modèles de Langage Hiérarchisés (TLMs), où un seul ensemble de poids publiés prend en charge plusieurs niveaux de capacité. Dans sa configuration publique par défaut, un TLM se comporte comme un LLM conventionnel. Une clé secrète compacte spécifie une permutation sur un petit sous-ensemble de paramètres, induisant un graphe de calcul alternatif sur les mêmes poids qui expose des capacités supplémentaires. Nous développons un protocole d'entraînement qui pré-entraîne conjointement les deux configurations à partir de zéro, puis ajuste finement la configuration à clé sur des données privées avec régularisation pour préserver le comportement du modèle public. Nous pré-entraînons des TLMs de 180 millions et 650 millions de paramètres et démontrons que la configuration à clé peut acquérir une nouvelle langue, gagner une capacité à suivre des instructions et mémoriser des connaissances factuelles privées, tandis que la configuration publique ne présente aucune de ces capacités. De plus, nous montrons que notre approche s'étend naturellement à plusieurs niveaux hiérarchiques. Parce que l'autorisation opère sur la structure des poids du modèle plutôt que dans l'espace d'entrée, le mécanisme résiste à l'extraction par ajustement fin et à la compromission partielle de la clé. En général, les TLMs constituent un pas vers la conciliation de la publication en poids ouverts avec un contrôle sélectif des capacités.
Le pré-entraînement d'actions latentes apprend des représentations du changement visuel à partir de paires d'observations, mais les méthodes existantes codent généralement chaque transition comme une représentation unique non structurée qui entremêle l'étendue et le mode de la transition. Nous introduisons les Actions Latentes Polaires à Structure Radiale (PoLAR), qui imposent une structure radiale-directionnelle aux actions latentes, encourageant le rayon à coder l'étendue de la transition et la direction à retenir le mode de transition. PoLAR utilise le décalage temporel entre deux observations comme un proxy faible de l'étendue de la transition, encourageant les actions latentes issues de paires d'observations séparées par des écarts temporels plus grands à occuper des rayons plus grands. Nous instancions cette structure dans l'espace hyperbolique, dont le volume croissant avec le rayon offre un ajustement naturel pour des modes de transition plus diversifiés à des étendues plus grandes. Que ce soit dans des contextes de pré-entraînement intra-tâche ou à grande échelle, PoLAR améliore les performances des politiques en aval lors d'expériences en simulation et sur des robots réels, surpassant les approches de base utilisant des actions latentes ainsi que les modèles VLA pré-entraînés performants. Ces résultats suggèrent que la géométrie de l'espace des actions latentes est un choix de conception important pour transférer le pré-entraînement visuel à l'apprentissage de politiques robotiques en aval.
Ce travail présente un cadre général pour entraîner les grands modèles de langage (LLMs) à « Connecter les points » (CoD), une méta-capacité requise par les agents à long cycle de vie : lorsqu’un agent IA basé sur un LLM est déployé dans un environnement, il résout une longue séquence de tâches tout en explorant continuellement l’environnement, en apprenant de ses propres expériences et en mettant à jour de manière itérative son contexte concernant l’environnement, améliorant ainsi progressivement ses performances sur les tâches futures conditionnées par le contexte mis à jour. Les composants majeurs du cadre CoD incluent : (1) la conception d’algorithmes et l’infrastructure pour l’apprentissage par renforcement (RL) de bout en bout avec de longues séquences de déroulement entrelaçant des épisodes de résolution de tâches et de mise à jour du contexte ; (2) des tâches et environnements pour inciter et susciter la méta-capacité ciblée dans les LLMs pendant l’entraînement, ainsi que pour mesurer fidèlement les progrès lors de l’évaluation. Nous présentons des implémentations de preuve de concept du cadre CoD, incluant un algorithme RL de style GRPO avec une attribution de crédit fine, ainsi que des tâches et environnements adaptés à la méta-capacité ciblée (plutôt qu’aux capacités LLM spécifiques à un domaine ou au RL tâche par tâche standard). Les résultats empiriques valident l’efficacité de l’entraînement RL de bout en bout dans le cadre CoD, et démontrent le potentiel de généralisation hors distribution — au sein des domaines d’entraînement, entre différents domaines, et du CoD aux paramètres de boucle de Ralph — de la méta-capacité suscitée. Notre investigation de CoD relie plusieurs lignes de travaux antérieurs et ouvre de nouvelles opportunités pour faire progresser les LLMs et les agents IA. Pour faciliter la recherche et les applications futures, nous publions nos implémentations à l’adresse https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod.
Les tentatives récentes de combiner les modèles de langage de grande taille (LLMs) avec la découverte causale demandent aux modèles d'inférer des directions par paires, de proposer des structures de graphe, ou d'injecter les sorties des modèles de langage comme a priori et contraintes. Ces approches promettent une analyse plus rapide, mais elles obscurcissent également la question de savoir si une preuve causale est étayée par les données et les hypothèses ou par des associations textuelles, des artefacts de prompt et des mécanismes hallucinés. Nous plaidons pour un rôle différent des agents dans la découverte causale. Les agents doivent inspecter les données, récupérer le contexte, expliquer les hypothèses des méthodes et clarifier les sorties des graphes, mais ils ne doivent pas fournir d'arêtes, d'orientations, d'a priori, de contraintes ou de conclusions causales. Nous proposons le principe selon lequel les agents assistent le flux de travail, tandis que les affirmations causales restent fondées sur les données, des hypothèses explicites, des algorithmes formels, des diagnostics et des décisions d'experts utilisateurs ou de domaine. Nous concrétisons ce principe dans causal-learn+, une plateforme en ligne qui coordonne l'analyse des données, le prétraitement, la recommandation de méthodes, l'intégration des connaissances d'experts, la découverte formelle et l'interprétation autour de l'écosystème algorithmique de causal-learn. Une étude de cas sur les données de personnalité des Cinq Grands illustre le pipeline assisté par agent de la découverte causale sans transformer la non-fiabilité du modèle de langage en preuve causale. La plateforme est disponible à l'adresse causallearn.com.
Les modèles de langage modernes, qu’ils soient à base de transformeurs, de réseaux récurrents ou de mécanismes à mémoire, partagent une architecture commune : une pile de couches identiques où les paramètres sont répartis uniformément sur la profondeur. Il s’agit d’un choix par défaut hérité du transformeur original et demeuré largement inchangé, bien qu’un nombre croissant de preuves suggère que les couches contribuent de manière non uniforme à la sortie finale, les couches ultérieures affinant le flux résiduel plutôt que le transformant. Nous nous demandons si la capacité paramétrique devrait refléter cette asymétrie. Notre expérience contrôlée montre que, sous un budget fixe, allouer davantage de capacité aux premières couches et moins aux dernières améliore la perplexité par rapport à une ligne de base à largeur uniforme, tandis que l’allocation inverse la détériore. En nous appuyant sur ce résultat, nous introduisons les modèles de langage à effilement progressif (Tapered Language Models, TLMs), un principe architectural dans lequel un composant porteur de paramètres est monotoneusement réduit sur la profondeur à budget total fixe. Les MLP constituent le site naturel de cette instanciation : ils dominent le nombre de paramètres dans toutes les familles modernes de modèles de langage et offrent la largeur comme axe de variation unique et clair. À travers trois échelles de modèle et quatre architectures (Transformeur, Attention à portes, Attention Hope et Titans), l’effilement de la largeur des MLP via un programme cosinus lisse améliore systématiquement la perplexité et les performances sur les tâches en aval par rapport aux lignes de base uniformes, sans coût supplémentaire en paramètres ou en calcul. Ces résultats établissent l’allocation de capacité tenant compte de la profondeur comme un axe simple et indépendant de l’architecture pour la conception de modèles de langage — un levier gratuit, caché à la vue de tous.
Alors que les systèmes agentiques s’attaquent à des tâches multi-étapes de plus en plus complexes, l’évaluation de leurs trajectoires constitue un goulot d’étranglement majeur — l’annotation humaine d’une seule trajectoire sur des benchmarks agentiques populaires peut prendre des heures, ce qui rend difficile le passage à l’échelle des évaluations pour mesurer la performance ou constituer des données d’entraînement. Cela a conduit à une large dépendance vis-à-vis d’approches automatisées telles que le LLM comme juge (LLMJ) pour critiquer les agents au niveau du processus et des résultats à grande échelle. Cependant, la validité des critiques du LLMJ est rarement mesurée. Nous présentons ici Counsel, le premier jeu de données public de méta-évaluations pour des tâches agentiques. Counsel se compose de critiques au niveau du processus provenant de LLMJ à poids ouverts sur deux benchmarks agentiques : tau-bench (agents de support client) et DA-Code (agents de codage), ainsi que de méta-évaluations humaines de ces critiques. Les annotateurs humains étiquettent chaque critique sur chaque erreur signalée comme « exacte », « emplacement correct mais raisonnement faible » ou « n’aurait pas dû être signalée », avec un accord inter-annotateurs fiable (alpha de Krippendorff de 0,78). Le jeu de données obtenu stratifie les critiques du LLMJ en fonction de l’alignement humain, à la fois sur la localisation de l’erreur dans une trajectoire et sur la qualité du raisonnement, constituant ainsi des données précieuses pour calibrer, améliorer ou entraîner les LLMJ pour les agents. En comparant les juges à poids ouverts, nous constatons que des modèles de juges plus performants et un effort de raisonnement accru améliorent tous deux l’accord humain, le juge le plus fort atteignant environ 88 % d’accord sur la localisation et environ 65 % sur le raisonnement. Counsel est généré à l’aide de modèles à poids ouverts et est distribué sous une licence permissive pour une large utilisation par la communauté, ce qui, nous l’espérons, permettra une étude rigoureuse et un meilleur alignement des évaluateurs basés sur LLM pour les systèmes agentiques.
La question-réponse visuelle 3D multi-vue (MV3D-VQA) nécessite d'intégrer des observations partielles en une représentation de scène 3D cohérente et de sélectionner des points de vue informatifs pour un raisonnement spatial en plusieurs étapes. Cependant, les modèles multimodaux de grands langages actuels sont généralement entraînés avec une supervision parcimonieuse au niveau des réponses, ce qui conduit souvent à un raisonnement incohérent entre les vues et à une sélection fragile des points de vue. Nous présentons DR-MV3D (récompense dense pour MV3D-VQA), un cadre d'apprentissage basé sur une carte qui fournit des récompenses denses et vérifiables pour superviser le processus de raisonnement. Notre approche décompose MV3D-VQA en (i) construction d'une carte globale allocentrique, (ii) planification de trajectoire de vues conditionnée par la question, et (iii) ancrage égocentrique pour la prédiction de la réponse. Afin de rendre les étapes intermédiaires apprenables sans annotations manuelles, nous introduisons deux récompenses : une récompense de cohérence globale qui aligne la carte prédite avec des cibles pseudo-géométriquement cohérentes issues de modèles de vision 3D fondamentaux gelés (par exemple, VGGT + SAM3), et une récompense de trajectoire locale qui supervise la sélection ordonnée des points de vue. Nous optimisons l'ensemble du pipeline avec une optimisation de politique au niveau de la trajectoire (GRPO). Les expériences sur MindCube, VSI-Bench et BLINK (MV) montrent que DR-MV3D améliore systématiquement les modèles de référence multi-images forts, confirmant l'efficacité d'une supervision dense au niveau du processus pour le raisonnement 3D multi-vue.
Les modèles Vision-Langage-Action (VLA) offrent un paradigme unifié pour la manipulation robotique, mais leur déploiement dans le monde réel est souvent limité par l'efficacité d'exécution. Alors que les travaux existants se concentrent principalement sur l'efficacité centrée sur le calcul pour réduire la latence d'inférence par étape, l'efficacité intrinsèque de la politique de ces modèles reste largement inexplorée. L'efficacité de la politique est fondamentalement affectée par deux facteurs, à savoir la longueur exécutable effective des séquences d'actions prédites et le nombre total d'étapes physiques nécessaires pour accomplir une tâche. Ces deux facteurs déterminent conjointement le nombre total d'appels d'inférence vers l'avant pendant l'exécution. Nous observons que les politiques VLA actuelles souffrent d'un manque de fiabilité de planification et de redondance d'actions, avec une dégradation sévère des prédictions en fin de séquence d'actions et une tendance à générer des étapes physiques redondantes inutiles. Pour y remédier, nous proposons PolicyTrim, un cadre de post-entraînement basé sur l'apprentissage par renforcement qui étend la longueur fiable des séquences d'actions et réduit les étapes physiques redondantes. Pour l'extension fiable des séquences, nous employons une stratégie d'exploration dynamique qui récompense explicitement la réalisation réussie de longueurs exécutables plus longues, repoussant progressivement l'horizon de prédiction fiable jusqu'à sa limite empirique. Pour l'efficacité en termes d'étapes, nous concevons une récompense sensible à la redondance qui favorise directement les accomplissements réussis de tâches avec moins d'étapes tout en pénalisant les raccourcis non reproductibles, éliminant ainsi efficacement les actions physiques redondantes. Des expériences approfondies sur trois benchmarks et trois modèles VLA démontrent que PolicyTrim améliore l'utilisation des séquences d'actions d'un facteur 3 et réduit les étapes d'exécution physique de 51,4 %. Finalement, notre cadre permet une accélération du déploiement de bout en bout allant jusqu'à 5,83 fois sans compromettre les taux de réussite des tâches.
Il est tentant de supposer que toute tâche résoluble par un court programme peut être enseignée à un modèle sous forme de chaîne de pensée : écrire les étapes, ajuster finement, et le modèle suit. Cet article montre que cette hypothèse échoue pour une classe identifiable de procédures. Le banc d'essai comprend neuf tâches de raisonnement, chacune issue d'un générateur déterministe ; les partitions publique et cachée partagent les générateurs, de sorte que les données non divulguées servent de proxy pour la précision en test. Je rétro-ingénie les générateurs en solveurs Python, les rends sous forme de chaîne de pensée, et les distille dans un LoRA de rang <= 32 sur un modèle Nemotron de 30B (3,5B actifs). Les tâches calculables de manière anticipée s'installent facilement : recherche/arithmétique et une tâche booléenne sur 8 bits se transfèrent (>= 0,99 et 0,68). La cryptarithmétique échoue : distiller sa recherche par retour arrière plafonne à 0,01-0,07 sur onze conceptions de chaîne de pensée, l'apprentissage par renforcement à partir de récompenses vérifiables, et l'auto-apprentissage, bien qu'un solveur par recherche réponde à 71 % des instances. Ce n'est pas un écart de capacité. Le modèle effectue le calcul arithmétique sur 97-100 % des lignes et classe le chiffre correct dans ses huit premiers à 71 % ; il ne peut pas poursuivre la recherche comme une dérivation de gauche à droite. L'ajustement fin apprend la forme d'une étape d'élimination vérifiable tandis que ses verdicts deviennent des modèles inconditionnels, corrects seulement 16-57 % du temps (« verdict-comme-jeton »). Le plafond persiste sur des architectures de 3B à 671B et à travers l'ajustement fin et l'incitation ; une intervention contrôlée isole la cause : révéler la clé de chiffrement, qui rend la dérivation anticipée, élève les mêmes instances de 0,03 à 0,57. Lorsque la seule solution d'une procédure est une recherche sur une structure sans information, aucune chaîne de pensée fidèle et anticipée n'existe à imiter. La tâche devient apprenable seulement en supprimant la recherche, en précalculant son noyau combinatoire dans un catalogue et en réduisant la trace à un rappel plus une vérification ; la solution de première place atteint ainsi 0,92 sur le LB privé. Ce qui se distille est la mémorisation et la vérification, non la recherche.
Les modèles de diffusion vidéo ont permis des progrès remarquables dans la génération et l'édition vidéo. Cependant, la préservation du contenu reste un défi central : les méthodes existantes régénèrent chaque pixel et modifient souvent des éléments qui devraient rester inchangés, comme les personnages ou les décors de fond. Nous présentons Vera, un cadre de diffusion en couches pour l'édition vidéo avec préservation du contenu. Au lieu de régénérer l'intégralité de la vidéo, Vera génère une couche d'édition accompagnée d'un mat alpha pour le compositing avec la vidéo source, séparant par conception l'édition créative de la préservation du contenu. Pour favoriser une composition cohérente avec la vidéo source, nous étendons le DiT texte-vers-vidéo en une architecture Mixture-of-Transformers (MoT), avec des DiT séparés pour chaque couche qui interagissent via une auto-attention conjointe. Pour soutenir l'entraînement de Vera, nous construisons en outre un ensemble de données en couches de haute qualité avec des mat alpha précis, des scènes et dynamiques diverses, et des effets visuels. Dans notre benchmark quantitatif et notre étude de préférence humaine, Vera surpasse les principaux modèles d'édition vidéo open source en préservation du contenu tout en restant compétitif en qualité d'édition, en utilisant 486 000 images de données d'entraînement en couches.
L'apprentissage par renforcement (RL) constitue une approche centrale pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs), dont l'efficacité d'entraînement dépend crucialement de la manière dont les problèmes sont échantillonnés au cours de l'optimisation. Les méthodes existantes d'apprentissage curriculaire adaptatif privilégient généralement les prompts de difficulté intermédiaire, traitant la sélection des problèmes comme un problème de bandit standard à bras indépendants et négligeant la nature structurée et hétérogène de l'espace des tâches. Dans ce travail, nous formulons l'échantillonnage des problèmes comme un problème de bandit à structure de variété avec non-stationnarité endogène : les problèmes sont reliés via l'espace de représentation latent du modèle, et les décisions d'échantillonnage peuvent orienter la manière dont les signaux d'apprentissage évoluent à travers cet espace. Pour concrétiser cette perspective, nous introduisons le Curriculum Bayésien sur Variété (BMC), un cadre conscient de la structure qui organise les problèmes en un arbre de tâches hiérarchique et applique l'apprentissage bayésien pour guider l'échantillonnage. Empiriquement, nous constatons que différentes stratégies d'échantillonnage induisent des compromis non triviaux entre productivité (signal d'apprentissage), diversité (couverture de la variété des tâches) et utilité (pertinence pour l'évaluation). Ces résultats montrent que privilégier uniquement la difficulté est insuffisant pour obtenir de bonnes performances en aval, soulignant l'importance d'intégrer la structure et la conscience des types dans l'échantillonnage des problèmes.
Les sondes linéaires sont largement utilisées en recherche sur l’interprétabilité et sont souvent comparées par similarité cosinus. La similarité cosinus de Mahalanobis (SCM) entre deux directions, qui repondère le produit scalaire par la covariance des données de test, constitue un raffinement naturel et adapté à la tâche. Ying et al. (2026) rapportent que la SCM d’une sonde par rapport à une sonde de référence entraînée sur des données hors distribution (OOD) prédit de façon quasi parfaitement linéaire l’AUROC OOD de la sonde (R² = 0,98). Ici, nous étendons ce résultat empirique à travers différents modèles, couches et domaines conceptuels, et nous démontrons ce phénomène général sous forme fermée : pour des classes équilibrées dont les projections sont gaussiennes, l’AUROC OOD et la SCM par rapport à la sonde de référence sont linéaires car toutes deux sont des fonctions sigmoïdes du rapport signal sur bruit (RSB) de la sonde sur les données de test. La théorie prédit également les cas où cette linéarité échoue, ce que nous vérifions empiriquement. La SCM offre une alternative théoriquement fondée et empiriquement efficace à la similarité cosinus euclidienne pour comparer les sondes linéaires.
Alors que des jeux de données vastes et diversifiés ont favorisé les récentes avancées des grands modèles, identifier le mélange de données optimal pour le pré-entraînement et le post-entraînement reste un problème ouvert majeur. Nous relevons ce défi avec FASTMIX, un nouveau cadre qui automatise la découverte du mélange de données tout en n’entraînant qu’un seul modèle proxy. Au lieu de s’appuyer sur des heuristiques prédéfinies ou des simulations coûteuses en ressources, FASTMIX optimise conjointement les coefficients de mélange et les paramètres du modèle, améliorant ainsi considérablement l’efficacité et la passage à l’échelle par rapport aux approches antérieures. Au cœur de FASTMIX se trouve une reformulation de la sélection du mélange comme un problème d’optimisation bi-niveau. Sous cette reformulation, nous montrons qu’optimiser les ratios de mélange est mathématiquement équivalent à attribuer des poids de perte par source sous un échantillonnage uniforme des sources. Cela intègre directement les coefficients de mélange dans l’objectif itératif différentiable de l’optimisation, permettant une optimisation efficace, basée sur les gradients, à la fois du mélange et du modèle. Pour résoudre le problème d’optimisation, FASTMIX implémente une procédure d’optimisation itérative approchée, alternant entre (i) la mise à jour des paramètres du modèle sur des données échantillonnées selon les ratios de mélange courants (boucle interne) et (ii) la mise à jour des ratios de mélange à partir de retours de validation (boucle externe). Tant en pré-entraînement qu’en post-entraînement, FASTMIX surpasse les méthodes de référence tout en réduisant drastiquement le coût de recherche. Code (https://github.com/hrtan/fastmix)
Les Vision Transformers (ViT) dominent la vision par ordinateur. Cependant, leur dépendance à des projecteurs de patchs rigides entrave leur transfert vers l'Observation de la Terre (OT), où les modalités, échelles et résolutions d'entrée varient considérablement. Nous présentons UniverSat, une architecture de type ViT construite autour d'un encodeur de patchs universel qui projette des patchs provenant de résolutions spatiales, spectrales et temporelles arbitraires, ainsi que de capteurs optiques et non optiques, dans un espace d'embedding partagé avec un ensemble de poids commun. Cela permet d'entraîner un seul modèle sur des corpus multimodaux hétérogènes via l'auto-supervision, produisant des caractéristiques spatiales robustes et indépendantes du capteur. Nous validons cette approche avec des résultats solides en classification et segmentation sur des benchmarks standards d'OT provenant de GeoBench, PANGEABench et SpectralEarth. Notre code et nos modèles sont disponibles à l'adresse https://github.com/gastruc/UniverSat.
Alors que les laboratoires d'IA approchent d'un plafond de données où la capacité de calcul dépasse le rythme de génération de nouveaux textes de haute qualité, le pré-entraînement des modèles de langage évolue vers un régime contraint en données et abondant en calcul, qui exige un entraînement multi-époques productif sur des corpus fixes. Le pré-entraînement autorégressif (AR) standard souffre sévèrement de surentraînement dans ce cadre, atteignant son optimum tôt puis se détériorant continuellement. Nous étudions l'augmentation de données en phase d'entraînement comme régularisateur pour atténuer ce surentraînement et permettre un entraînement productif sur des centaines d'époques sur les mêmes données. Nous introduisons trois catégories orthogonales d'augmentation pour le pré-entraînement AR : le bruit au niveau des tokens (masquage, remplacement aléatoire), les permutations de séquences (prédiction de droite à gauche, Fill-in-the-Middle), et la prédiction de décalage de cible (x_{t+i} pour i > 1). Grâce à des ablations systématiques, nous constatons que les augmentations individuelles retardent le surentraînement et réduisent la perte de validation par rapport à la référence, le remplacement aléatoire de tokens obtenant la meilleure perte minimale parmi les méthodes individuelles. La combinaison de catégories d'augmentation réduit encore davantage la perte de validation minimale. Nos expériences démontrent que les augmentations de données atténuent l'inefficacité des données du pré-entraînement AR et offrent une solution prometteuse au régime contraint en données~\footnote{Tout le code et les données sont disponibles à l'adresse https://github.com/michaelchen-lab/data-augmentations-for-pretraining.}
Les agents LLM dans le question-réponse intensif en connaissances effectuent des actions de recherche et de raisonnement avec une connaissance incomplète de la question de savoir si leur réponse actuelle est incertaine, non étayée ou déjà complète. Cela produit deux modes d'échec : s'engager sur des réponses confiantes mais non étayées, ce qui nuit à la précision, et sur-rechercher alors que les preuves déjà en main sont suffisantes, ce qui entraîne un gaspillage de calcul. Pour donner aux agents une image plus complète de l'espace d'état dans lequel ils opèrent, nous introduisons la télémétrie de vérificateur calibré (CalVerT), qui enrichit l'état de l'agent avec une télémétrie supplémentaire : un score d'auto-confiance calibré et un score de vérificateur d'ancrage. Nous montrons que CalVerT peut améliorer les agents à la fois dans des contextes sans entraînement et basés sur l'entraînement. Sur quatre benchmarks de Q-R, nous constatons que CalVerT augmente le F1 en déclenchant la recherche dans les cas où les agents se fient trop aux connaissances paramétriques, tout en réduisant la recherche redondante dans les cas où les agents disposent d'un contexte suffisant pour répondre. Nous montrons que CalVerT peut améliorer les frameworks de Q-R existants sans entraînement. De plus, CalVerT améliore également les systèmes entraînés : en enrichissant simplement l'état d'un agent avec une télémétrie, nous observons des améliorations après apprentissage par renforcement, par rapport à un agent ayant un entraînement identique mais sans télémétrie CalVerT.
L'optimisation discrète de déclencheurs textuels — la recherche de séquences de texte qui, lorsqu'elles sont ingérées par un modèle, l'orientent vers un objectif spécifié — sous-tend le red-teaming de modèles (par exemple, les jailbreaks de LLM), ainsi que l'audit et l'interprétabilité. Cependant, l'état actuel des optimiseurs discrets entrave leur adoption et leur progrès. Premièrement, les optimiseurs existants, lorsqu'ils sont rendus open source, sont dispersés dans des bases de code de recherche liées à des modèles, des objectifs et des domaines de problèmes spécifiques. Deuxièmement, les variantes d'optimiseurs prolifèrent, chacune nécessitant un surcoût d'ingénierie pour être utilisée ou étendue, et restant difficile à comparer directement. Ensemble, ces facteurs relèvent la barre pour l'adoption d'optimiseurs dans des domaines existants ou nouveaux, et pour leur avancement via de nouvelles stratégies. Nous comblons ces lacunes avec TROPT, le premier cadre open source qui unifie l'exécution des optimiseurs discrets et standardise leur développement sous une interface unique. TROPT facilite la personnalisation de recettes d'optimisation de bout en bout en échangeant tout composant — modèles, objectifs et optimiseurs — étendant ainsi sa portée à travers les domaines et les nouvelles applications. TROPT est actuellement livré avec plus de 30 recettes d'optimisation — couvrant des applications telles que le jailbreak et le sondage des mécanismes internes des modèles — construites à partir de plus de 15 optimiseurs (allant de l'accès boîte blanche à boîte noire) et plus de 15 fonctions de perte, des méthodes fondamentales aux méthodes de pointe. Pour démontrer son utilité, nous exploitons TROPT dans plusieurs études : (i) des expériences contrôlées à grande échelle comparant et améliorant les stratégies d'optimisation pour les jailbreaks de LLM, révélant des techniques puissantes mais sous-adoptées ; et (ii) le portage d'optimiseurs d'un domaine (par exemple, jailbreak de LLM) vers de nouveaux domaines (par exemple, modèle d'incorporation par empoisonnement de corpus). En somme, TROPT abaisse considérablement la barrière à l'adoption et à l'avancement de l'optimisation discrète de texte.
Les agents LLM à long horizon peuvent échouer silencieusement : ils se fixent précocement sur une interprétation des preuves, puis consacrent le reste de l'exécution à la défendre. Nous appelons cela l’engagement prématuré. La notation sur la réponse finale ne détecte pas ce mode d’échec car elle ne voit que la réponse, et non si le processus s’est déjà effondré sur un chemin stable. Nous définissons l’engagement représentationnel comme la convergence inter-exécutions des états cachés à une étape de raisonnement donnée, et l’utilisons comme diagnostic précoce de la cohérence de la trajectoire. Sur Llama-3.1‑70B exécutant ReAct sur HotpotQA, la similarité des états cachés à l’étape 4 prédit la cohérence comportementale en aval (r = −0,35, r partiel = −0,45), avec une signature temporelle et par couche localisée. Le signal se reproduit sur Qwen‑2.5‑72B et Phi‑3‑14B, ainsi que sur StrategyQA (r = −0,83). Il ne suit pas la correction : les questions erronées-engagées et correctes-engagées ne sont pas séparables par la similarité d’activation. Cette frontière est centrale à l’affirmation. L’engagement nous indique si un agent s’est fixé, non s’il a raison. Un moniteur d’exécution détecte les trajectoires incohérentes à partir des états cachés avec un AUROC allant jusqu’à 0,97 (0,85–0,88 sous une division plus stricte), et une intervention par amorçage réduit la variance comportementale de 28 % par rapport à un contrôle apparié en tokens, tout en laissant la précision statistiquement inchangée. Nous testons également si le signal peut orienter le calcul d’auto‑cohérence ; sur un benchmark plus difficile, il n’aide que modestement et est égalé par une référence plus simple basée sur les sorties. Le résultat est un diagnostic pour un dysfonctionnement caché du processus, avec des limites claires plutôt qu’un levier général de précision.
Les agents d'utilisation d'ordinateur (CUA) agissent désormais pour le compte d'un utilisateur dans des applications personnelles telles que la messagerie électronique, les calendriers et les listes de tâches. Cet accès inter-applications est utile, mais il crée également un risque pour la vie privée largement négligé : lorsqu'un agent travaille dans un contexte, il peut extraire des informations provenant d'un autre contexte, inappropriées dans ce premier. Nous introduisons donc AgentCIBench, un harnais d'évaluation qui transforme ce risque en scénarios exécutables et évalués de manière déterministe. Nous ciblons trois modes de défaillance courants dans les CUA : la co-localisation visuelle, où l'agent extrait des éléments interdits situés à côté de la cible de la tâche dans l'interface utilisateur ; le sur-partage dû à l'ambiguïté de la tâche, où l'agent déverse un état personnel dense en réponse à une invite sous-spécifiée ; et le désalignement du destinataire, où l'agent envoie un contenu à un destinataire pour lequel il est inapproprié. Nous évaluons 15 agents de pointe et constatons un taux d'échec étonnamment élevé : 11 des 15 agents fuient dans plus de 50 % des scénarios, avec une fuite moyenne de 67,9 %, et les mêmes échecs persistent lorsque les agents agissent de bout en bout dans l'environnement pour accomplir la tâche. Nous publions AgentCIBench pour encourager le développement d'agents d'utilisation d'ordinateur plus sûrs et positionnons le test de divulgation contextuelle comme un contrôle de sécurité avant déploiement.
Les modèles 3D conditionnés par du texte et des images génèrent désormais des actifs convaincants, mais ils offrent encore peu de contrôle direct sur l'espace qu'un objet doit occuper ou éviter. Dans le processus de conception, cette intention spatiale est souvent connue avant le début de la génération. Une chaise doit s'inscrire dans une enveloppe d'assise, un accessoire doit dégager un espace pour le mouvement, ou une pièce doit exposer une surface de contact. Les invites et les vues d'images sont de piètres vecteurs pour de telles contraintes, ce qui nécessite une interface de contrôle explicite. Nous présentons Arbor, un module entraînable se greffant à la génération 3D latente conditionnée par le texte. Arbor introduit les maillages de contrainte en tant qu'interface de contrôle 3D native. L'interface utilise des régions d'enveloppe où la géométrie doit exister, des régions d'évitement qui doivent rester vides, et des régions de contact que l'objet doit toucher. Contrairement au contrôle par complétion ou par échafaudage d'objet entier, ces maillages ne constituent pas des preuves cibles. Ce sont des exigences typées locales et peuvent inclure des régions où aucune surface ne doit apparaître. Arbor conserve ce signal en tant que géométrie en convertissant les maillages de contrainte en jetons et en apprenant un attachement routé à l'intérieur d'un débruitseur gelé. Chaque région latente peut ainsi recevoir la partie de la contrainte pertinente pour son emplacement spatial. Nous évaluons Arbor sur des benchmarks de contrôle automatiques et élaborés par des artistes avec des contraintes d'enveloppe, d'évitement et de contact, et comparons les tendances des métriques à une étude de préférence utilisateur. Même sans pertes de conformité dédiées, Arbor améliore l'obéissance aux contraintes tout en préservant la qualité et la variation des objets sous des contraintes fixées.
Les maillages comptent parmi les représentations de scènes 3D les plus courantes, mais leur génération directe reste difficile car la représentation comporte des symétries importantes, notamment l'invariance par permutation des faces et des sommets. MeshFlow apprend à générer directement des maillages triangulaires sous forme de soupes de triangles, évitant ainsi la nécessité de sérialiser les maillages en longues séquences autorégressives. Nous adoptons des modèles d'appariement de flux par transport optimal équivariants qui respectent les symétries clés des soupes de triangles : permutations arbitraires des faces et permutations des sommets au sein de chaque face. À cette fin, nous proposons une modification simple mais efficace de l'architecture du Transformer de diffusion, aboutissant à un réseau scalable capable de modéliser un champ de vélocité tout en maintenant l'équivariance souhaitée. Nous introduisons également un objectif d'entraînement basé sur le transport optimal qui améliore la convergence en éliminant les signaux de supervision qui violent ces symétries. MeshFlow atteint une qualité de maillage comparable aux meilleurs générateurs de maillages autorégressifs tout en offrant une accélération d'environ 18 fois lors de l'inférence. La page du projet se trouve à l'adresse https://qiisun.github.io/MeshFlow/.
Avec la propagation rapide de la génération augmentée par récupération et de la recherche sémantique, choisir la bonne configuration d'embedding et de récupération devient de plus en plus difficile. Les grands benchmarks de récupération sont complets, mais trop lourds à réexécuter en phase de développement, et il existe peu d'infrastructures pour comparer les paramètres de production — réduction de dimensionnalité, quantification, reclassement — entre de nombreux modèles dans des conditions identiques. Nous présentons HAKARI-Bench, un benchmark léger qui reconstruit des suites de récupération existantes en petits ensembles de données (Nano-ensembles) : 35 benchmarks et 551 tâches couvrant 43 langues dans un format unifié, permettant une comparaison indépendante du modèle et dans des conditions identiques de cinq familles de récupération (BM25, dense, sparse, interaction tardive, reclassifieurs) ainsi que de leurs variantes d'efficacité. Sur 55 modèles, son classement global reproduit le MTEB retrieval v2 officiel, le MMTEB v2 retrieval et le BEIR anglais (complet) avec un coefficient de Spearman > 0,97. HAKARI-Bench ne remplace pas une évaluation complète ; il permet une sélection rapide de modèles, la détection de régressions et la lecture de la frontière de Pareto qualité-efficacité. Le code, les données et le classement sont publiés sous licence MIT.
La reconstruction d'objets dynamiques non rigides à partir d'une vidéo monoculaire nécessite d'intégrer des indices visuels issus d'observations directes avec des a priori guidés par les données sur la géométrie et l'apparence. Les approches précédentes apprennent soit à prédire directement des représentations 4D à partir d'entrées visuelles, soit initialisent une représentation 3D qui est ensuite déformée et affinée à partir des preuves vidéo. Cependant, les premières sont limitées par la rareté des données d'entraînement 4D, tandis que les secondes n'exploitent les a priori que pour la reconstruction initiale et ne s'appuient ensuite que sur la supervision vidéo ; ni les unes ni les autres ne gèrent bien les scénarios complexes en conditions réelles présentant de grandes déformations et occlusions. Nous présentons Lift4D, un cadre d'optimisation au moment du test qui répond à ces deux limitations. Premièrement, nous adaptons un modèle existant de reconstruction 3D à partir d'une seule vue pour produire des prédictions temporellement cohérentes par image via un conditionnement latent causal, fournissant une initialisation cohérente pour une représentation déformable par Gaussian Splatting 3D. Ensuite, nous « sculptons » cette représentation pour l'adapter à la vidéo d'entrée grâce à une optimisation consciente des occlusions qui restitue fidèlement les détails de surface visibles tout en complétant les régions non observées à l'aide d'un a priori de diffusion conditionné par la vue. Nous démontrons que Lift4D améliore nettement les méthodes de reconstruction 4D antérieures, en particulier sur les séquences difficiles en conditions réelles avec des occlusions sévères et des mouvements non rigides.
Les systèmes de génération musicale peuvent désormais produire des résultats audio impressionnants à partir de consignes textuelles, mais ces sorties audio restent difficiles à inspecter, modifier et diagnostiquer en termes de structure musicale. Nous présentons Libretto, un cadre orienté agent pour la génération et la révision de musique symbolique. Libretto utilise une grammaire native aux LLM avec des créneaux d'attaque explicites, des voix et une organisation au niveau de la mesure, puis évalue chaque pièce dans un espace statistique calibré sur corpus portant sur le rythme, l'harmonie, la mélodie, la texture, la forme et la variation. Ces mêmes axes structurels permettent la recherche, le diagnostic, le contrôle du risque de copie et l'auto-révision itérative. Dans des tâches de remplissage de lacunes, de génération complète guidée par référence, de morphing progressif et de génération musicale éducative, Libretto transforme la musique symbolique d'une séquence brute de tokens en un objet mesurable et modifiable pour les agents basés sur des modèles de langage.
La réalisation cinématographique exige un contrôle précis du mouvement et un compositing d'images de référence — des capacités que les méthodes existantes traitent séparément. Les modèles image-vers-vidéo conditionnés par des point-tracks limitent l'insertion de contenu à la première image, tandis que les modèles référence-vers-vidéo ne disposent pas d'un contrôle spatio-temporel fin sur la manière dont le contenu de référence s'intègre à travers les images. Nous présentons Go-with-the-Track, qui unifie ces deux capacités en se conditionnant conjointement sur plusieurs images de référence et des point-tracks ancrés sur les références — étendant les point-tracks conventionnels pour établir explicitement des correspondances entre les images générées et les images de référence, permettant ainsi un compositing précis et un contrôle du mouvement tout au long de la vidéo. Pour y parvenir, nous introduisons des encodages de point-tracks conscients de la spatialité qui encodent la séquence complète des coordonnées des point-tracks à l'aide d'un MLP par coordonnée suivi d'un pooling temporel. Cette représentation capture les caractéristiques spatiales de chaque point-track (servant d'identifiant unique), tandis que la similarité des encodages est directement corrélée à la proximité spatiale, améliorant la capacité du modèle à distinguer et associer les point-tracks. Nous injectons ces encodages de point-tracks dans un transformer de diffusion vidéo via un adaptateur léger, résolvant le décalage de résolution pixel-vers-patch tout en évitant la perte substantielle de détails de mouvement inhérente au sous-échantillonnage naïf des point-tracks. Nous utilisons une stratégie d'entraînement hybride pour entraîner conjointement sur des ensembles de données vidéo de scènes dynamiques, statiques et synthétiques afin d'améliorer la contrôlabilité du mouvement. Les expériences montrent que Go-with-the-Track atteint un contrôle supérieur du mouvement et des références dans un seul modèle et permet de nouvelles capacités : la génération vidéo conditionnée par plusieurs références avec un compositing piloté par point-tracks, ainsi que le contrôle de la caméra pour les scènes statiques et dynamiques. Page du projet : https://eyeline-labs.github.io/Go-with-the-Track/
Optimisation de la composition des données de pré-entraînement est cruciale pour la généralisation des grands modèles de langage. Bien que le mélange dynamique surpasse les stratégies statiques en capturant la dynamique évolutive de l'entraînement, les méthodes actuelles ne parviennent pas à concilier efficacité computationnelle, efficacité d'échantillonnage et flexibilité structurelle pour des pipelines diversifiés. Nous introduisons le Mélange de Données en Ligne Acteur-Critique (AC-ODM), qui aborde le mélange de données sous l'angle de l'apprentissage par renforcement avec une politique paramétrée dont nous prouvons théoriquement qu'elle agit comme un substitut linéaire dynamique maximisant l'interférence constructive des gradients. Pour améliorer la flexibilité pratique, AC-ODM prend en charge deux modes opérationnels : (i) un mode proxy pour des corpus fixes et préétablis, où une politique apprise sur un petit modèle est transférée à une cible plus grande ; et (ii) un mode non-proxy pour un entraînement direct de bout en bout à partir de zéro sans a priori. Empiriquement, AC-ODM surpasse significativement les méthodes antérieures en termes de vitesse de convergence et de précision en aval sur diverses architectures. Sur Pythia-1B, il atteint la perplexité de validation optimale en utilisant jusqu'à 66 % d'étapes d'entraînement en moins que les références concurrentes, offrant une amélioration relative de 27,5 % de la précision MMLU et un pass@1 2,23 fois plus élevé sur HumanEval, le tout avec une augmentation quasi négligeable du temps par étape (0,4 %) et seulement 2 % de surcoût mémoire supplémentaire. Le code est disponible sur https://github.com/DANG-ai/AC-ODM.
Alors que les voitures autonomes continuent de se déployer à l’international et d’utiliser des systèmes multimodaux tels que les VLMs comme base cognitive de leurs modèles d’action, dans quelle mesure ces systèmes se généraliseront-ils à de nouveaux environnements, en particulier dans des scénarios limites hors distribution (OOD) dans de nouvelles régions ? Dans cet article, nous étudions cette question ouverte en proposant une analyse factorielle complète avec des conducteurs humains de Lima, des conducteurs humains de New York et des VLMs, en leur montrant des images de dashcam collectées à Lima et à New York — et en les interrogeant via une variété de questions dans le cadre d’un paradigme de réponse à des questions visuelles (VQA). Nous choisissons ces deux villes car ce sont des lieux de conduite particulièrement difficiles où aucune entreprise de voitures autonomes n’opère actuellement, et nous posons des questions couvrant quatre catégories : factuelles, évaluations, contrefactuelles et raisonnement. Nous constatons que les humains et les VLMs divergent dans leurs réponses — bien que cela soit modulé par le type de questions posées, et que les humains répondent de manière similaire indépendamment de leur origine (Lima/NYC). À notre surprise, nous n’avons pas observé de différence marquée dans les réponses (humaines ou des VLMs) liée à la géographie, probablement en raison de leur nature fortement hors distribution. Notre jeu de données est disponible à l’adresse : https://huggingface.co/datasets/Artificio/robusto-2
Nous présentons ShotcreteDepth, un jeu de données bimodal issu du domaine de la construction, qui capture à la fois un processus actif de projection de béton et des environnements de chantier généraux. Ce jeu de données comprend des images RVB stéréo et des nuages de points LiDAR acquis dans des conditions réelles difficiles, notamment une forte turbidité et un faible éclairage. Ces conditions nuisent aux mesures des capteurs, produisant des observations incomplètes et bruitées qui posent des défis majeurs aux systèmes de perception dans les applications autonomes. En complément du jeu de données, nous publions un outil d'annotation léger conçu pour un étiquetage efficace en temps des nuages de points LiDAR. ShotcreteDepth se compose de 11 252 échantillons de données temporellement synchronisés, dont 220 sont annotés à des fins d'évaluation. Ce jeu de données soutient la recherche en appariement stéréo, complétion de profondeur et estimation de profondeur dans des conditions qui reflètent fidèlement les complexités opérationnelles des environnements industriels. Référentiel du projet : https://github.com/dtu-pas/shotcrete-depth
Nous décrivons notre participation au volet efficacité du Grand Défi Texte-vers-Musique Académique (ATTM) à l'ICME 2026. Au-delà des scores FAD-CLAP et CLAP du protocole du défi, nous ajoutons une récompense apprise de préférence humaine issue de TuneJury, un classifieur par paires jumelles entraîné sur des ensembles de données ouvertes de préférences musicales. Cette récompense sert à la fois de signal de conditionnement lors de l'entraînement et de critère de sélection d'échantillons. Le pipeline combine cinq décisions d'ingénierie sur un modèle de base FluxAudio-S de 120M de paramètres, quatre lors de l'entraînement et une lors de l'inférence : (i) un conditionnement par récompense lors de l'entraînement, qui fait également office d'axe CFG lors de l'inférence, (ii) un balayage sur cinq architectures de conditionnement par score, où l'entraînement et l'inférence utilisent des variantes différentes, (iii) une itération experte sur le décile supérieur, (iv) un court passage de réglage par préférence (CRPO) pour l'alignement audio-texte, et (v) un post-traitement d'inférence via CFG conjoint, séparation de sources et normalisation de l'intensité sonore. Une décomposition par étape sur 100 prompts de Song Describer montre que le conditionnement par récompense lors de l'entraînement constitue un axe de conditionnement fonctionnel, que l'itération experte est le contributeur dominant, que le passage de réglage par préférence n'apporte qu'un gain de niveau de bruit, et que le scalaire de score d'inférence est déjà saturé à la fin de la chaîne.
Les grands modèles de langage (LLM) sont de plus en plus utilisés pour soutenir le développement logiciel, mais leur utilité pratique dans des contextes appliqués de développement de jeux reste peu explorée, en particulier lorsque le code généré doit être intégré dans un système logiciel de jeu existant. Cet article présente une étude de cas empirique exploratoire de GPT-4o dans un runner infini personnalisé en Python/Pygame. L'étude examine six tâches de développement sélectionnées : trois tâches de refactorisation localisée et trois tâches impliquant la génération de fonctionnalités de gameplay. Les implémentations résultantes ont été évaluées à l'aide de métriques logicielles, de tests unitaires et d'évaluations manuelles du gameplay. Dans cette étude de cas, les trois tâches de refactorisation sélectionnées ont été réalisées avec succès en termes fonctionnels, tandis qu'une seule des trois tâches de génération de fonctionnalités de gameplay a abouti à une fonctionnalité correctement intégrée. Les résultats suggèrent que, dans ce contexte, GPT-4o a géré les transformations localisées de manière plus fiable que les tâches nécessitant de nouvelles interactions de gameplay à travers plusieurs systèmes existants. Compte tenu de la conception exploratoire à cas unique, ces résultats sont mieux interprétés comme des observations indicatives plutôt que comme des preuves généralisables de la performance du modèle au niveau catégoriel. Dans l'ensemble, l'article apporte un compte rendu transparent basé sur un cas des opportunités et des limites de la refactorisation assistée par LLM et de la génération de fonctionnalités de gameplay dans un système logiciel de jeu existant.
À mesure que les zones urbaines s'étendent, la surveillance automatique des parkings devient essentielle pour des villes efficaces et durables. Ce travail propose une approche auto-supervisée pour la reconnaissance de l'occupation des places de stationnement, ne nécessitant aucun échantillon étiqueté provenant du parking cible. S'appuyant sur un protocole de réglage fin par apprentissage par transfert auto-supervisé, la stratégie d'entraînement proposée comprend deux étapes auto-supervisées : d'abord sur des données génériques non étiquetées, puis sur des données spécifiques à la cible non étiquetées, suivies d'un réglage fin supervisé utilisant uniquement les étiquettes de parkings génériques. Nous adoptons SimCLR avec un encodeur ResNet-50 et évaluons la méthode selon un protocole de validation croisée inter-environnements avec un retrait sur trois ensembles de données publics : PKLot, CNRPark-EXT et PLds. Nous introduisons également une stratégie de déploiement en deux étapes dans laquelle un Modèle Général Fort est initialement déployé, suivi d'un Modèle Spécialisé qui intègre de manière auto-supervisée des images non étiquetées collectées durant les N premiers jours de déploiement. Les résultats expérimentaux montrent que le Modèle Général Fort seul surpasse les références supervisées et auto-supervisées, atteignant une précision moyenne de 97,2 %, qui s'améliore encore à 97,8 % avec la stratégie en deux étapes proposée. Ces résultats démontrent que l'apprentissage auto-supervisé permet une solution évolutive et efficace en termes d'étiquetage pour la surveillance réelle de l'occupation des parkings. Nos modèles entraînés et notre code source sont disponibles publiquement à l'adresse https://github.com/LoanMaikon/Parking-Spot-Occupancy-Recognition.