Articles de recherche IA sélectionnés quotidiennement avec traductions
Les compétences des agents sont aujourd'hui conçues de manière artisanale, générées en un seul passage, ou évoluées via une auto-révision faiblement contrôlée ; aucune de ces approches ne se comporte comme un optimiseur d'apprentissage profond pour la compétence, et aucune n'améliore de manière fiable son point de départ sous l'effet du retour d'information. Nous soutenons que la compétence devrait plutôt être entraînée comme l'état externe d'un agent figé, avec la même rigueur qui rend l'optimisation de l'espace des poids reproductible. SkillOpt est, à notre connaissance, le premier optimiseur systématique et contrôlable dans l'espace textuel pour les compétences d'agent : un modèle optimiseur distinct transforme des déroulements notés en éditions bornées d'ajout/suppression/remplacement sur un document de compétence unique, et une édition n'est acceptée que lorsqu'elle améliore strictement un score de validation sur un ensemble de retenue. Un budget de taux d'apprentissage textuel, un tampon d'éditions rejetées et une mise à jour lente/méta par époque rendent l'entraînement des compétences stable, tout en n'ajoutant aucun appel de modèle en inférence lors du déploiement. Sur six référentiels, sept modèles cibles et trois environnements d'exécution (chat direct, Codex, Claude Code), SkillOpt est le meilleur ou ex æquo sur la totalité des 52 cellules (modèle, référentiel, environnement) évaluées et bat tous ses concurrents par cellule parmi les compétences humaines, générées par LLM en un seul passage, Trace2Skill, TextGrad, GEPA et EvoSkill. Sur GPT-5.5, il augmente la précision sans compétence moyenne de +23,5 points en chat direct, de +24,8 points à l'intérieur de la boucle agentique Codex, et de +19,1 points à l'intérieur de Claude Code. Les expériences de transfert montrent en outre que les artefacts de compétence optimisés conservent leur valeur lorsqu'ils sont déplacés entre échelles de modèle, entre environnements d'exécution Codex et Claude Code, et vers un référentiel de mathématiques proche sans optimisation supplémentaire.
Les Transformers de Diffusion (DiTs) sont devenus une architecture de facto pour la génération visuelle moderne, et presque tous les axes majeurs de leur conception — tokenisation, attention, conditionnement, objectifs et autoencodeurs latents — ont été largement revisités. Le flux résiduel qui régit la manière dont l'information s'accumule à travers les couches a cependant été directement hérité du Transformer original. Dans cet article, nous présentons une analyse empirique systématique du flux d'information inter-couches dans les DiTs, à la fois en profondeur et en fonction du pas de temps de débruitage, et identifions trois symptômes concrets de l'addition résiduelle traditionnelle, à savoir l'inflation monotone de la magnitude vers l'avant, la décroissance brutale du gradient vers l'arrière et une redondance marquée au niveau des blocs. Motivés par ce diagnostic, nous proposons le Routage Adaptatif à la Diffusion (DAR), un remplacement résiduel prêt à l'emploi qui effectue une agrégation apprenable, adaptative en fonction du pas de temps et non incrémentale de l'historique des sorties des sous-couches. De plus, le DAR proposé est compatible avec de nombreuses méthodes modernes d'amélioration des Transformers, telles que REPA. Sur ImageNet 256×256, DAR améliore SiT-XL/2 de 2,11 FID (7,56 contre 9,67) et atteint la qualité convergée de la référence avec 8,75 fois moins d'itérations d'entraînement. Superposé à REPA, il offre une accélération de l'entraînement d'un facteur 2 en phase précoce, suggérant que le routage d'information inter-couches constitue un axe de conception sous-exploré dans la modélisation par diffusion, opérant orthogonalement aux objectifs d'alignement de représentation existants. Au-delà du pré-entraînement, DAR peut également être appliqué lors de la phase de fine-tuning de modèles T2I à grande échelle et préserve les détails haute fréquence durant la Distillation par Appariement de Distribution.
Nous présentons Lens, un modèle T2I de 3,8 milliards de paramètres dont les performances sont compétitives, et dans plusieurs cas supérieures, à celles de modèles de pointe de plus de 6 milliards de paramètres sur divers benchmarks, tout en nécessitant un coût d’entraînement nettement inférieur. Par exemple, Lens ne requiert qu’environ 19,3 % du coût d’entraînement de Z-Image. L’efficacité d’entraînement de Lens découle de deux stratégies clés au-delà de sa taille compacte. Premièrement, nous maximisons la densité d’information des données par lot d’entraînement en (i) entraînant sur Lens-800M, un jeu de données de 800 millions de paires image-texte densément légendées, dont les légendes sont générées par GPT-4.1 et contiennent en moyenne environ 109 mots, offrant ainsi une supervision sémantique plus riche que les légendes courtes conventionnelles, et (ii) en construisant chaque lot à partir d’images de multiples résolutions et de rapports d’aspect divers, élargissant ainsi la couverture visuelle effective de chaque étape d’optimisation. Deuxièmement, nous accélérons la vitesse de convergence grâce à des choix architecturaux soignés, notamment l’adoption d’un VAE sémantique offrant de meilleures représentations latentes et l’emploi d’un encodeur de langage puissant qui accélère l’optimisation tout en permettant une généralisation multilingue à partir de données d’entraînement exclusivement en anglais. Après le pré-entraînement, nous appliquons du RL avec des invites guidées par une taxonomie (Lens-RL-8K) et des rubriques de récompense structurées pour supprimer les artefacts et améliorer la qualité visuelle, un module raisonneur avec recherche d’invite sans entraînement pour mieux aligner les requêtes utilisateur avec le modèle, et une accélération par distillation pour l’inférence en 4 étapes. Grâce à un entraînement efficace et une optimisation systématique, Lens généralise à des rapports d’aspect arbitraires allant de 1:2 à 2:1 et des résolutions jusqu’à 1440², et prend en charge les invites dans plusieurs langues courantes. De par sa taille compacte, Lens génère une image de 1024² en 3,15 secondes sur un seul GPU NVIDIA H100, tandis que sa version turbo distillée effectue une génération en 4 étapes en 0,84 seconde.
La croissance exponentielle de la production académique mondiale a confronté les chercheurs et les agents d'IA à une « explosion informationnelle » sans précédent, où l'organisation fragmentée et non structurée des connaissances entrave une intégration interdisciplinaire approfondie. Les outils de recherche académique actuels reposent principalement sur un appariement superficiel par mots-clés ou une recherche sémantique vectorielle, dépourvus des capacités de raisonnement topologique nécessaires pour naviguer dans des connexions logiques complexes. Les cadres fondés sur la recherche profonde agentique sont souvent sujets à des hallucinations logiques et à des coûts d'inférence élevés. Pour combler cette lacune, nous présentons dans ce rapport SciAtlas, un graphe de connaissances de ressources académiques hétérogène, multidisciplinaire et à grande échelle, conçu comme un réseau panoramique d'évolution scientifique. En intégrant plus de 43 millions de publications issues de 26 disciplines, ainsi qu'un total de 157 millions d'entités et 3 milliards de triplets, SciAtlas offre un substrat cognitif topologique structuré qui démantèle les barrières disciplinaires et dote les agents d'IA d'une perspective globale. De plus, nous développons un algorithme de recherche neuro-symbolique caractérisé par un rappel collaboratif à trois voies et un réordonnancement par graphe, permettant une transition fluide de l'appariement sémantique simple à la découverte d'associations déterministes. Nous présentons également les principales orientations applicatives de SciAtlas, notamment la revue de la littérature, la synthèse automatisée des tendances de recherche, le positionnement d'idées et l'exploration de trajectoires académiques, afin de démontrer que SciAtlas peut servir de « carte cognitive » efficace pour autonomiser l'ensemble du cycle de la recherche scientifique automatisée tout en réduisant considérablement les coûts de raisonnement. Nous avons publié les interfaces de recherche dans le graphe de connaissances et diverses tâches en aval dans notre dépôt GitHub.
La modélisation audio-langage unifiée est devenue une tendance majeure dans les systèmes vocaux modernes, promettant d'apporter les capacités de raisonnement des grands modèles de langage aux tâches auditives. Cependant, les modèles de base unifiés existants peinent souvent à égaler la profondeur des systèmes spécialisés dans des domaines tels que la reconnaissance automatique de la parole (ASR), la synthèse vocale (TTS) et l'interaction parlée en temps réel. Combler cet écart reste un défi ouvert. Ce rapport présente StepAudio 2.5, un modèle de base audio-langage unifié qui atteint ou dépasse les performances des systèmes spécialisés dans ces trois capacités. Plutôt que de traiter ces tâches comme architecturalement distinctes, nous partons du principe qu'une fois que le texte et l'audio partagent un espace représentationnel multimodal, la spécialisation des tâches devient une question de régimes opérationnels : construction des données, objectifs d'optimisation et contraintes de décodage. Guidés par cette idée, nous faisons évoluer le paradigme du post-entraînement, passant de l'apprentissage supervisé standard à l'apprentissage par renforcement à partir de feedback humain (RLHF) adapté aux tâches, en l'utilisant comme mécanisme principal pour définir des objectifs d'optimisation complexes. Nous tirons parti de cet alignement centré sur le RLHF, ainsi que d'un décodage spécialisé, pour configurer un tronc commun en trois modes opérationnels distincts. Concrètement, la branche ASR améliore l'efficacité de la transcription via un décodage vérifiable à plusieurs tokens ; la branche TTS réalise une synthèse contrôlable et expressive grâce à un RLHF basé sur les préférences et une supervision riche en contexte ; et la branche Temps réel permet des dialogues à faible latence et cohérents avec la personnalité via une modélisation générative des récompenses dans un cadre RLHF. Sur des benchmarks standard, StepAudio 2.5 obtient des résultats de pointe en ASR, TTS et Temps réel, démontrant qu'un seul modèle de base audio-langage peut internaliser avec succès les objectifs de déploiement distincts de la compréhension de la parole, de la génération vocale et de l'interaction en direct.
Nous présentons SWIM (See What I Mean), une nouvelle stratégie d'entraînement qui aligne les représentations visuelles et linguistiques pour permettre une compréhension fine des objets uniquement à partir de prompts textuels. Contrairement aux approches existantes qui nécessitent des prompts visuels explicites, tels que des masques ou des points, SWIM exploite la supervision par masque uniquement pendant l'entraînement pour guider l'attention cross-modale, permettant au modèle de se focaliser automatiquement sur l'objet spécifié par l'utilisateur lors de l'inférence. Notre analyse de l'attention croisée des modèles de langage multimodaux pré-entraînés (MLLMs) révèle une divergence systématique : les mots d'attribut produisent des activations nettes et localisées dans la modalité visuelle, tandis que les noms d'objets génèrent des motifs diffus et dispersés en raison d'un biais de référence sémantique et de représentations distribuées de haut niveau. Pour remédier à ce désalignement, nous construisons NL-Refer, un ensemble de données enrichi, dans lequel chaque masque d'objet est associé à une expression référentielle précise en langage naturel. SWIM extrait des cartes d'attention croisée multi-couches à partir des noms d'objets et impose une cohérence spatiale avec les masques de vérité terrain. Les résultats expérimentaux démontrent que SWIM améliore considérablement l'alignement texte-visuel et atteint des performances supérieures aux méthodes basées sur des prompts visuels sur des benchmarks de compréhension fine des objets. Le code et les données sont disponibles à l'adresse https://github.com/HumanMLLM/SWIM.
Les agents linguistiques améliorent de plus en plus leur performance en réutilisant des compétences – des artefacts procéduraux structurés distillés à partir de l'expérience passée. En particulier, les compétences au niveau du domaine et celles générées par un modèle sont particulièrement prometteuses. Elles permettent une adaptation rapide au sein d'un domaine en codifiant des procédures récurrentes spécifiques à celui-ci, et elles passent à l'échelle au-delà de l'artisanat intensif en main-d'œuvre. Cependant, alors que les méthodes d'extraction continuent de se multiplier, la compréhension reste limitée, sans étude exhaustive couvrant l'ensemble du cycle de vie des compétences – génération d'expérience, extraction de compétences et consommation de compétences – pour se demander si ces compétences fonctionnent réellement, quand elles fonctionnent, et ce qui les rend efficaces ou non. Pour combler cette lacune, nous construisons un cadre d'évaluation ancré dans l'utilité qui fournit des résultats expérimentaux systématiques à travers différents extracteurs et agents cibles, couvrant cinq domaines de tâches agentiques variés. Nous constatons que les compétences générées par un modèle sont bénéfiques en moyenne, mais présentent un transfert négatif non négligeable, et que ni les extracteurs ni les cibles ne se comportent de manière uniforme. Un modèle peut être un extracteur performant mais un consommateur faible, ou vice versa, avec une utilité des compétences indépendante de l'échelle du modèle ou de la force de base de la tâche. Pour expliquer ces schémas, nous disséquons ensuite chaque étape du cycle de vie en profondeur, en analysant comment la composition de l'expérience façonne la qualité des compétences, quelles propriétés caractérisent les compétences utiles, et comment une même compétence se transfère entre différents consommateurs. Enfin, nous traduisons ces résultats en une méta-compétence concrète qui guide l'extraction des compétences vers les caractéristiques liées à l'utilité réelle, ce qui améliore systématiquement la qualité des compétences dans tous les domaines et réduit considérablement le transfert négatif.
La plupart des systèmes pratiques de génération texte-image haute résolution, y compris les modèles de diffusion latente et autorégressifs, effectuent la génération dans un espace latent compact, et un décodeur reconvertit les latents générés en pixels. Pourtant, le décodeur latent-à-pixel est orienté reconstruction, optimisé pour inverser l'encodeur plutôt que pour synthétiser davantage de détails, et devient de plus en plus coûteux à l'échelle mégapixel. Cet inconvénient appelle un paradigme de décodage plus expressif et plus efficace. Motivés par les progrès récents de la diffusion pixel à grande échelle, nous introduisons PiD, un décodeur à diffusion pixel qui reformule le décodage latent comme une diffusion pixel conditionnelle, unifiant le décodage et le suréchantillonnage en un seul module génératif. En débruitant directement dans l'espace pixel haute résolution, PiD synthétise des images suréchantillonnées par 4× et même 8× avec une faible latence. Pour le conditionnement latent, un adaptateur léger sensible à sigma injecte des latents corrompus par le bruit dans le réseau principal de diffusion pixel, permettant à PiD de décoder des latents partiellement débruités et de terminer le processus de diffusion latente plus tôt. Pour améliorer encore l'efficacité, nous distillons le modèle à l'aide de DMD2, réduisant l'inférence à seulement 4 étapes. PiD s'applique à la fois aux latents VAE conventionnels et aux latents sémantiques (par exemple, SigLIP, DINOv2) utilisés dans les modèles récents basés sur RAE. PiD décode des latents d'images de 512×512 pixels en 2048×2048 pixels en moins d'une seconde avec une mémoire maximale de 13 Go sur un RTX 5090 grand public, et aussi rapidement qu'en 210 ms sur un GPU GB200, soit environ 6× plus rapidement que les pipelines de super-résolution basés sur la diffusion en cascade, avec une meilleure fidélité visuelle.
La photographie virtuelle demande à un agent d'entrer dans une scène 3D préparée sans pose de caméra pré-sélectionnée ni image de référence, d'inférer une prise de vue appropriée à partir des informations de la scène et d'une intention langagière, de choisir des paramètres de caméra exécutables, et d'effectuer le rendu de la photographie finale. Les progrès récents des modèles vision-langage rendent ce type d'agent spatial de plus en plus plausible, mais la tâche met en évidence deux capacités qui restent difficiles à évaluer ensemble : la compréhension spatiale 3D complexe et le jugement esthétique abstrait. Nous introduisons PhotoFlow, un agent Directeur-Examinateur-Réfléchisseur pour la recherche de caméra en boucle fermée. Le Directeur construit un plan photographique souple et propose diverses caméras candidates ; l'Examinateur combine des vérifications de règles, une critique visuelle et une sélection par paire du candidat en place ; et le Réfléchisseur convertit les échecs en mémoire de région, suppression de zones mortes et relocation à haute exploration. Nous introduisons également VPhotoBench, un benchmark de 47 scènes Blender sous licence ouverte et 141 missions de photographie conditionnées par le langage, couvrant le placement du sujet, la composition relationnelle et l'atmosphère/style. Lors d'expériences sur des données de validation, PhotoFlow obtient le meilleur composite de qualité-alignement externe et le meilleur taux de réussite parmi la prédiction en un coup, la réflexion en chaîne unique, la sélection par banque d'ancres et la recherche aléatoire sous un budget de rendu de six tours. À notre connaissance, il s'agit du premier travail à faire de la photographie virtuelle conditionnée par le langage dans des scènes Blender arbitraires une tâche d'agent exécutable, et nos résultats montrent qu'un agent spatial centré sur un LLM peut déjà produire des photographies de qualité dans un cadre conçu pour défier à la fois le raisonnement 3D et le choix esthétique.
Le raisonnement spatio-temporel est une capacité centrale pour les modèles de langage multimodaux à grande échelle (MLLMs) opérant dans le monde réel. À ce titre, son évaluation précise constitue un défi essentiel. Cependant, les ensembles de données de référence existants pour le raisonnement spatio-temporel reposent principalement sur des ensembles d'images statiques ou des données vidéo passivement organisées, ce qui limite l'évaluation des capacités de raisonnement à granularité fine. Dans cet article, nous présentons VGenST-Bench, un benchmark vidéo qui utilise des modèles génératifs pour synthétiser activement des scénarios d'évaluation hautement contrôlés et diversifiés. Pour construire VGenST-Bench, nous proposons un pipeline multi-agent intégrant une étape de contrôle qualité humain, garantissant la qualité de toutes les vidéos et paires de questions-réponses générées. Nous établissons une taxonomie vidéo complète 3x2x2, couvrant l'échelle spatiale, la perspective et la dynamique des scènes afin de représenter divers scénarios. De plus, nous concevons une suite hiérarchique de tâches qui dissocie la perception visuelle de bas niveau du raisonnement spatio-temporel de haut niveau. En faisant passer le paradigme de la curation passive à la synthèse active, VGenST-Bench permet un diagnostic fin de la compréhension spatio-temporelle dans les MLLMs.
Les modèles autorégressifs discrets (AR) de génération texte-image (T2I) associent un tokenizer VQ à une politique AR, et les pipelines de post-entraînement actuels n'optimisent que la politique tout en maintenant le décodeur VQ gelé. Des travaux récents sur la génération T2I par diffusion, illustrés par REPA-E, ont montré que le VAE lui-même constitue un goulot d'étranglement clé pour l'alignement, mais aucune investigation analogue n'existe pour les modèles AR discrets. Nous montrons que l'optimisation de la politique seule induit un Décalage des Covariables Latentes : à mesure que la politique évolue, la distribution des tokens résultante s'écarte de la distribution de vérité terrain sur laquelle le décodeur a été entraîné, de sorte que les scores de récompense s'améliorent tandis que la qualité des images décodées se dégrade. Pour remédier à ce décalage, nous proposons RankE, le premier cadre de post-entraînement de bout en bout pour la génération T2I discrète. Plutôt que d'optimiser la politique par rapport à un décodeur fixe, RankE fait co-évoluer les deux composants via une optimisation alternée : chaque module maximise un objectif d'alignement basé sur le classement tout en étant régularisé par une ancre préservant la stabilité adaptée à son espace de paramètres. Cette co-évolution brise le compromis fidélité-alignement qui affecte les approches à décodeur gelé : sur LlamaGen-XL (775M), le RL standard améliore le CLIP mais dégrade le FID, tandis que RankE améliore les deux simultanément (FID 15.21, CLIP 33.76 sur MS-COCO 30K). Des gains cohérents sur Janus-Pro (1B) confirment que la co-évolution du décodeur convertit de manière fiable l'optimisation des récompenses en améliorations de la qualité dans l'espace des pixels.
Les grands modèles de langage multimodaux ont fait progresser le raisonnement visuel, mais une chaîne de pensée purement textuelle reste un goulot d'étranglement pour les questions nécessitant une attention fine ou des transformations de points de vue. Le paradigme « penser avec des images » réduit cet écart, mais les approches existantes sont soit contraintes par des boîtes à outils fixes prédéfinies, soit produisent des images intermédiaires bruitées à partir de méthodes multimodales unifiées. Nous explorons une troisième option : utiliser un modèle dédié d'édition d'image et le découpler d'un modèle de compréhension. Cependant, les éditeurs d'image prêts à l'emploi échouent en tant qu'assistants de raisonnement, avec deux lacunes complémentaires : une lacune du côté langage, où les éditeurs entraînés comme suiveurs passifs d'instructions ne peuvent pas mapper une question abstraite en une transformation visuelle appropriée, et une lacune du côté génération, où la correction de l'édition se dégrade à mesure que la profondeur du raisonnement augmente. Guidés par cette analyse, nous introduisons ETCHR (Editing To Clarify and Harness Reasoning — Édition pour Clarifier et Exploiter le Raisonnement), un éditeur d'image conditionné par la question et conscient du raisonnement, découplé du modèle de compréhension en aval, et entraîné avec une recette en deux étapes ciblant ces deux lacunes : Imitation du Raisonnement via un fine-tuning supervisé sur des trajectoires d'édition, suivie d'Amélioration du Raisonnement avec des récompenses dérivées du VLM pour la correction de l'édition et la précision du raisonnement en aval. Grâce au découplage de l'éditeur, ETCHR s'intègre dans différents MLLMs open-source et closed-source de manière sans apprentissage. Sur cinq familles de tâches (perception fine, compréhension de graphiques, raisonnement logique, restauration de puzzles et compréhension 3D), ETCHR augmente le Pass@1 moyen de 55,95 à 60,77 (+4,82) avec Qwen3-VL-8B, de 65,08 à 70,55 (+5,47) avec Gemini-3.1-Flash-Lite, et de 76,55 à 81,16 (+4,61) avec le modèle MoE à 1T de paramètres Kimi K2.5.
Les modèles de monde interactifs pour les jeux de tir à la première personne (FPS) doivent résoudre des signaux de contrôle superposés à haute fréquence à chaque image sans perturber les régions non affectées. Les méthodes existantes injectent des actions globalement et s’entraînent sur des titres uniques, échouant sous des entrées FPS denses. Nous observons que les actions FPS sont sélectives spatialement : les événements discrets tels que le tir ou le rechargement n’affectent qu’une région localisée autour de l’arme (la portée), tandis que les signaux de caméra et de mouvement continus gouvernent les environnements stables. Nous proposons SCOPE, qui insère un module de conditionnement dans chaque bloc transformer d’un modèle de diffusion vidéo pré-entraîné. Il remodèle les caractéristiques en séquences temporelles par pixel afin que chaque position calcule sa réponse d’action à partir du contenu visuel local. Cela sépare les effets dans la portée de la génération hors portée sans étiquettes de segmentation. Nous introduisons également CrossFPS, le premier ensemble de données multi-jeux FPS avec télémétrie d’action alignée sur les images. Il comprend 69 000 clips provenant de 7 titres avec des signaux de contrôle à 10 degrés de liberté, organisés pour éliminer les biais de jeu. Le modèle apprend des correspondances visuelles-actions générales plutôt que des motifs spécifiques à chaque jeu, permettant un transfert zero-shot vers des scènes non vues. Les expériences confirment une forte réactivité aux actions, une séparation précise de la portée et une généralisation efficace entre jeux.
Les lois d'échelle existantes pour les grands modèles de langage (LLMs), principalement des lois de puissance monotones, ne parviennent pas à expliquer les phénomènes émergents non monotones tels que le surentraînement catastrophique et la dégradation induite par la quantification, où les performances se détériorent malgré une augmentation du calcul. Nous proposons la loi d’échelle de Shannon, un cadre théorique unifié qui modélise l’entraînement des LLMs comme une transmission d’information sur un canal bruité, fondé sur le théorème de Shannon-Hartley. En faisant correspondre les paramètres du modèle à la largeur de bande du canal et les tokens d’entraînement à la puissance du signal, notre formulation capture explicitement l’interaction entre le signal d’apprentissage et le bruit intrinsèque. Cette perspective révèle une capacité de Shannon fondamentale pour les LLMs : augmenter la taille du modèle ou les données sans préserver un rapport signal sur bruit (SNR) suffisant amplifie inévitablement le bruit, induisant une transition d’une amélioration monotone à une dégradation des performances en forme de U. Nous validons notre théorie par des expériences sur Pythia et OLMo2 sous perturbations, incluant le bruit gaussien, la quantification et l’ajustement supervisé sur des tâches de mathématiques, de questions-réponses et de code. La loi d’échelle de Shannon surpasse systématiquement les lois d’échelle classiques et les lois récentes tenant compte des perturbations, obtenant des scores R² élevés et capturant précisément les bassins de perte manqués par les approches antérieures. Elle permet également l’extrapolation : ajustée sur des modèles Pythia ≤ 6,9B avec ≤ 180B tokens, elle prédit le modèle 12B non observé jusqu’à 307B tokens avec un R² poolé de 0,847, tandis que les lignes de base monotones s’effondrent.
Les récentes avancées dans les modèles vision-langage (VLM) mettent l'accent sur le raisonnement en chaîne de pensée longue ; pourtant, nous constatons que leurs performances sur les tâches visuelles sont principalement limitées par un manque de perception visuelle plutôt que par le raisonnement lui-même. Dans ce travail, nous étudions systématiquement l'interaction entre perception et raisonnement dans le post-entraînement des VLM en décomposant leurs capacités en trois étapes d'entraînement distinctes : la perception visuelle, le raisonnement visuel et le raisonnement textuel, intégrant des données d'entraînement spécialisées. Nous démontrons que la perception visuelle (a) nécessite une optimisation ciblée avec des données spécialisées ; (b) sert d'échafaudage fondamental qui doit être consolidé par un entraînement par étapes avant d'affiner le raisonnement visuel ; et (c) est apprise plus efficacement via l'apprentissage par renforcement (RL) que via le réglage fin supervisé (SFT) basé sur des légendes. Nos expériences sur plusieurs VLM montrent que l'entraînement par étapes améliore systématiquement à la fois la perception visuelle et les performances de raisonnement par rapport à l'entraînement fusionné. Notamment, les modèles entraînés avec notre approche atteignent une précision de raisonnement supérieure de 1,5 % avec des traces de raisonnement 20,8 % plus courtes, ce qui suggère qu'une perception supérieure réduit le besoin de raisonnement excessif. De plus, nous montrons que cette segmentation par capacités représente une nouvelle dimension de curriculum orthogonale aux curricula traditionnels basés sur la difficulté, et que leur combinaison produit des gains additifs supplémentaires. Nos modèles entraînés par étapes obtiennent des performances supérieures parmi les VLM à poids ouverts, établissant des résultats avancés sur plusieurs tâches de mathématiques visuelles et de perception (par exemple, +5,2 % sur WeMath et +3,7 % sur RealWorldQA) par rapport à leur équivalent de base.
La génération de vidéos contrôlée par caméra a connu des progrès remarquables ces dernières années. Cependant, les méthodes existantes de re-rendu vidéo-à-vidéo reposent principalement sur le fine-tuning supervisé utilisant des ensembles de données synthétiques. Actuellement, il existe une extrême rareté de données vidéo réelles synchronisées et multi-vues. Par conséquent, le paradigme dominant présente souvent une généralisation limitée lors du traitement de vidéos réelles hors distribution, les modèles peinant à respecter avec précision les échelles physiques et les trajectoires de caméra. Pour combler cette lacune, nous proposons Geo-Align, le premier cadre d'apprentissage par renforcement spécifiquement conçu pour le re-rendu vidéo contrôlé par caméra. Bâti sur un modèle pré-entraîné, nous optimisons le modèle via un mécanisme de récompense perceptuelle consciente de l'échelle. Plus précisément, nous introduisons un estimateur 3D métrique pour extraire des trajectoires de caméra précises à partir des vidéos générées, pénalisant explicitement les écarts en rotation et translation. De plus, nous avons méticuleusement conçu une stratégie de pipeline de données basée sur des vidéos de conditionnement réelles et des trajectoires de caméra cibles dérivées de données synthétiques, éliminant ainsi la dépendance aux données appariées. Des expériences approfondies montrent que Geo-Align surpasse systématiquement les lignes de base existantes d'apprentissage supervisé à la fois en termes de contrôlabilité précise de la caméra et de fidélité visuelle, indiquant l'efficacité de notre méthode.
Muon est un optimiseur prenant en compte la structure matricielle qui exploite les itérations de Newton-Schulz (NS) pour imposer une orthogonalisation spectrale du gradient en ramenant toutes les valeurs singulières de la matrice de momentum vers 1. Bien que ce blanchiment spectral uniforme améliore l'exploration et surpasse AdamW dans le pré-entraînement des LLM, nous montrons qu'il peut conduire à des limitations fondamentales au-delà du pré-entraînement dans deux régimes : (i) l'entraînement cross-modal vision-langage-action (VLA), où les gradients intrinsèquement de faible rang du module d'action provoquent une amplification des directions de queue bruitées, et (ii) l'apprentissage par renforcement avec récompenses vérifiables (RLVR), où les gradients à faible SNR et la nécessité de préserver la spécialisation par tête issue de l'entraînement préalable rendent le blanchiment instable. Pour relever ces défis, nous proposons Pion, un remplacement direct de Muon qui préserve son efficacité computationnelle tout en substituant le blanchiment spectral uniforme par un mécanisme en deux étapes de Promotion+Suppression, que nous appelons itération NS passe-haut. Cette conception induit un effet spectral passe-haut marqué, ancrant les valeurs singulières dominantes à 1 tout en supprimant les composantes de queue bruitées vers 0, avec une force de filtrage contrôlable. Pour préserver l'hétérogénéité par tête issue du pré-entraînement, Pion supporte également un mode par tête qui applique les mises à jour indépendamment sur chaque tête d'attention via un simple redimensionnement, sans surcoût. Dans l'entraînement VLA sur LIBERO et LIBERO-Plus, Pion surpasse systématiquement les deux bases de comparaison sur les architectures de régression l₁ (VLA-Adapter) et de flow matching (VLANeXt), par exemple en atteignant un taux de succès de 100 % sur LIBERO Object après 1 500 étapes d'entraînement avec VLA-Adapter, contre 97,0 % pour Muon et seulement 32,2 % pour AdamW. L'avantage de Pion s'étend également à un vrai robot Franka Research 3 avec un backbone pi₀,₅ dans la configuration DROID sur trois tâches de saisie et placement. Dans le post-entraînement RLVR sur Qwen3-1.7B/4B avec GRPO et GMPO, Pion surpasse également AdamW sur MATH et GSM8K tandis que Muon s'effondre à zéro.
Nous présentons une nouvelle approche pour la reconstruction de scènes 3D haute-fidélité à partir d'images RGB multi-vues, qui couple étroitement la reconstruction avec un a priori génératif 3D fort. Nous formulons la reconstruction de scène comme une génération 3D conditionnelle sur un ensemble de blocs chevauchants localisés spatialement qui, ensemble, tuilent la scène, permettant d'étendre la génération à de grandes étendues de scène. Crucialement, nous héritons de la fidélité et de l'exhaustivité des modèles génératifs de formes de pointe — nous utilisons Trellis.2 comme exemple — que nous généralisons au niveau de la scène. À cette fin, nous proposons un mécanisme de conditionnement basé sur la projection qui élève les caractéristiques d'images multi-vues posées en une représentation 3D cohérente alignée sur le modèle génératif, indépendante de l'ordre des vues et ancrée spatialement à la scène, produisant ainsi une géométrie générée de haute fidélité et cohérente multi-vues. Cela permet d'élever l'a priori objet fort de Trellis.2 vers une génération multi-vues à l'échelle de la scène, produisant des reconstructions de maillage PBR fidèles et éditables d'environnements intérieurs. En conséquence, nous obtenons des résultats haute-fidélité qui surpassent de 16 % les méthodes de reconstruction de pointe.
Modèles multimodaux unifiés (MMUs) obtiennent de bonnes performances en compréhension et en génération grâce à l'apprentissage d'un espace latent partagé, mais présentent souvent une incohérence fonctionnelle entre ces deux capacités. Nous observons que ce problème ne provient pas d'un manque de représentations partagées, mais de l'absence d'alignement explicite entre les transformations qui entrent et sortent de l'espace latent. En conséquence, la génération et le réencodage peuvent suivre des trajectoires incohérentes, conduisant à une dérive sémantique lors des transitions de modalités. Dans ce travail, nous proposons LatentUMM, un cadre qui construit un espace latent partagé amélioré pour aligner explicitement ces transformations et améliorer la cohérence inter-modale. LatentUMM se compose de deux étapes. Premièrement, l'alignement latent double impose la cohérence à la fois au niveau des modalités et des capacités : l'alignement inter-modal utilise un modèle d'embedding plus fort pour imposer une sémantique inter-modale structurée, tandis que l'alignement de double capacité impose une cohérence bidirectionnelle sous génération et réencodage. Deuxièmement, la stabilisation de la dynamique latente améliore la robustesse via des déploiements latents stochastiques et l'optimisation des préférences, favorisant les trajectoires qui préservent mieux la cohérence sémantique. Les expériences montrent que LatentUMM améliore systématiquement la cohérence multimodale à travers diverses architectures. Le code est disponible à : https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.
Les transformateurs de géométrie visuelle sont devenus des architectures puissantes pour la reconstruction 3D multi-vue, permettant la prédiction conjointe de plusieurs attributs 3D de manière directe. Cependant, leur coût de calcul croît de façon quadratique avec la longueur de la séquence d'entrée en raison des couches d'attention globale présentes dans ces modèles. Cela limite à la fois leur passage à l'échelle et leur efficacité. Dans ce travail, nous relevons ce défi avec une stratégie simple mais générale : restreindre le nombre de jetons clé/valeur avec lesquels chaque requête interagit lors de l'attention globale. Pour parvenir à une sélection de jetons efficace, nous introduisons un cadre en deux étapes. D'abord, une étape de sélection inter-trame opère au niveau des images pour identifier celles qui doivent être conservées. Ensuite, une étape de sélection intra-trame élimine davantage de jetons redondants au sein des images sélectionnées. Notre analyse met en évidence l'avantage d'une stratégie basée sur la diversité pour la sélection inter-trame, garantissant une large couverture de la scène. Pour la sélection intra-trame, nous montrons qu'un élagage conscient de la couche est nécessaire, le processus de sélection étant guidé par l'entropie du modèle d'attention globale. Notre approche offre un compromis vitesse-précision supérieur à celui des solutions existantes. Des expériences approfondies montrent qu'elle accélère les transformateurs de géométrie visuelle de plus de 85 % pour des scènes comprenant 500 images, tout en maintenant, voire en améliorant, les performances de référence, ce qui suggère que notre stratégie de sélection de jetons peut jouer un rôle crucial dans les futures applications des transformateurs de géométrie visuelle. Notre site web du projet est accessible à l'adresse https://zsh2000.github.io/good-token-hunting.github.io.
La prolifération rapide des Modèles Vision-Langage (MVL) est souvent présentée comme permettant une découverte unifiée des connaissances multimodales, mais elle repose sur une hypothèse insuffisamment examinée : celle que les MVL actuels synthétisent fidèlement les données multimodales. Nous soutenons qu’ils échouent souvent à le faire, et ce décalage révèle un problème de fiabilité au sein du paradigme dominant Encodeur Visuel-Projecteur-LLM. Plutôt que d’extraire des connaissances ancrées à partir des entrées visuelles, les modèles de pointe affichent fréquemment une cécité fonctionnelle, c’est-à-dire qu’ils exploitent de forts a priori linguistiques pour contourner de graves goulets d’étranglement dans la représentation visuelle. Dans ce travail, nous remettons en cause la méthodologie conventionnelle d’évaluation multimodale, qui repose sur l’ablation de données ou la création de nouveaux ensembles de données, confondant ainsi les biais de données avec les limitations architecturales. Nous proposons une rupture information-théorique : le Protocole de Traduction de Modalité, conçu pour quantifier ce que nous appelons le Coût de la Vision. En traduisant les charges sémantiques plutôt qu’en les ablatant, nous formulons trois nouvelles métriques — le Péage (PéV), la Malédiction (MaV) et le Sophisme (SoV) de la Vision — aboutissant au Critère de Suffisance Sémantique (CSS). De plus, nous émettons l’hypothèse d’une Loi de Divergence du Passage à l’Échelle Multimodal : à mesure que les moteurs linguistiques sous-jacents gagnent en capacités de raisonnement sans précédent, la pénalité du goulet d’étranglement des connaissances visuelles pourrait augmenter plutôt que diminuer. Nous soutenons que la communauté devrait dépasser le « gain multimodal » comme cible d’évaluation principale. En élevant le CSS d’une contrainte diagnostique passive à un plan architectural actif, nous fournissons une base pour guider la prochaine génération de systèmes d’IA vers un véritable raisonnement multimodal.
L’entraînement d’agents LLM à long horizon par apprentissage par renforcement est difficile car les récompenses de résultat éparses indiquent si une tâche réussit, mais ne précisent pas quelles actions intermédiaires ont causé ce résultat ni comment elles devraient être corrigées. Des méthodes récentes atténuent ce problème en générant des récompenses ou des indices textuels à partir des signaux action-sortie au niveau de chaque tour, ou en utilisant une auto-distillation conditionnée par les retours. Cependant, générer un retour à chaque tour est inefficace lorsque de nombreux tours intermédiaires sont déjà réussis ou neutres, et appliquer un retour à un tour fixe ou mal aligné échoue souvent à superviser les actions ayant contribué à l’échec. Pour combler cette lacune, nous proposons HINT-SD, un cadre d’auto-distillation ciblée qui utilise le recul sur l’ensemble de la trajectoire pour sélectionner les actions pertinentes pour l’échec et applique la distillation conditionnée par les retours uniquement sur les segments d’actions ciblés. Les expériences sur BFCL v3 et AppWorld montrent que notre méthode améliore la référence dense avec retour à chaque tour jusqu’à 18,80 % tout en atteignant un temps par étape d’entraînement 2,26 fois inférieur, ce qui suggère que la sélection de l’endroit où distiller est un facteur clé pour un entraînement d’agents à long horizon à la fois efficace et efficient.
Les grands modèles de langage (LLMs) ont démontré des capacités de raisonnement impressionnantes dans un large éventail de tâches, mais la contamination des données compromet l'évaluation objective de ces capacités. Ce problème est encore aggravé par des éditeurs de modèles malveillants qui utilisent des stratégies de contamination évasives, ou indirectes, comme la paraphrase des données de référence pour contourner les méthodes de détection existantes et gonfler artificiellement les performances dans les classements. Les approches actuelles peinent à détecter de manière fiable une telle contamination furtive. Dans ce travail, nous découvrons un phénomène critique : les étapes de raisonnement générées par un modèle masquent activement sa mémorisation sous-jacente. Inspirés par cela, nous proposons le Zero-CoT Probe (ZCP), une nouvelle méthode de détection en boîte noire qui tronque délibérément l'ensemble du processus de Chaîne de pensée (Chain-of-Thought, CoT) pour exposer les mappings de raccourcis latents. Pour isoler davantage la mémorisation des capacités intrinsèques de résolution de problèmes du modèle, ZCP compare les performances du modèle en mode zéro-CoT sur le benchmark original par rapport à un ensemble de données de référence perturbé de manière isomorphe. De plus, nous introduisons la Confiance de contamination (Contamination Confidence), une métrique qui quantifie à la fois la probabilité et la sévérité de la contamination, allant au-delà de simples classifications binaires. Des expériences approfondies sur des modèles contaminés précédemment identifiés ainsi que sur des modèles contaminés spécialement ajustés montrent que ZCP détecte de manière robuste à la fois la contamination directe et évasive des données. Le code de ZCP est accessible à l'adresse https://github.com/Yifan-Lan/zero-cot-probe.
La mise à l'échelle du calcul en phase de test par mise à jour itérative d'un état latent est devenue un paradigme puissant pour le raisonnement. Pourtant, les mécanismes internes qui permettent à ces modèles itératifs de généraliser au-delà de motifs mémorisés restent flous. Nous émettons l'hypothèse qu'un raisonnement généralisable émerge de l'apprentissage d'attracteurs conditionnés par la tâche : des systèmes dynamiques latents dont les points fixes stables correspondent à des solutions valides. Nous formalisons ce processus à travers les Raisonneurs d'Équilibre (EqR), qui permettent une mise à l'échelle au moment du test sans vérificateur externe ni a priori spécifique à la tâche. Les EqR dimensionnent la dynamique interne selon deux axes : la profondeur, en augmentant le nombre d'itérations, et la largeur, en agrégeant des trajectoires stochastiques issues de multiples initialisations. Empiriquement, les gains de la mise à l'échelle au moment du test sont étroitement liés à une convergence renforcée vers des attracteurs alignés sur la solution. Cette perspective d'attracteurs permet aux réseaux de neurones d'allouer de manière adaptative le calcul en phase de test en fonction de la difficulté de la tâche. Alors que les cas simples convergent en 1 à 5 itérations, les cas plus difficiles bénéficient d'une mise à l'échelle massive du calcul au moment du test. En déroulant jusqu'à l'équivalent de 40 000 couches, le raisonnement latent scalable améliore la précision de 2,6 % pour les modèles feedforward à plus de 99 % sur Sudoku-Extreme. Ces résultats suggèrent que les paysages d'attracteurs appris offrent une lentille mécaniste utile pour comprendre le raisonnement scalable dans les modèles latents itératifs.
La reconstruction IRM est un problème inverse intrinsèquement mal posé, car des mesures incomplètes admettent de nombreuses solutions plausibles. Cette ambiguïté s'accentue sous des taux d'accélération élevés, où les prédicteurs continus dans le domaine des pixels tendent à moyenner les reconstructions possibles et à supprimer les hautes fréquences anatomiques. Nous abordons cette limitation en transférant la reconstruction vers un espace latent discret multi-échelle et en la formulant comme une prédiction autorégressive de l'échelle d'accélération suivante. En exploitant des priors discrets dont l'efficacité en modélisation autorégressive visuelle a été démontrée, notre méthode restreint la solution à des séquences compactes de jetons de dictionnaire, permettant des reconstructions nettes même à partir de mesures extrêmement parcimonieuses. Cette formulation autorégressive discrète s'aligne également naturellement avec les techniques modernes de post-entraînement des grands modèles de langage. En nous appuyant sur cette observation, nous introduisons la distillation d'information privilégiée en ligne pour la modélisation autorégressive visuelle, où un enseignant reçoit lors de l'entraînement un contexte privilégié indisponible à l'inférence — dans notre cas, des acquisitions entièrement échantillonnées — et supervise un étudiant entraîné sur ses propres déploiements, ce qui conduit à des gains de reconstruction cohérents. À travers des expériences approfondies sur le benchmark fastMRI, nous montrons que notre approche offre des performances de reconstruction améliorées sur divers schémas d'échantillonnage en situation de sous-échantillonnage extrême. Le site web du projet est disponible à l'adresse https://yilmazkorkmaz1.github.io/discrete-mri-reconstruction-opd/{ici}.