Articles de recherche IA sélectionnés quotidiennement avec traductions
La planification d'itinéraires de transport en commun repose traditionnellement sur une infrastructure cartographique structurée et des moteurs de routage complexes, et aucun ensemble de données existant ne permet d'entraîner des modèles pour contourner cette dépendance. Nous présentons TransitLM, un ensemble de données à grande échelle comprenant plus de 13 millions d'enregistrements de planification d'itinéraires de transport en commun provenant de quatre villes chinoises, couvrant 120 845 stations et 13 666 lignes, publié comme corpus de pré-entraînement continu et données de référence pour trois tâches d'évaluation avec des métriques complémentaires. Les expériences montrant qu'un LLM entraîné sur TransitLM produit des itinéraires structurellement valides avec une haute précision et ancre implicitement des coordonnées GPS arbitraires aux stations appropriées sans aucune cartographie explicite. Ces résultats démontrent que la planification d'itinéraires de transport en commun peut être entièrement apprise à partir de données, permettant une génération d'itinéraires de bout en bout et sans carte directement à partir d'informations origine-destination. L'ensemble de données et les références sont disponibles à l'adresse https://huggingface.co/datasets/GD-ML/TransitLM, avec le code d'évaluation à https://github.com/HotTricker/TransitLM.
Les Modèles de Langage Multimodaux de Grande Taille (MLLMs) sont de plus en plus déployés dans des rôles en interaction humaine où la perception de la personnalité est cruciale, mais les benchmarks existants évaluent cette capacité uniquement sur la prédiction numérique des scores du Big Five, laissant en suspens la question de savoir si les modèles perçoivent véritablement la personnalité par une compréhension comportementale ou s'ils se contentent de préjuger par un appariement superficiel de motifs. Nous comblons cette lacune avec trois contributions. (i) Une nouvelle tâche : nous formalisons le Raisonnement de Personnalité Ancré (GPR), qui exige des MLLMs qu'ils ancrent chaque évaluation du Big Five dans des preuves observables via une chaîne d'évaluation, de raisonnement et d'ancrage. (ii) Un nouvel ensemble de données : nous publions MM-OCEAN (1 104 vidéos, 5 320 QCM), produit par un pipeline multi-agents avec vérification humaine, comprenant des observations comportementales horodatées, des analyses de traits fondées sur des preuves, et sept catégories de QCM d'ancrage aux indices. (iii) Benchmark et analyse : nous concevons une évaluation à trois niveaux (évaluation, raisonnement, ancrage) ainsi que quatre métriques de modes de défaillance au niveau des échantillons : Taux de Préjugé (PR), Taux de Confabulation (CR), Taux d'Échec d'Intégration (IR), et Taux d'Ancrage Holistique (HR), et nous évaluons 27 MLLMs (13 fermés, 14 ouverts). L'analyse révèle un Écart de Préjugé frappant : dans l'ensemble du domaine, 51 % des évaluations correctes ne sont pas ancrées dans les indices extraits, et le Taux d'Ancrage Holistique s'étend seulement de 0 % à 33,5 %. Ces résultats exposent un décalage entre l'obtention du bon score et le raisonnement pour la bonne raison, traçant une feuille de route pour une cognition sociale ancrée dans les MLLMs.
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) est devenu une technique centrale pour améliorer les capacités de raisonnement des grands modèles de langage. Malgré son efficacité, la manière dont les récompenses au niveau des réponses se traduisent en changements de probabilité au niveau des tokens reste mal comprise. Nous introduisons une perspective de discriminateur des mises à jour RLVR, montrant que la direction de mise à jour du gradient de politique agit implicitement comme un discriminateur linéaire sur les vecteurs de gradient des tokens et détermine ainsi quelles probabilités de tokens sont augmentées ou diminuées lors de l'apprentissage. Dans le cadre du RLVR standard au niveau de la séquence, ce discriminateur est construit à partir de centroïdes du côté positif et du côté négatif formés par le moyennage pondéré par l'avantage des vecteurs de gradient des tokens. Cependant, une telle construction de centroïdes peut être dominée par des motifs partagés à haute fréquence, tels que les tokens de formatage, diluant ainsi des directions clairsemées mais discriminatives qui distinguent mieux les réponses à récompense élevée de celles à faible récompense. Pour remédier à cette limitation, nous proposons DelTA, une méthode discriminative d'attribution de crédit aux tokens qui estime des coefficients de token pour amplifier les directions de gradient spécifiques à chaque côté et réduire le poids de celles partagées ou faiblement discriminatives. Ces coefficients repondèrent un approximant RLVR auto-normalisé, rendant les centroïdes effectifs par côté plus contrastifs et remodelant ainsi la direction de mise à jour du RLVR. Sur sept références mathématiques, DelTA surpasse les lignes de base les plus fortes à la même échelle de 3,26 et 2,62 points en moyenne sur Qwen3-8B-Base et Qwen3-14B-Base, respectivement. Des résultats supplémentaires sur la génération de code, un modèle de base différent, et des évaluations hors domaine démontrent en outre la capacité de généralisation de DelTA.
L'essor des agents assistants personnels, par exemple OpenClaw, met en évidence le potentiel croissant des grands modèles de langage pour accompagner les utilisateurs dans leur vie quotidienne et professionnelle. Un défi central dans ces contextes est l'assistance proactive, car les utilisateurs commencent souvent par des requêtes sous-spécifiées et omettent d'exprimer des besoins, contraintes ou préférences importants. Cependant, les benchmarks existants évaluent rarement la capacité des agents à identifier et à agir sur ces intentions cachées avant qu'elles ne soient explicitement formulées, en particulier dans des interactions prolongées à plusieurs tours où les besoins émergent progressivement. Pour combler cette lacune, nous présentons π-Bench, un benchmark pour l'assistance proactive comprenant 100 tâches multi-tours réparties sur 5 personas d'utilisateurs spécifiques à un domaine. En intégrant des intentions cachées, des dépendances inter-tâches et une continuité inter-sessions, π-Bench évalue la capacité des agents à anticiper et à répondre aux besoins des utilisateurs sur des interactions étendues, mesurant conjointement la proactivité et l'achèvement des tâches dans des trajectoires à long terme qui reflètent mieux les usages réels. Les expériences montrent (1) que l'assistance proactive reste difficile, (2) qu'il existe une distinction nette entre l'achèvement des tâches et la proactivité, et (3) la valeur des interactions antérieures pour la résolution proactive des intentions dans les tâches ultérieures.
L'inférence en contexte long dans les grands modèles de langage est limitée par le coût quadratique de l'attention complète. Les alternatives efficaces existantes reposent souvent soit sur un entraînement clairsemé natif, soit sur une éviction heuristique de tokens, créant un compromis indésirable entre efficacité, coût d'entraînement et précision. Dans ce travail, nous montrons que les LLMs à attention complète sont déjà intrinsèquement clairsemés et peuvent être transformés en modèles hautement clairsemés avec une adaptation minimale. Notre approche repose sur trois observations : (1) seule une petite sous-partie des têtes d'attention nécessite réellement un traitement complet en contexte long ; (2) la récupération à longue portée est principalement régie par un sous-espace de faible dimension, permettant de récupérer efficacement les tokens pertinents à l'aide d'un indexeur à 16 dimensions ; et (3) le budget de tokens utiles est fortement dépendant de la requête, ce qui rend la sélection dynamique top-p plus adaptée que la sparsification fixe top-k. Sur la base de ces observations, nous proposons RTPurbo, qui conserve l'intégralité du cache KV uniquement pour les têtes de récupération et introduit un indexeur de tokens léger pour l'attention clairsemée. En exploitant la clairsemé intrinsèque du modèle, RTPurbo parvient à une sparsification en seulement quelques centaines d'étapes d'entraînement. Les expériences sur des benchmarks de contexte long et des tâches de raisonnement montrent que RTPurbo préserve une précision quasi sans perte tout en offrant des gains d'efficacité substantiels, notamment une accélération du préremplissage jusqu'à 9,36 fois pour un contexte de 1M et une accélération du décodage d'environ 2,01 fois. Ces résultats suggèrent qu'une inférence clairsemée performante peut être obtenue à partir d'un entraînement standard à attention complète, sans nécessiter un pré-entraînement clairsemé natif coûteux.
Le développement récent des agents a renouvelé la demande de capacité de raisonnement sur de longs contextes des LLM. Cependant, l'entraînement des LLM pour cette capacité nécessite une curation coûteuse de longs documents ou une synthèse heuristique de contexte. Nous observons que les agents produisent des trajectoires massives lorsqu'ils résolvent des problèmes, invoquant des outils et recevant des observations de l'environnement sur de nombreux tours. Les preuves nécessaires pour répondre à la question originale sont donc dispersées à travers ces tours, nécessitant l'intégration de segments de contexte distants. Néanmoins, le SFT standard des agents masque les réponses des outils et n'entraîne que la sélection d'outils au niveau du tour, créant un angle mort de supervision où ces signaux dispersés restent inutilisés. Nous proposons la Compilation de Contexte d'Agent (ACC), qui convertit les trajectoires d'agents de recherche, de génie logiciel et d'interrogation de bases de données en paires questions-réponses sur de longs contextes combinant la question originale avec les réponses des outils et les observations de l'environnement recueillies sur plusieurs tours, entraînant le modèle à répondre directement sans utilisation d'outils. Cela rend explicites les dépendances entre la question et les preuves, permettant une supervision directe du raisonnement sur de longs contextes sur des segments distants sans annotation supplémentaire. ACC est une approche simple mais efficace qui peut être combinée avec toute méthode existante d'extension de long contexte ou d'entraînement, fournissant des données de fine-tuning supervisé évolutives. Nous validons ACC sur des tâches de modélisation de dépendances à longue portée via MRCR et GraphWalks, des benchmarks exigeants nécessitant une résolution de coréférence inter-tour et un parcours de graphe sur des contextes étendus. L'entraînement de Qwen3-30B-A3B avec ACC atteint 68,3 sur MRCR (+18,1) et 77,5 sur GraphWalks (+7,6), des résultats comparables à Qwen3-235B-A22B, tout en préservant les capacités générales sur GPQA, MMLU-Pro, AIME et IFEval. Une analyse mécanistique plus poussée révèle que le modèle entraîné avec ACC présente une restructuration adaptative de l'attention et une spécialisation experte.
Les actifs physiques 3D prêts pour la simulation sont devenus une direction prometteuse en raison de leur large applicabilité dans les tâches en aval. Cependant, la plupart des méthodes existantes de génération 3D ignorent les propriétés physiques ou se limitent à une seule catégorie d'actifs, par exemple les objets rigides, déformables ou articulés. Pour remédier à ces limitations, nous introduisons PhysX-Omni, un cadre unifié pour la génération physique 3D prête pour la simulation couvrant divers types d'actifs. Plus précisément, nous développons une représentation géométrique nouvelle et efficace adaptée aux Modèles Vision-Langage, qui encode directement des structures 3D à haute résolution sans compression, améliorant significativement les performances de génération. De plus, nous construisons le premier ensemble de données 3D général prêt pour la simulation, PhysXVerse, couvrant diverses catégories intérieures et extérieures. En outre, pour évaluer de manière complète et flexible les capacités de génération et de compréhension en conditions réelles, nous proposons PhysX-Bench, qui englobe six attributs clés : la géométrie, l'échelle absolue, le matériau, l'affordance, la cinématique et la description fonctionnelle. Des expériences approfondies avec des métriques conventionnelles et PhysX-Bench montrent que PhysX-Omni obtient de bonnes performances tant en génération qu'en compréhension. De plus, des études supplémentaires valident le potentiel de PhysX-Omni pour des applications telles que la génération de scènes prêtes pour la simulation et l'apprentissage de politiques robotiques. Nous pensons que PhysX-Omni peut considérablement faire progresser un large éventail d'applications en aval, en particulier dans l'IA incarnée et la simulation basée sur la physique.
Le raisonnement audiovisuel conjoint est essentiel pour une compréhension omnimodale, mais les modèles de langage multimodaux de grande taille (MLLMs) actuels peinent encore lorsque le raisonnement nécessite des preuves fines provenant des deux modalités. Une limitation centrale réside dans le fait que le raisonnement explicite en chaîne de pensée (CoT) basé sur le texte compresse les signaux audiovisuels continus en tokens discrets, affaiblissant ainsi l’ancrage temporel et orientant le raisonnement intermédiaire vers des a priori linguistiques. Nous soutenons qu’un espace latent unifié constitue un meilleur support pour un tel raisonnement, car il préserve une information sensorielle dense tout en restant compatible avec la génération autorégressive. Sur la base de cette intuition, nous proposons LatentOmni, un cadre de raisonnement cross-modal qui entrelace le raisonnement textuel avec des états latents audiovisuels. LatentOmni introduit une supervision au niveau des caractéristiques pour aligner les états latents de raisonnement avec les caractéristiques sensorielles pertinentes pour la tâche, et utilise l’Embedding de Position Omni-Sync (OSPE) pour maintenir la cohérence temporelle entre les états latents audio et visuels. Nous construisons en outre LatentOmni-Instruct-35K, un ensemble de données de trajectoires de raisonnement entrelacées audiovisuelles pour superviser le raisonnement dans l’espace latent. Une évaluation complète sur plusieurs benchmarks de raisonnement audiovisuel montre que LatentOmni atteint les meilleures performances parmi les modèles open-source évalués et surpasse systématiquement la baseline explicite Text CoT, soutenant ainsi le raisonnement conjoint dans l’espace latent comme une voie prometteuse vers une compréhension omnimodale plus robuste.
Les systèmes de tableurs (par exemple, Microsoft Excel, Google Sheets) jouent un rôle central dans les flux de travail modernes axés sur les données. Alors que les agents d’IA deviennent de plus en plus capables d’automatiser des tâches complexes, telles que le contrôle d’ordinateurs et la génération de présentations, la construction d’un agent de tableur basé sur l’IA est devenue une direction de recherche prometteuse. La plupart des agents de tableur existants reposent sur des incitations spécialisées appliquées à des LLM à usage général ; bien que cette conception ait du potentiel pour des opérations simples sur tableur, elle peine à gérer les flux de travail complexes et multi-étapes typiques des applications réelles. Nous présentons Spreadsheet-RL, un cadre d’affinage par apprentissage par renforcement (RL) conçu pour former des agents de tableur spécialisés dans un environnement réaliste de Microsoft Excel. Spreadsheet-RL intègre un pipeline automatisé de collecte à grande échelle de paires de feuilles de calcul de départ et d’arrivée issues de forums en ligne, ainsi que des tâches d’évaluation spécifiques à des domaines tels que la finance et la gestion de la chaîne d’approvisionnement, que nous compilons dans le nouvel ensemble de données de référence Domain-Spreadsheet. Il comprend également un environnement Spreadsheet Gym conçu pour le RL multi-tours : Spreadsheet Gym expose les fonctionnalités étendues d’Excel via un bac à sable Python, accompagné d’un harnais perfectionné intégrant un ensemble complet d’outils et des règles d’acheminement d’outils soigneusement conçues pour les tâches de tableur. À travers des expériences approfondies, nous montrons que Spreadsheet-RL améliore considérablement les performances des agents d’IA sur les tâches de tableur générales et spécifiques à un domaine : il fait passer le Pass@1 de Qwen3-4B-Thinking-2507 sur SpreadsheetBench de 12,0 % à 23,4 %, et augmente le Pass@1 de 8,4 % à 17,2 % sur notre ensemble de données Domain-Spreadsheet. Ces résultats soulignent le fort potentiel de généralisation et d’adoption réelle de Spreadsheet-RL dans l’automatisation des tableurs, et plus largement, sa promesse pour faire progresser les interactions basées sur les LLM avec les interfaces de données dans le travail quotidien.
Les modèles de diffusion vidéo autorégressifs ont permis la génération de mondes conditionnée par l'action en temps réel. Cependant, maintenir un monde persistant, où le retour à un point de vue déjà visité produit un contenu cohérent, reste un problème ouvert. L'attention complète avec cache KV préserve cette cohérence mais rompt les contraintes temps réel : l'empreinte mémoire et le coût de l'attention augmentent linéairement avec la longueur du déploiement. L'inférence par fenêtre glissante rétablit le débit mais perd la cohérence à long terme. Nous proposons WorldKV, un cadre sans entraînement comportant deux composants : World Retrieval et World Compression. World Retrieval stocke les blocs de cache KV évincés dans la mémoire GPU/CPU et récupère sélectivement les blocs pertinents pour la scène via une correspondance caméra/action, en les réinsérant dans la fenêtre d'attention native sans ré-encodage. World Compression élague les jetons redondants au sein de chaque bloc via la similarité clé-clé avec une image de référence, réduisant de moitié le stockage par bloc pour contenir 2 fois plus d'historique à budget fixe. Sur Matrix-Game-2.0 et LingBot-World-Fast, WorldKV égalise ou dépasse la fidélité mémoire plein KV avec environ 2 fois le débit, et se montre compétitif par rapport aux références entraînées avec mémoire, sans aucun réglage fin. Page du projet : https://cvlab-kaist.github.io/WorldKV/
L'intelligence artificielle (IA) est de plus en plus intégrée à la découverte scientifique, mais il reste incertain qu'elle puisse anticiper le progrès scientifique. Pour étudier cette question, nous introduisons un cadre d'évaluation temporellement ancré permettant de prévoir le progrès scientifique sous contraintes de connaissance contrôlées. Nous présentons CUSP (Cutoff-conditioned Unseen Scientific Progress), un benchmark multidisciplinaire et au niveau des événements qui évalue la capacité de prévision scientifique des systèmes d'IA à travers l'évaluation de faisabilité, le raisonnement mécanistique, la conception de solutions génératives et la prédiction temporelle. Sur 4 760 événements scientifiques, nous observons des limitations systématiques et dépendantes du domaine dans les modèles de pointe actuels. Bien que les modèles puissent identifier des directions de recherche plausibles parmi des candidats concurrents, ils ne parviennent pas à prédire de manière fiable si les avancées scientifiques seront réalisées et évaluent mal systématiquement le moment où elles se produiront. Les performances sont très hétérogènes selon les domaines, le calendrier des progrès de l'IA étant plus prévisible que les avancées en biologie, chimie et physique. Les performances sont largement insensibles au fait que les événements se produisent avant ou après la coupure d'entraînement, ce qui suggère que ces limitations ne peuvent être uniquement expliquées par l'exposition aux connaissances dans les données d'entraînement. Sous un accès contrôlé à l'information, des connaissances supplémentaires antérieures à la coupure améliorent les performances mais ne comblent pas l'écart avec les configurations d'information complète, écart qui devient plus prononcé pour les avancées très citées. Les modèles présentent également un excès de confiance systématique et de forts biais de réponse, indiquant une estimation d'incertitude peu fiable. Dans l'ensemble, les systèmes d'IA actuels ne sont pas à la hauteur en tant qu'outils prédictifs du progrès scientifique. L'accès à des connaissances antérieures ne se traduit pas par des prévisions fiables, et les performances bénéficient davantage des informations post-événement que de la prédiction prospective.
Les transformers de diffusion (DiTs) se sont imposés comme une architecture dominante pour la génération texte-image, mais leurs performances chutent lorsqu'ils génèrent à des résolutions dépassant leur plage d'entraînement. Les approches existantes sans entraînement atténuent ce problème en modifiant le comportement de l'attention lors de l'inférence, souvent par le biais d'une extrapolation des embeddings de position rotatifs (RoPE) combinée à une mise à l'échelle de l'attention. Cependant, ces stratégies appliquent une mise à l'échelle uniforme et indépendante du contenu sur les composantes RoPE présentant des caractéristiques fréquentielles distinctes, ce qui induit un compromis entre la préservation de la structure globale et la récupération des détails fins. Nous introduisons SEGA, une méthode sans entraînement qui met dynamiquement à l'échelle l'attention sur les composantes RoPE en fonction de la structure spatio-fréquentielle du latent à chaque étape de débruitage. Cette mise à l'échelle adaptative améliore à la fois la cohérence structurelle et la fidélité des détails fins. Les expériences montrent que SEGA améliore systématiquement la synthèse haute résolution pour plusieurs résolutions cibles, surpassant les méthodes de référence sans entraînement de pointe.
L’entraînement et la validation robustes des Systèmes de Conduite Autonome (SCA) nécessitent des ensembles de données massifs et diversifiés. Les données propriétaires collectées par les flottes de Véhicules Autonomes (VA), bien qu’elles soient de haute fidélité, sont limitées en termes d’échelle, de diversité des configurations de capteurs, ainsi que de couverture géographique et comportementale des cas rares (« long-tail »). En revanche, les données issues du monde réel (« in-the-wild »), comme celles provenant de caméras embarquées (« dashcams »), offrent une échelle et une diversité immenses, capturant des scénarios rares critiques et des environnements inédits. Cependant, ces données vidéo non structurées et issues du monde réel sont incompatibles avec les SCA, qui attendent des entrées multimodales structurées pour la validation et l’entraînement. Afin de combler cet écart de données, nous proposons Sensor2Sensor, un nouveau paradigme de modélisation générative qui traduit les vidéos monoculaires de dashcams issues du monde réel en une suite de capteurs multimodale et haute-fidélité (logs VA) comprenant des images multi-vues et des nuages de points LiDAR. Un défi central est l’absence de données d’entraînement appariées. Nous y répondons en convertissant des logs VA réels en vidéos de style dashcam via une reconstruction par Splatting Gaussien 4D (4DGS) et un rendu de nouvelles vues. Sensor2Sensor utilise ensuite une architecture de diffusion pour effectuer la conversion générative. Nous menons des évaluations quantitatives complètes sur la fidélité et le réalisme des données de capteurs générées. Nous démontrons l’utilité pratique de Sensor2Sensor en convertissant des séquences internet et dashcam difficiles, issues du monde réel, en formats de données multimodaux réalistes, débloquant ainsi de vastes sources de données externes pour le développement des VA.
Étendre l’horizon de génération des modèles de diffusion vidéo à de longues séquences demeure un défi de longue date et d’une importance capitale. Les approches existantes sans entraînement se répartissent en deux catégories : les extensions de modèles bidirectionnels, étroitement liées à des architectures spécifiques et souffrant d’une dégradation de qualité sur de longs horizons, et les modèles autorégressifs, qui accumulent des erreurs de dérive dues au biais d’exposition et tendent à produire des schémas de mouvement répétitifs. Pour remédier à ces problèmes, nous proposons une approche nouvelle mais simple, au moment de l’inférence, pour la génération de vidéos longues, indépendante de l’architecture et ne nécessitant aucun entraînement supplémentaire. Notre méthode génère des vidéos longues via des fenêtres glissantes avec chevauchement, où les échantillons propres prédits issus de fenêtres adjacentes sont fusionnés par appariement de Tweedie afin d’imposer à la fois une contrainte de variété et une cohérence temporelle dans les régions de chevauchement. Un échantillonnage stochastique en phase précoce synchronise ensuite les trajectoires de chaque fenêtre en injectant un bruit frais après chaque correction d’appariement de Tweedie dans la phase de bruit élevé, avant de passer à un échantillonnage ODE déterministe pour préserver une fidélité visuelle fine. Appliquée à divers modèles de génération vidéo, notre méthode génère des vidéos plusieurs fois plus longues que la longueur native de la fenêtre, tout en surpassant les références sans entraînement et autorégressives en termes de cohérence temporelle et de qualité visuelle, et s’étend en outre à la génération conjointe audio-vidéo et au text-to-3DGS sans aucun réglage fin.
Les modèles de langage multimodaux à grande échelle (MLLMs) ont réalisé des progrès rapides en matière d’intelligence spatiale, mais les benchmarks existants de raisonnement spatial supposent largement des entrées visuelles parfaites et négligent les dégradations qui surviennent couramment dans les déploiements réels, telles que le flou de mouvement, la faible luminosité, les intempéries, les distorsions optiques et les artefacts de compression. Cela soulève une question fondamentale : dans quelle mesure l’intelligence spatiale des MLLMs actuels est-elle robuste face à des observations visuelles imparfaites ? Pour répondre à cette question, nous introduisons SpaceDG, le premier jeu de données à grande échelle pour la compréhension spatiale tenant compte des dégradations. Il est construit à l’aide d’un moteur de synthèse de dégradations physiquement fondé, qui intègre le processus de formation des dégradations dans le rendu du 3D Gaussian Splatting (3DGS), permettant ainsi une simulation réaliste de neuf types de dégradations. Le jeu de données résultant contient environ 1 million de paires question-réponse issues de près de 1 000 scènes intérieures. Nous introduisons également SpaceDG-Bench, un benchmark vérifié par des humains comprenant 1 102 questions couvrant 11 catégories de raisonnement et 9 types de dégradations visuelles, produisant plus de 10 000 instances de VQA. L’évaluation de 25 MLLMs open source et propriétaires révèle que les dégradations visuelles altèrent de manière constante et substantielle le raisonnement spatial, mettant en évidence un écart critique de robustesse. Enfin, nous montrons que le fine-tuning sur SpaceDG améliore nettement la robustesse face aux dégradations et peut même surpasser la performance humaine dans des conditions dégradées, sans aucune perte de performance sur des images propres, soulignant ainsi le potentiel de l’entraînement tenant compte des dégradations pour une intelligence spatiale robuste.
La prolifération des grands modèles de langage (LLMs) et des compétences modulaires a doté les agents autonomes de capacités toujours plus puissantes. Les cadres existants s'appuient généralement sur des LLMs monolithiques et une logique fixe pour interfacer ces compétences. Cela engendre un goulot d'étranglement critique : différents LLMs offrent des avantages distincts dans des domaines variés, mais les cadres actuels ne parviennent pas à exploiter les forces complémentaires des modèles et des compétences, limitant ainsi leurs performances sur les tâches en aval. Dans cet article, nous présentons Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration), un cadre d'orchestration piloté par l'apprentissage par renforcement (RL) qui reformule des tâches multimodales hétérogènes comme un processus de prise de décision séquentielle sur un registre hiérarchique de modèles et de compétences. Plutôt que de consolider toutes les connaissances dans un seul modèle, Maestro entraîne une politique légère pour composer dynamiquement des ensembles de modèles experts gelés et une bibliothèque de compétences à deux niveaux, décidant à chaque étape s'il faut invoquer un expert externe, quelle paire modèle-compétence sélectionner, et quand se terminer. La politique est optimisée via un RL basé sur les résultats, sans nécessiter de supervision au niveau des étapes. Nous évaluons Maestro sur dix références multimodales représentatives couvrant le raisonnement mathématique, la compréhension de graphiques, la perception à haute résolution et l'analyse spécifique à un domaine. Avec un orchestrateur de seulement 4B, Maestro atteint une précision moyenne de 70,1 %, surpassant à la fois GPT-5 (69,3 %) et Gemini-2.5-Pro (68,7 %). Fait crucial, la politique de coordination apprise se généralise à des modèles et compétences inédits sans réentraînement : l'ajout d'experts hors domaine au registre permet d'obtenir une moyenne de 59,5 % sur quatre références difficiles, surpassant toutes les bases de référence propriétaires. Maestro maintient en outre une haute efficacité computationnelle avec une faible latence. Le code source est disponible à l'adresse https://github.com/jinyangwu/Maestro.
Les modèles de diffusion vidéo autorégressifs (ARVD) sont apparus comme une architecture prometteuse pour la génération de vidéos en continu, ouvrant la voie à la génération vidéo interactive en temps réel et à la modélisation du monde. Malgré leur potentiel, le coût d'inférence substantiel des ARVD reste un obstacle majeur à leur déploiement pratique, faisant de la quantification de modèles une direction naturelle pour améliorer l'efficacité. Cependant, la quantification des ARVD reste largement inexplorée. Notre analyse empirique montre qu'appliquer directement les schémas de quantification existants développés pour les transformateurs de diffusion standards aux ARVD conduit à des performances sous-optimales, révélant des comportements de quantification différents de ceux observés dans les modèles de diffusion bidirectionnels. Dans cet article, nous identifions deux défis critiques dans la quantification des ARVD : (C1) une sensibilité à la quantification par trame hautement déséquilibrée. L'accumulation d'erreurs lors de la génération autorégressive peut induire une sensibilité à la quantification fortement asymétrique entre les trames, suivant un schéma de décroissance de type exponentiel. (C2) des motifs de valeurs aberrantes proéminents et hétérogènes dans les poids. Les distributions de poids présentent des canaux aberrants prononcés, dont les motifs varient considérablement selon les types de couches et les profondeurs de blocs. Pour résoudre ces problèmes, nous proposons Q-ARVD, un nouveau cadre pour une quantification précise des ARVD. (S1) Pour faire face à la sensibilité par trame hautement déséquilibrée, Q-ARVD intègre un mécanisme de pondération des trames tenant compte de la qualité finale dans l'objectif de quantification. (S2) Pour empêcher les valeurs aberrantes hétérogènes de dégrader les performances, Q-ARVD introduit une quantification adaptative à double échelle sensible aux valeurs aberrantes, qui détecte automatiquement la présence et la quantité de canaux aberrants pour une couche donnée, et les isole pour protéger les canaux normaux. Des expériences approfondies démontrent la supériorité de Q-ARVD.
Les Modèles de Récompense de Processus (MRP, ou PRM en anglais) constituent un mécanisme puissant pour orienter le raisonnement des grands modèles de langage en fournissant une supervision fine et au niveau des étapes. Cependant, cette efficacité a un coût significatif : les PRM nécessitent des annotations d'experts pour chaque étape de raisonnement, ce qui les rend coûteux et difficiles à passer à l'échelle. Dans cet article, nous proposons une méthode pour entraîner des PRM non supervisés (uPRM) qui ne requiert aucune supervision humaine, ni au niveau des annotations étape par étape, ni par la vérification des réponses finales par vérité terrain. L'idée clé de notre approche est de définir une fonction de score, dérivée des probabilités de prochain token des LLM, qui évalue conjointement les positions candidates des premières étapes erronées sur un lot de trajectoires de raisonnement. Nous démontrons l'efficacité d'uPRM dans divers scénarios : (i) uPRM obtient jusqu'à 15 % d'amélioration absolue de la précision par rapport à LLM-as-a-Judge dans l'identification des premières étapes erronées sur l'ensemble de données ProcessBench ; (ii) en tant que vérificateur pour la mise à l'échelle au moment du test, uPRM se comporte de manière comparable aux PRM supervisés et surpasse la baseline du vote majoritaire jusqu'à 6,9 % ; (iii) lorsqu'il est utilisé comme signal de récompense en apprentissage par renforcement, uPRM permet une optimisation de politique plus robuste tout au long de l'entraînement par rapport à un PRM supervisé entraîné avec des étiquettes de vérité terrain. Dans l'ensemble, nos résultats ouvrent une voie vers une modélisation de récompense scalable pour des tâches de raisonnement complexes.
L'attention linéaire remplace le cache non borné de l'attention softmax par un état récurrent de taille fixe, réduisant le mélange de séquences à un temps linéaire et le décodage à une mémoire constante. La difficulté ne réside pas seulement dans ce qu'il faut oublier, mais dans la manière de modifier cette mémoire compressée sans perturber les associations existantes. Les modèles à règle delta soustraient la lecture courante avant d'écrire une nouvelle valeur, et Kimi Delta Attention (KDA) affine l'oubli avec une décroissance par canal. Cependant, la modification active utilise toujours une unique porte scalaire pour contrôler deux choses différentes : la quantité de contenu ancien à effacer du côté des clés et la quantité de nouveau contenu à engager du côté des valeurs. Nous introduisons Gated DeltaNet-2, qui généralise à la fois Gated DeltaNet et KDA en héritant de l'oubli adaptatif et de la décroissance par canal, tout en palliant leur limitation commune, le couplage scalaire entre l'effacement et l'écriture. Gated Delta Rule-2 sépare ces rôles avec une porte d'effacement par canal b_t et une porte d'écriture par canal w_t, se réduisant à KDA lorsque les deux portes se confondent en un même scalaire et à Gated DeltaNet lorsque la décroissance se réduit également. Nous dérivons une vue de mise à jour des poids rapides, un algorithme WY par blocs avec décroissance par canal absorbée dans des facteurs d'effacement asymétriques, et une passe arrière sensible aux portes qui préserve un entraînement parallèle efficace. Avec 1,3 milliard de paramètres entraînés sur 100 milliards de tokens FineWeb-Edu, Gated DeltaNet-2 obtient les résultats globaux les plus solides parmi les variantes Mamba-2, Gated DeltaNet, KDA et Mamba-3 dans les domaines de la modélisation du langage, du raisonnement de sens commun et de la recherche d'information. Son avantage est le plus marqué dans les tests de type aiguille dans une botte de foin sur longue contexte RULER, où il améliore le cadre de recherche multi-clés évalué et reste performant aussi bien en configuration récurrente qu'hybride. Le code est disponible à l'adresse https://github.com/NVlabs/GatedDeltaNet-2.
La génération d'images ouvertes n'est plus un simple problème de passage d'une consigne à une image. Une génération de haute qualité nécessite souvent qu'un agent combine la capacité générative interne d'un modèle avec des ressources externes. Face à des demandes de plus en plus diversifiées et exigeantes, nous visons à développer un agent général de génération d'images capable d'auto-évolution à travers des trajectoires et d'utiliser les outils plus efficacement face à divers défis de génération. À cette fin, nous proposons GenEvolve, un cadre auto-évolutif fondé sur la distillation d'expérience visuelle orchestrée par outils. Dans GenEvolve, chaque tentative de génération est modélisée comme une trajectoire orchestrée par outils, où l'agent rassemble des preuves, sélectionne des références, invoque des compétences de génération et les compose en un programme de consignes et de références. Contrairement aux méthodes de génération agentiques existantes qui reposent principalement sur des récompenses scalaires au niveau de l'image, GenEvolve compare plusieurs trajectoires pour une même requête et abstrait les différences meilleur-pire en une expérience visuelle structurée, fournie uniquement à une branche d'enseignant privilégiée. Inspirée par l'auto-distillation sur politique, la distillation d'expérience visuelle offre une supervision dense au niveau des tokens, aidant l'étudiant à internaliser une meilleure recherche, activation des connaissances, sélection de références et construction de consignes. Nous construisons en outre GenEvolve-Data et GenEvolve-Bench. Les expériences sur des bancs d'essai publics et GenEvolve-Bench montrent des gains substantiels par rapport à des bases de référence solides, atteignant des performances de pointe parmi les cadres actuels de génération d'images. Notre site web est le suivant : https://ephemeral182.github.io/GenEvolve/
Les LLM sont largement adoptés en production, poussant les systèmes d'inférence à leurs limites. Le service de LLM désagrégé (par exemple, la séparation PD et la désagrégation des états KV) améliore la scalabilité et l'efficacité des coûts, mais transforme également les KV en une charge utile explicite traversant les limites du réseau et du stockage, faisant des KV un goulot d'étranglement dominant de bout en bout. Les méthodes existantes de compression des KV sont généralement des configurations statiques à l'exécution, malgré le fait que le contexte de service en production varie dans le temps en termes de mix de charges de travail, de bande passante et de budgets de SLO/qualité. En conséquence, un choix fixe peut être sous-optimal, voire augmenter la latence. Nous présentons *KVServe*, le premier framework de compression de communication KV adaptative et sensible au service pour le service de LLM désagrégé : KVServe (1) unifie la compression des KV en un espace de stratégies modulaires avec de nouveaux composants et une recomposition inter-méthodes ; (2) introduit un moteur de profilage bayésien qui explore efficacement cet espace et distille un ensemble candidat de Pareto 3D, réduisant la surcharge de recherche hors ligne de 50× ; et (3) déploie un contrôleur en ligne sensible au service qui combine un modèle analytique de latence avec un bandit léger pour sélectionner les profils sous contraintes et corriger les écarts hors ligne/en ligne. Intégré à vLLM et évalué sur des ensembles de données, modèles, GPU et réseaux, KVServe atteint jusqu'à 9,13× d'accélération du JCT dans le service à séparation PD et jusqu'à 32,8× de réduction du TTFT dans le service à désagrégation KV.
Les progrès dans le développement des modèles de langage sont souvent guidés par des décisions comparatives : quelle architecture adopter, quel corpus de pré-entraînement utiliser, ou quelle recette d’entraînement appliquer. Prendre ces décisions de manière éclairée nécessite des prévisions de performance fiables, mais les deux signaux couramment utilisés sont fondamentalement limités. La perte d’entropie croisée est mal alignée avec les capacités en aval, et l’évaluation directe en aval est coûteuse, parcimonieuse et souvent peu informative aux premiers stades de l’entraînement. Nous proposons plutôt de construire des métriques proxy en agrégeant des statistiques au niveau des tokens, telles que l’entropie, la précision top-k et le rang des tokens experts, à partir de la distribution du token suivant d’un modèle candidat sur des solutions rédigées par des experts. Dans trois contextes différents, nos proxies surpassent systématiquement les références basées sur la perte et le calcul : 1) Pour la sélection de modèles entre familles, ils classent une population hétérogène de modèles de raisonnement avec un Rho de Spearman moyen de 0,81 (contre un Rho de 0,36 pour la perte d’entropie croisée) ; 2) Pour la sélection des données de pré-entraînement, ils classent de manière fiable 25 corpus candidats pour un modèle cible avec environ 10 000 fois moins de calcul que l’évaluation directe, repoussant la frontière de Pareto au-delà des méthodes existantes ; 3) et pour la prévision en cours d’entraînement, ils extrapolent la précision en aval sur un horizon de calcul de 18 fois avec environ la moitié de l’erreur des alternatives existantes. Ensemble, ces résultats suggèrent que les trajectoires expertes sont une source de signal largement utile pour évaluer les capacités des modèles, permettant des prévisions de performance fiables tout au long du cycle de développement des modèles.
Les approches existantes pour la production de mini-dramas numériques reposent généralement sur des scripts générés en une seule passe par un LLM et sur des pipelines faiblement couplés, ce qui ne parvient pas à satisfaire trois exigences clés de la génération de mini-dramas : (1) le rythme narratif, entraînant des accroches faibles, une montée en tension insuffisante et des fins peu attrayantes ; (2) la cohérence spatiale, conduisant à des dispositions de scène fluctuantes et à des positions de personnages incohérentes entre les clips ; et (3) un contrôle qualité au niveau production, nécessitant une révision et une correction manuelles approfondies aux étapes du script et du visuel. Nous présentons *One Sentence, One Drama*, un cadre hiérarchique multi-agent qui transforme l'idée d'une seule phrase d'un utilisateur en un mini-drama entièrement produit grâce à des modules intermédiaires structurés et un raffinement itératif. Notre approche repose sur trois composants clés : (1) un module de génération d'histoires par débat multi-agent qui impose un rythme de mini-drama et une cohérence narrative ; (2) un mécanisme de génération de première image ancrée en 3D qui établit un référentiel spatial partagé pour un positionnement cohérent des personnages et une disposition stable des scènes entre les clips ; et (3) des boucles de vérification multi-étapes qui effectuent une détection complète des erreurs et des révisions ciblées aux étapes du script, du visuel et de la génération vidéo. Nous introduisons également l'appariement de BGM au niveau scène et la planification des transitions de scène pour améliorer l'expérience immersive du public. Afin d'évaluer systématiquement cette tâche, nous présentons *Short-Drama-Bench*, un benchmark qui étend les métriques de qualité vidéo standard avec des critères spécifiques aux mini-dramas. Les résultats expérimentaux montrent que notre méthode surpasse significativement les pipelines existants en termes de qualité narrative, de cohérence interclips et d'expérience visuelle globale.
Les grands modèles de langage (LLMs) et les systèmes agentiques se sont révélés prometteurs pour l'aide à la décision clinique, mais les travaux existants supposent en grande partie que les preuves ont déjà été organisées et remises au modèle. Les workflows cliniques réels exigent au contraire que les agents recherchent activement, planifient de manière itérative et synthétisent des preuves multimodales provenant de sources hétérogènes. Dans cet article, nous présentons ClinSeekAgent, un cadre agentique automatisé pour la recherche dynamique de preuves multimodales, qui fait passer le paradigme de la consommation passive de preuves à l'acquisition active de preuves. À partir d'une simple requête clinique et d'un accès aux sources de données brutes, ClinSeekAgent rassemble des preuves en interrogeant des bases de connaissances médicales, en naviguant dans les dossiers de santé électroniques (DSE) bruts et en invoquant des outils d'imagerie médicale ; il affine ses hypothèses à mesure que de nouvelles informations émergent ; et intègre les preuves collectées dans des décisions cliniques fondées. ClinSeekAgent sert à la fois d'agent au moment de l'inférence pour les LLMs de pointe et de pipeline au moment de l'entraînement pour distiller des trajectoires agentiques de haute qualité dans des modèles open-source compacts. Pour valider son efficacité au moment de l'inférence, nous construisons ClinSeek-Bench, qui associe un raisonnement sur des entrées organisées à partir de preuves présélectionnées fixes avec une recherche automatisée de preuves sur des données cliniques brutes. Sur les tâches de DSE textuelles, ClinSeekAgent améliore Claude Opus 4.6 de 60,0 à 63,2 en F1 global et MiniMax M2.5 de 43,1 à 47,3, avec des gains positifs en prédiction de risque dans 7 des 9 modèles hôtes évalués. Sur les tâches multimodales, ClinSeekAgent améliore Claude Opus 4.6 de 47,5 à 62,6 (+15,1) ; tous les modèles évalués s'améliorent dans les trois groupes de tâches liées aux radiographies thoraciques (CXR). Nous validons en outre ClinSeekAgent en tant que pipeline d'entraînement en distillant des trajectoires de recherche de preuves agentiques dans ClinSeek-35B-A3B, qui atteint un F1 moyen de 34,0 sur le benchmark existant AgentEHR-Bench, améliorant sa baseline Qwen3.5-35B-A3B de +11,9 points et se rapprochant de Claude Opus 4.6.
Alors que la plupart des plans dans les vidéos longues sont redondants, l'information critique réside dans les surprises temporelles : des moments où les caractéristiques visuelles réelles s'écartent de leur évolution prédite. Inspiré par le codage prédictif du cerveau humain, nous introduisons Swift Sampling, un algorithme de sélection de plans élégant et sans apprentissage, qui identifie automatiquement les moments de forte information dans une vidéo. Plus précisément, nous modélisons une vidéo comme une trajectoire différentiable dans l'espace latent visuel et calculons la vitesse et l'accélération de ses caractéristiques. Ensuite, nous appliquons un développement de Taylor pour projeter le chemin attendu des plans suivants. Les plans qui divergent nettement de cette variété prédite sont identifiés comme des plans temporellement surprenants et sélectionnés pour l'échantillonnage. Contrairement aux méthodes antérieures sans apprentissage qui reposent sur des réseaux auxiliaires ou un réglage d'hyperparamètres spécifique à la vidéo, Swift Sampling est extrêmement léger, n'ajoutant qu'un surcoût de calcul de 0,02x par rapport à la référence, soit un surcoût 30 fois inférieur à celui des principales approches concurrentes. Sur trois références de questions-réponses pour vidéos longues et 10 tâches aval différentes, Swift Sampling surpasse l'échantillonnage uniforme et les références antérieures indépendantes des requêtes. Il est particulièrement efficace pour les vidéos longues avec des budgets de plans limités, améliorant la précision jusqu'à +12,5 points.
Les fiches de modèle décrivent le comportement des modèles à l’aide d’un mélange de descriptions textuelles et d’artefacts structurés, incluant des tableaux de performance, de configuration et de jeux de données. Les systèmes de recherche de modèles existants reposent principalement sur la similarité sémantique du texte, ce qui peut produire des ensembles de résultats homogènes et limiter l’exploration d’alternatives. Nous soutenons que la recherche de modèles est intrinsèquement comparative : les utilisateurs souhaitent des modèles alignés sur une tâche mais différenciés de manière mesurable. Nous émettons l’hypothèse que cet équilibre nécessite une recherche portant sur des preuves condensées et de haute qualité plutôt que sur des descriptions verbeuses, et que la majeure partie de ces preuves se concentre dans des tableaux structurés. Nous présentons StructuredSemanticSearch, un cadre de recherche de modèles piloté par les tableaux, construit sur le benchmark ModelTables. À partir d’une requête, StructuredSemanticSearch combine une base sémantique pour l’alignement des tâches avec un pipeline sensible à la structure qui découvre des tableaux de fiches de modèle liés à la requête, en utilisant des opérateurs de découverte de tableaux tels que l’unionnabilité, la joignabilité et la recherche par mots-clés. Les tableaux récupérés sont associés aux fiches de modèle selon un budget top-k contrôlé, permettant une comparaison équitable entre la recherche textuelle et la recherche par tableaux. Au-delà de la recherche, StructuredSemanticSearch adapte l’intégration des tableaux au domaine des fiches de modèle grâce à une intégration sensible à l’orientation, produisant des vues intégrées compactes à partir de tableaux de preuves partiellement superposés et parfois transposés. Pour l’évaluation, nous introduisons un protocole vérifiable basé sur les pépites (nuggets), qui extrait des éléments de preuve compacts des fiches de modèle, associe les requêtes à des pépites spécifiques à une condition ou à une intention, et mesure la couverture et la diversité des preuves parmi les ensembles candidats de fiches de modèle récupérées. Ce protocole offre également une voie évolutive vers un étiquetage approximatif fondé sur des preuves dans des lacs de modèles dynamiques. Des expériences menées sur 597 requêtes de recommandation de modèles montrent une amélioration de la couverture des pépites pour le pipeline sensible à la structure par rapport à la base sémantique.
Comment un agent doit-il décider quand et comment planifier ? Une approche dominante consiste à construire des agents sous forme de politiques réactives avec calcul adaptatif (par exemple, le chain-of-thought), entraînées de bout en bout en espérant que la planification émerge implicitement. Sans contrôle sur la présence, la structure ou l'horizon de la planification, ces systèmes augmentent considérablement la longueur du raisonnement, entraînant une utilisation inefficace des jetons sans gains fiables en précision. Nous soutenons qu'un raisonnement agentique efficace bénéficie de la décomposition de la prise de décision en trois systèmes : le raisonnement simulatif (Système II) qui ancre la délibération dans la prédiction d'états futurs via un modèle du monde ; l'autorégulation (Système III) qui décide quand et à quelle profondeur planifier via un configurateur appris ; et l'exécution réactive (Système I) qui gère les actions fines. Le raisonnement simulatif fournit une planification unifiée pour diverses tâches sans ingénierie par domaine, tandis que l'autorégulation garantit que le planificateur n'est invoqué qu'en cas de besoin. Pour tester cela, nous développons SR^2AM (Self-Regulated Simulative Reasoning Agentic LLM), réalisant les deux en tant qu'étapes distinctes dans le chain-of-thought d'un LLM, ce dernier servant de modèle du monde. Nous explorons deux instanciations : l'enregistrement des décisions d'un système multi-module piloté par des invites (v0.1) et la reconstruction de plans structurés à partir de traces de LLMs de raisonnement pré-entraînés (v1.0), entraînés via un apprentissage supervisé puis par renforcement (RL). Dans les domaines des mathématiques, des sciences, de l'analyse tabulaire et de la recherche d'informations sur le web, v0.1-8B et v1.0-30B atteignent un Pass@1 compétitif avec des systèmes de 120-355B et 685B-1T paramètres respectivement, tandis que v1.0-30B utilise 25,8 à 95,3 % de jetons de raisonnement en moins que les LLMs agentiques comparables. Le RL augmente l'horizon moyen de planification de 22,8 % tandis que la fréquence de planification ne croît que de 2,0 %, montrant qu'il apprend à planifier plus loin plutôt que plus souvent. Plus largement, l'autorégulation apprise instancie un principe que nous nous attendons à voir s'étendre au-delà de la planification, à la manière dont les agents gouvernent leur propre apprentissage et adaptation.
Les méthodes traditionnelles de suivi d’objets visuels (VOT) reposent généralement sur un apprentissage supervisé spécifique à la tâche, ce qui limite leur généralisation à des objets non vus et à des scénarios difficiles comportant des distracteurs, des occultations et des mouvements non linéaires. Les récents modèles de fondation de la vision, illustrés par SAM 2, apprennent de fortes connaissances préalables en compréhension vidéo à partir d’un pré-entraînement à grande échelle et offrent une base prometteuse pour construire des traqueurs plus robustes et généralisables. Cependant, appliquer directement SAM 2 au VOT reste sous-optimal, car il ne modélise pas explicitement la dynamique du mouvement de la cible ni n’impose une cohérence géométrique et sémantique entre les images, deux éléments essentiels pour un suivi fiable. Pour remédier à ce problème, nous proposons SAMOSA, un nouveau cadre de suivi qui adapte SAM 2 à des scénarios VOT complexes en exploitant explicitement les indices de mouvement, de géométrie et de sémantique. Plus précisément, nous introduisons un prédicteur de mouvement non linéaire léger pour modéliser la dynamique de la cible et guider la sélection des masques ainsi que le filtrage de la mémoire. Nous exploitons en outre les indices sémantiques pour détecter les déplacements de la cible et récupérer après des échecs de suivi, tandis que les indices géométriques sont intégrés comme contraintes structurelles pour améliorer la stabilité du suivi. Ainsi, SAMOSA comble l’écart entre la connaissance vidéo implicite de SAM 2 et la modélisation explicite orientée vers le suivi. Des expériences approfondies montrent que SAMOSA surpasse systématiquement les approches de pointe basées sur SAM 2 sur des bancs d’essai généraux, démontre une meilleure généralisation que les méthodes VOT supervisées et réalise des gains substantiels sur les jeux de données anti-UAV, qui caractérisent des scénarios de mouvement non linéaire complexes. Notre code est disponible à l’adresse https://github.com/DurYi/SAMOSA.
Les modèles de langage multimodaux à grande échelle (MLLMs) et les modèles de diffusion ont chacun atteint une maturité remarquable : les MLLMs excellent dans le raisonnement sur des entrées multimodales hétérogènes avec un fort ancrage sémantique, tandis que les modèles de diffusion synthétisent des images et des vidéos avec une fidélité photoréaliste. Nous soutenons que ces deux familles peuvent être unifiées via une simple division du travail : les MLLMs effectuent la planification sémantique, tandis que les modèles de diffusion effectuent le rendu des pixels à partir d'une guidance sémantique de haut niveau et de caractéristiques visuelles de bas niveau. En nous appuyant sur cette idée, nous proposons Bernini, un cadre unifié pour la génération et l'édition de vidéos. Un planificateur basé sur MLLM prédit la représentation sémantique cible directement dans l'espace de plongement ViT, et un moteur de rendu basé sur DiT synthétise les pixels conditionnés par ce plan, augmenté par des caractéristiques textuelles et, pour l'édition, des caractéristiques VAE sources pour la préservation des détails. Comme la sémantique sert d'interface, le planificateur et le moteur de rendu peuvent être entraînés séparément et seulement légèrement co-entraînés, préservant les forces pré-entraînées des deux composants tout en maintenant un entraînement efficace. Pour mieux gérer les entrées visuelles multiples, nous introduisons le Plongement Positionnel Rotatoire 3D avec Conscience de Segment (SA-3D RoPE), et nous intégrons en outre un raisonnement en chaîne de pensée dans le planificateur pour mieux transférer la compréhension dans la génération. Bernini atteint des performances de pointe sur un large éventail de références de génération et d'édition de vidéos, la compréhension pré-entraînée du MLLM se traduisant par une forte généralisation sur des tâches d'édition exigeantes.
De nombreux bâtiments publics fournissent des plans d'étage avec un indicateur "vous êtes ici" pour aider les visiteurs à s'orienter. La localisation dans un plan d'étage vise à reproduire cette capacité de manière informatique en déterminant où des observations visuelles ont été capturées dans ce plan. Cependant, les méthodes existantes supposent généralement des environnements contrôlés de petite échelle et des plans d'étage vectorisés précis, ce qui limite leur capacité à opérer dans des bâtiments de grande taille et avec des plans d'étage rasterisés. Dans ce travail, nous présentons une approche pour effectuer une localisation dans un plan d'étage en conditions réelles, en ancrant la tâche dans une représentation 3D reconstruite de la scène. À partir d'une collection d'images non contraintes, notre méthode reconstruit une scène 3D alignée sur la gravité et la projette en une carte de densité 2D qui sert de substitut au plan d'étage. La localisation dans le plan d'étage est ensuite formulée comme l'alignement de ce substitut avec le plan d'étage d'entrée via une transformation de similarité 2D. Pour combler l'écart d'apparence entre les cartes de densité et les plans d'étage architecturaux, nous adaptons un modèle fondamental 2D pour apprendre des correspondances inter-modales, en introduisant un schéma d'ajustement fin qui encourage des correspondances sémantiquement alignées tout en préservant la cohérence structurelle. Des expériences approfondies démontrent des améliorations substantielles par rapport aux méthodes antérieures, y compris dans des contextes extrêmement parcimonieux avec aussi peu qu'une seule image d'entrée. Notre code et nos données seront rendus publics.
Aligner les modèles de génération texte-vers-image (T2I) avec les préférences humaines repose de plus en plus sur des modèles de récompense d’image qui notent ou classent les images générées selon leur adéquation aux prompts et leur qualité perceptuelle. Les modèles de récompense existants sont généralement entraînés comme des modèles de préférence de Bradley-Terry (BT) sur de larges corpus de préférences humaines, ce qui les rend coûteux à entraîner, difficiles à adapter et opaques dans leurs critères d’évaluation. Parallèlement, les juges de modèle vision-langage (VLM) peuvent fournir des évaluations plus fines via des rubriques textuelles, mais leurs règles de notation, conçues manuellement ou générées heuristiquement, peuvent ne pas refléter fidèlement les préférences humaines. Dans cet article, nous proposons AutoRubric-T2I, le premier cadre d’apprentissage de rubriques en T2I qui synthétise et sélectionne automatiquement des rubriques explicites pour guider les juges VLM. AutoRubric-T2I synthétise d’abord des traces de raisonnement à partir de paires de préférences en rubriques candidates, puis utilise un juge VLM pour évaluer des paires d’images sous chaque rubrique, produisant des différences de scores de rubriques par paire pour l’apprentissage de préférences. Pour éliminer les règles bruitées et redondantes, nous employons en outre un raffineur par régression logistique régularisée L1, qui sélectionne les N meilleures rubriques les plus discriminantes. Des évaluations approfondies montrent qu’AutoRubric-T2I produit des signaux de récompense de haute qualité et interprétables en utilisant moins de 0,01 % des données de préférence annotées, réduisant considérablement le besoin d’entraînement à grande échelle de modèles de récompense. Sur des benchmarks de récompense d’image tels que MMRB2, AutoRubric-T2I surpasse de solides modèles de récompense de référence. Nous validons également AutoRubric-T2I en tant que récompense RL sur des tâches T2I avales, notamment TIIF et UniGenBench++, où il améliore la qualité de génération par rapport aux modèles de récompense scalaires en utilisant le pipeline Flow-GRPO sur des modèles de diffusion.
Nous présentons TerminalWorld, un moteur de données scalable qui reverse-enginee automatiquement des tâches d'évaluation haute-fidélité à partir d'enregistrements de terminaux « in-the-wild ». En traitant 80 870 enregistrements de terminaux, le moteur produit un benchmark complet de 1 530 tâches validées, couvrant 18 catégories réelles, allant de courtes opérations du quotidien à des workflows de plus de 50 étapes, et impliquant 1 280 commandes uniques. À partir de ces dernières, nous sélectionnons un sous-ensemble Verified de 200 tâches représentatives et examinées manuellement. Un benchmarking exhaustif sur TerminalWorld-Verified portant sur huit modèles de pointe et six agents révèle que les systèmes actuels peinent encore face à des workflows authentiques sur terminal, avec un taux de réussite maximal de seulement 62,5 %. De plus, TerminalWorld capture des capacités terminales réelles distinctes des benchmarks existants, conçus par des experts (par exemple, Terminal-Bench), avec une corrélation faible par rapport à leurs scores (r de Pearson = 0,20). Le moteur automatisé confère à TerminalWorld une authenticité et une scalabilité intrinsèques, permettant d'évaluer les agents dans des environnements terminaux réels, au fil de l'évolution des pratiques des développeurs. Les données et le code sont disponibles à l'adresse https://github.com/EuniAI/TerminalWorld.
Les notes cliniques longitudinales contiennent des preuves riches de l'évolution des patients dans le temps, mais convertir ce signal en supervision d'entraînement pour la prédiction clinique reste un défi. Nous étendons l'Apprentissage par Anticipation (Foresight Learning) à la prédiction clinique en convertissant les notes MIMIC-III ordonnées chronologiquement en exemples composés d'un contexte passé du patient, d'une question en langage naturel concernant un événement futur possible, et d'une étiquette extraite de la documentation ultérieure. Ce processus génère 6 900 exemples de prédiction à partir de 702 admissions, couvrant les médicaments, les procédures, le support d'organes, la microbiologie et la mortalité. Un petit adaptateur LoRA entraîné sur ces exemples améliore le modèle de base sollicité, réduisant l'erreur de calibration attendue de 0,1269 à 0,0398 et le score de Brier de 0,199 à 0,145, tout en surpassant légèrement les estimations ponctuelles de GPT-5 sur des questions exclues de l'entraînement. Cette approche permet de réutiliser la supervision pour la prédiction clinique à partir de notes longitudinales, sans nécessiter de caractéristiques structurées conçues manuellement ni de classificateurs spécifiques aux critères de jugement.
Les dispositions de puces fabriquables doivent respecter des milliers de règles de conception basées sur la géométrie, et la vérification des règles de conception (DRC) les applique en exécutant des scripts DRC sur les dispositions. Traduire des règles en langage naturel en scripts DRC corrects est une tâche laborieuse qui nécessite une expertise spécialisée, ce qui motive le recours à des agents LLM pour la synthèse et le débogage de scripts DRC. Cependant, les benchmarks existants disposent de petits ensembles d'évaluation et évaluent souvent les scripts par similarité de code plutôt que par exactitude d'exécution, et les précédentes méthodes basées sur l'apprentissage automatique ignorent soit le retour d'exécution, soit nécessitent des dispositions de test étiquetées en entrée de l'agent. Pour y remédier, nous introduisons Rule2DRC, un benchmark à grande échelle pour les agents de codage de scripts DRC, avec 1 000 tâches de traduction règle-vers-script et 13 921 dispositions de puces d'évaluation pour un score basé sur l'exécution. Rule2DRC fournit un pipeline d'évaluation qui mesure l'exactitude fonctionnelle via les résultats d'exécution DRC sans nécessiter que les dispositions d'évaluation soient fournies en entrée à l'agent. Nous proposons également SplitTester, un agent testeur pour la sélection de programmes qui utilise le retour d'exécution pour générer des cas de test discriminants et séparer des scripts candidats auparavant indistinguables, améliorant considérablement les performances de sélection du meilleur parmi N dans ce domaine. Nous publions le code sur https://github.com/snu-mllab/Rule2DRC.
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) a montré un fort potentiel pour le raisonnement des LLM, mais le RLVR basé sur les résultats reste inefficace sur les problèmes difficiles car les déploiements de réponses finales correctes sont rares et l'attribution de crédit au niveau de l'échantillon ne peut pas utiliser les progrès partiels des tentatives échouées. Nous introduisons SCRL (Apprentissage par Renforcement Curriculaire par Sous-problèmes), un cadre d'apprentissage par renforcement curriculaire qui dérive des sous-problèmes vérifiables à partir de chaînes de raisonnement de référence et fixe le sous-problème final comme étant le problème original. Cela transforme les progrès partiels sur les problèmes difficiles en signaux d'apprentissage vérifiables. Sur le plan algorithmique, SCRL utilise une normalisation au niveau des sous-problèmes, qui normalise les récompenses indépendamment à chaque position de sous-problème et attribue les avantages résultants aux segments de réponse correspondants, permettant une attribution de crédit plus fine sans grilles d'évaluation externes ni modèles de récompense. Notre analyse montre que les programmes d'études par sous-problèmes extraient les problèmes difficiles des zones mortes de gradient, avec des gains relatifs plus importants à mesure que le problème original devient plus difficile. Sur sept bancs d'essai de raisonnement mathématique, SCRL surpasse les références solides d'apprentissage curriculaire, améliorant la précision moyenne par rapport à GRPO de +4,1 points sur Qwen3-4B-Base et de +1,9 points sur Qwen3-14B-Base. Sur AIME24, AIME25 et IMO-Bench, SCRL améliore en outre le pass@1 de +3,7 points et le pass@64 de +4,6 points sur Qwen3-4B-Base, indiquant une meilleure exploration des problèmes de raisonnement difficiles.
Alors que les dispositifs portables et mobiles s’intègrent de plus en plus dans la vie quotidienne, ils offrent un moyen pratique de détecter en continu le mouvement humain en conditions réelles. Mais les signaux inertiels dépendent fortement de la configuration de détection, notamment l’emplacement sur le corps, la position de montage, l’orientation du capteur, le matériel de l’appareil et le protocole d’échantillonnage. Cette dépendance à la configuration rend difficile l’apprentissage de représentations de mouvement transférables entre dispositifs et jeux de données, et limite l’utilisation plus large des IMU portables au-delà de la reconnaissance en ensemble fermé. Nous présentons AnyMo, un cadre géométrique pour la modélisation du mouvement humain agnostique à la configuration. AnyMo utilise une simulation d’IMU fondée sur la physique sur des placements denses à la surface du corps pour générer des signaux synthétiques diversifiés et plausibles, pré-entraîne un encodeur de graphes à partir de vues de placement synthétiques appariées et d’observations partielles masquées, tokenise les IMU multi-positions en jetons de mouvement corporel complet, et aligne ces jetons avec un LLM pour la compréhension mouvement-langage. Nous évaluons AnyMo sur trois tâches complémentaires : la reconnaissance d’activité zero-shot sur 14 jeux de données avals non vus, la récupération cross-modale, et le légendage de mouvement par IMU portable, où il améliore la Précision/F1/R@2 moyenne de 11,7 %/11,6 %/22,6 % en HAR, augmente le MRR de récupération IMU-texte et texte-IMU en zero-shot de 15,9 % et 28,6 % respectivement, et améliore le BERT-F1 du légendage zero-shot de 18,8 %. Ces résultats soutiennent AnyMo en tant que modèle généraliste pour la compréhension du mouvement portable en conditions réelles. Page du projet : https://baiyuchen.com/project/AnyMo.
Les autoencodeurs de représentation (RAE) exploitent des modèles de base de vision figés (VFM) comme encodeurs de tokenisation, fournissant des représentations robustes de haut niveau qui favorisent une convergence rapide et une génération de haute qualité dans les modèles de diffusion latente. Cependant, le gel du VFM contraint intrinsèquement sa capacité de reconstruction spatiale, limitant la génération fine et l'édition d'images ; inversement, l'intégration de signaux orientés reconstruction via un réglage fin perturbe l'espace sémantique pré-entraîné et dégrade la fidélité générative. Pour résoudre ce compromis, nous proposons DecQ, un cadre simple mais efficace pour les RAE. Plus précisément, DecQ introduit des requêtes légères de condensation de détails qui extraient des informations fines des caractéristiques intermédiaires du VFM via des modules condenseurs. Ces requêtes sont intégrées dans le décodeur pour soutenir la reconstruction et sont générées conjointement avec les jetons de patch lors de la modélisation générative. En agrégeant les informations des couches superficielles et profondes, DecQ atténue efficacement le compromis reconstruction-génération, améliorant à la fois la qualité de reconstruction et la performance générative. Nos expériences démontrent que : (1) avec seulement 8 requêtes supplémentaires et 3,9 % de calcul additionnel, DecQ améliore la reconstruction par rapport au RAE basé sur DINOv2 figé, augmentant le PSNR de 19,13 dB à 22,76 dB ; et (2) pour la modélisation générative, DecQ atteint une convergence 3,3 fois plus rapide que le RAE, obtenant un FID de 1,41 sans guidage et de 1,05 avec guidage.
La détection des valeurs de Schwartz dans les textes politiques est difficile car les indices implicites dépendent souvent des arguments environnants et des distinctions subtiles entre des valeurs voisines. Nous étudions quand le contexte et les connaissances morales explicites aident à la détection des valeurs au niveau des phrases. En utilisant le format ValuesML/Touch{é} ValueEval, nous comparons des entrées au niveau de la phrase, d'une fenêtre contextuelle et du document entier ; des configurations sans RAG et avec augmentation par récupération (RAG) utilisant une base de connaissances morales constituée ; des encodeurs supervisés DeBERTa-v3-base/large ; et des LLM en zero-shot de 12B à 123B paramètres. Les résultats montrent que davantage de contexte n'est pas uniformément bénéfique : le contexte du document entier améliore les encodeurs DeBERTa supervisés de 3,8 à 4,8 points de macro-F1 par rapport à une entrée uniquement composée de phrases, mais n'aide pas systématiquement les LLM en zero-shot. Les connaissances morales récupérées sont plus systématiquement utiles dans les comparaisons appariées, améliorant chaque famille de modèles testée et chaque condition de contexte en fusion précoce. Cependant, passer de DeBERTa-v3-base à large et de 12B à des LLM plus grands ne garantit pas de gains, et la fusion précoce simple surpasse les variantes de RAG avec fusion tardive et attention croisée testées pour les encodeurs. Les analyses par valeur montrent que le contexte et la récupération aident le plus pour les valeurs socialement situées ou conceptuellement confondues. Ces résultats suggèrent que le TAL sensible aux valeurs devrait évaluer conjointement le contexte, les connaissances et la famille de modèles, plutôt que de considérer des entrées plus longues ou des modèles plus grands comme des améliorations universelles.
La compréhension vidéo en continu omni-proactive, c'est-à-dire la capacité à décider de manière autonome quand parler et quoi dire à partir de flux audio-visuels continus, est une capacité émergente des grands modèles de langage omni-modaux. Les benchmarks existants présentent trois lacunes principales : ils reposent principalement sur des signaux visuels, adoptent des protocoles d'interrogation ou à horodatage fixe au lieu d'une véritable évaluation proactive, et ne couvrent qu'un nombre limité de tâches, empêchant ainsi une évaluation fiable et une différenciation des modèles de streaming omni-proactifs. Nous présentons OmniPro, le premier benchmark à évaluer conjointement la perception omni-modale, la réponse proactive et diverses tâches de compréhension vidéo. Il comprend 2 700 échantillons vérifiés par des humains couvrant 9 sous-tâches et 3 niveaux cognitifs, représentant 6 capacités fondamentales de compréhension vidéo. Notamment, 84 % des échantillons nécessitent des signaux audio (parole ou non-parole), et chaque échantillon est annoté avec des étiquettes d'isolation de modalité pour permettre une analyse multimodale fine. Nous introduisons en outre un protocole d'évaluation à double mode : le mode Probe évalue la compréhension du contenu en interrogeant le modèle avant et après chaque déclencheur de vérité terrain, tandis que le mode Online évalue la pleine capacité proactive en exigeant des modèles qu'ils décident de manière autonome du moment de répondre dans un flux d'entrée continu. L'évaluation de 11 modèles représentatifs révèle trois constats clés : (1) l'audio apporte des gains constants mais avec une utilisation très variable selon les modèles, (2) les performances se dégradent significativement au fil du temps, indiquant une robustesse limitée sur de longs horizons, et (3) la perception audio non-parole reste la dimension la plus faible.
Alors que les grands modèles de langage (LLM) façonnent de plus en plus la manière dont les utilisateurs forment, affinent et étendent leurs objectifs, l'attribution des contributions dans la collaboration humain-IA devient cruciale pour que les utilisateurs puissent calibrer leur propre confiance et pour que les évaluateurs évaluent le travail assisté par IA. Pourtant, les méthodes existantes se concentrent sur les artefacts finaux, négligeant le processus par lequel les objectifs eux-mêmes sont co-construits. Nous introduisons un cadre d'attribution au niveau des objectifs, CoTrace, qui décompose les objectifs explicites en exigences vérifiables et retrace à la fois les contributions directes et les influences indirectes à travers les tours de dialogue. En appliquant CoTrace à 638 journaux de collaboration réels, nous constatons que si les modèles ne représentent que 11 à 26 % de la contribution à la définition des objectifs, ils contribuent de manière beaucoup plus significative à l'introduction d'exigences concrètes de bas niveau et fournissent divers types de contributions indirectes. Grâce à des simulations contrôlées, nous montrons que les choix de conception d'interaction affectent considérablement le comportement des modèles en matière de définition d'objectifs. Dans une étude utilisateur, le fait d'exposer les participants à des analyses au niveau des objectifs modifie leur perception des contributions de près de 2 points sur une échelle de 5 points, révélant une mauvaise calibration systématique dans la manière dont les utilisateurs comprennent leur propre travail assisté par IA.
Nous présentons Lean Refactor, un cadre agentique prêt à l'emploi augmenté par recherche pour le refactoring multi-objectif, contrôlable et robuste aux versions des preuves Lean. Les preuves générées par LLM sont notoirement correctes mais verbeuses et fragiles face aux versions de bibliothèques, pourtant les travaux existants sur le refactoring négligent trois défis pratiques : 1) Le refactoring Lean est naturellement multi-objectif (la longueur de la preuve, le coût de compilation et la compatibilité de version sont souvent en tension) ; 2) Les dépôts Lean présentent une compatibilité fragile, tandis que les versions de LLM ignorent les versions de Lean/Mathlib ; 3) Les pipelines basés sur l'entraînement nécessitent un réglage fin répété à chaque nouvelle version de LLM, ne passant à l'échelle ni avec le renouvellement des modèles ni avec le cycle de publication de Lean. Lean Refactor oriente un LLM agentique figé à l'aide de recherches dans une base de données organisée de stratégies de refactoring multi-objectif, chacune densément annotée avec des métadonnées telles que les versions de Lean/Mathlib supportées et la réduction attendue du coût de compilation. Les expériences montrent une compression de plus de 70 % au niveau des tokens sur les bancs d'essai de compétition, plus de 20 % sur les dépôts de recherche, et une réduction du temps de compilation allant jusqu'à 60 %, surpassant les travaux antérieurs et Claude Code. La recherche filtrée par version améliore en outre la compression sur la version cible de Lean, et les preuves miniF2F refactorisées présentent un transfert de version zero-shot plus fort vers les futures versions de Lean que leurs homologues non refactorisés.
Le déséquilibre de classe est un défi fondamental dans la segmentation d'images médicales, où les classes fréquentes dominent généralement l'entraînement au détriment des classes rares. Les approches basées sur la fonction de perte atténuent ce déséquilibre en repondérant la perte par pixel au sein du lot, tandis que les stratégies d'échantillonnage contrôlent quelles images entrent dans le lot. Cependant, aucune ne contrôle explicitement quelles classes apparaissent dans le lot, ne laissant qu'un rééquilibrage partiel de l'exposition des classes rares. Dans ce travail, nous adoptons l'échantillonnage épisodique issu de l'apprentissage en quelques exemples (few-shot learning) pour favoriser une construction équilibrée des lots dans un cadre entièrement supervisé. Nous dissocions l'échantillonnage épisodique de son contexte conventionnel d'apprentissage métrique et l'évaluons dans la segmentation de la composition corporelle en tomodensitométrie (CT). Nous comparons l'échantillonnage épisodique à l'échantillonnage aléatoire et pondéré sur neuf tissus musculaires et adipeux, issus de 210 scans du jeu de données public SAROS. L'entraînement est réalisé en régimes de données complètes et de données réduites, avec des comparaisons supplémentaires sous des budgets d'itérations d'entraînement appariés. En entraînement avec données complètes, les trois stratégies ont donné des résultats comparables (Dice moyen de 0,882 pour l'échantillonnage épisodique, 0,878 pour l'aléatoire et le pondéré). En entraînement avec données réduites, l'échantillonnage épisodique a surpassé l'aléatoire et le pondéré (0,787 contre 0,758 et 0,762), porté par une différence d'un facteur 12 dans le nombre d'itérations d'entraînement. Sous des budgets d'entraînement appariés, l'échantillonnage aléatoire et pondéré ont montré un surapprentissage plus précoce, tandis que l'échantillonnage épisodique a continué à s'améliorer pendant environ trois fois plus d'itérations avant d'atteindre un plateau. Nos résultats identifient le budget d'itérations d'entraînement comme un facteur de confusion sous-estimé dans les stratégies d'échantillonnage, ce qui motive des protocoles d'évaluation tenant compte des itérations pour les petits ensembles de données. De plus, l'avantage résiduel de l'échantillonnage épisodique est cohérent avec un effet de régularisation implicite des lots équilibrés en classes, offrant une stratégie peu coûteuse et indépendante du modèle pour la segmentation d'images médicales avec déséquilibre de classes. Le code est disponible à l'adresse https://github.com/iasonsky/episodic-sampling.
Les lois d'échelle ont rendu la performance des modèles de langage prévisible à partir de la taille du modèle, des données et du calcul, mais elles traitent généralement l'optimiseur comme un détail d'entraînement fixe. Nous montrons que cette hypothèse néglige un axe fondamental du scaling des représentations : l'efficacité avec laquelle l'optimiseur convertit une largeur accrue du FFN en capacité spectrale utilisée. En utilisant les spectres propres des représentations des réseaux feed-forward, mesurés via des rangs spectraux mous et durs, nous constatons qu'une même architecture Transformer présente des lois d'échelle spectrales nettement différentes selon l'optimiseur utilisé. En maintenant l'architecture et le plan de largeur fixes, AdamW présente un faible scaling de rang dur (β = 0,44) sur les représentations de tokens rares (TAIL), où l'apprentissage est connu pour être le plus difficile, tandis que Muon atteint un scaling linéaire (β = 1,02) dans les mêmes régimes, soit une augmentation d'un facteur 2,3 de l'exposant d'échelle. Cette différence ne se réduit pas à la perte de validation : les configurations AdamW peuvent égaler la perplexité de variantes Dion à faible rang, après un entraînement prolongé, tout en présentant une géométrie spectrale nettement différente, démontrant qu'une perte équivalente n'implique pas une structure de représentation équivalente. L'asymétrie de rang dur-mou révèle en outre que les optimiseurs diffèrent non seulement par la quantité de capacité réalisée, mais aussi par la manière dont cette capacité est structurée à travers les modes propres. Pour distinguer les effets des optimiseurs de ceux liés à l'architecture, nous comparons ces effets à des interventions architecturales (par exemple, le rang de l'attention et le codage positionnel) et constatons que les décalages spectraux induits par l'optimiseur dépassent souvent les effets architecturaux. Ces résultats suggèrent que l'optimisation constitue un axe de première classe du scaling des représentations, motivant une co-conception optimiseur–architecture.
L'hypothèse forte de la représentation platonicienne suggère que la convergence représentationnelle dans les réseaux de neurones artificiels peut être exploitée de manière constructive : les plongements peuvent être traduits entre modèles via un espace latent universel sans données appariées. Nous nous demandons si une géométrie analogue peut être retrouvée à travers les cerveaux humains. En utilisant des données d'IRMf issues du Natural Scenes Dataset, nous proposons un encodeur auto-supervisé qui apprend des plongements spécifiques aux sujets à partir des seules données cérébrales en exploitant des présentations répétées de stimuli. Nous montrons que ces espaces appris indépendamment peuvent être traduits entre sujets à l'aide de rotations orthogonales non supervisées, sans échantillons appariés entre sujets ni représentations de modèle intermédiaires. La synchronisation des rotations par paires en un seul espace latent partagé améliore encore la récupération inter-sujets, indiquant que les espaces spécifiques aux sujets sont mutuellement compatibles avec un système de coordonnées commun. Ces résultats apportent la preuve d'une géométrie neuronale partagée dans le cortex visuel humain : les représentations IRMf spécifiques aux sujets sont approximativement isométriques entre individus et peuvent être traduites par des transformations purement géométriques.
La génération musicale interactive en streaming promet l'utilisation de modèles génératifs pour la performance en direct et la co-création, ce qui est impossible avec les modèles hors ligne. Cependant, les modèles de pointe relèvent du régime AR discret, nécessitant des ressources de calcul de niveau industriel tant pour l'entraînement que pour l'inférence. Dans ce travail, nous examinons si les modèles de diffusion audio, bénéficiant d'un large soutien dans la communauté open source mais de nature bidirectionnelle non streamable, peuvent être efficacement réutilisés comme modèles interactifs accessibles sur du matériel grand public. En adoptant une approche critique du pipeline moderne de diffusion par extrapolation par blocs, nous identifions des inefficacités clés lors de l'inférence qui conduisent à une efficacité computationnelle strictement inférieure à celle de leurs homologues AR discrets. Nous proposons les modèles de diffusion musicale en direct (LMDMs), une simple modification du processus de diffusion générative qui permet de retrouver, puis de surpasser, la complexité d'inférence des modèles de musique en direct discrets (LMMs) grâce à une mise en cache KV par blocs. Contrairement aux LMMs, les LMDMs permettent en outre un alignement stable post-entraînement via notre nouveau paradigme ARC-Forcing, réduisant l'accumulation d'erreurs sans aucun recours explicite à l'apprentissage par renforcement ou à des modèles de récompense. Nous démontrons l'application des LMDMs dans plusieurs domaines créatifs, notamment la génération conditionnée par du texte, la synthèse musicale à partir d'esquisses et le jamming. Enfin, nous montrons comment les LMDMs peuvent être utilisés comme instrument génératif dans une véritable collaboration artiste-IA, en employant les LMDMs comme "delay génératif" pour transformer l'improvisation des musiciens en direct avec des effets timbraux variables, le tout fonctionnant localement sur un ordinateur portable grand public dédié au jeu.
La reconstruction 3D d'animaux dans la nature reste difficile en raison de la grande variété des espèces, des occlusions fréquentes et de la prévalence de scènes multi-animaux, alors que les méthodes existantes se concentrent principalement sur des contextes à animal unique. Nous présentons SAM 3D Animal, le premier cadre promptable pour la reconstruction 3D multi-animaux à partir d'une seule image. Construite sur le modèle paramétrique animal SMAL+, notre méthode reconstruit conjointement plusieurs instances et prend en charge des invites (prompts) flexibles sous forme de points clés et de masques, ce qui permet une désambiguïsation plus fiable dans les scènes encombrées et occluses. Pour entraîner un tel modèle, nous introduisons également Herd3D, un jeu de données 3D multi-animaux contenant plus de 5 000 images, conçu pour accroître la diversité des espèces, des interactions et des schémas d'occlusion. Les expériences sur les ensembles de données Animal3D, APTv2 et Animal Kingdom montrent que notre cadre atteint des résultats de pointe par rapport aux méthodes existantes, qu'elles soient basées sur modèle ou sans modèle, démontrant ainsi une solution scalable et efficace pour la reconstruction 3D d'animaux pilotée par prompts dans la nature.
Odometrie visuo-inertielle (VIO), essentielle à la navigation des robots mobiles, utilise des caméras dotées d'un grand nombre de pixels. La capture et le traitement des images de caméra nécessitent des ressources importantes. Ce travail présente une approche minimaliste de l'odométrie planaire, démontrant que seulement quatre mesures visuelles et une IMU peuvent fournir une estimation robuste du mouvement pour les robots à entraînement différentiel. Notre idée clé est que quatre photodiodes orientées vers le bas, percevant le monde à travers des masques de Gabor optiques, produisent des signaux qui encodent la vitesse. Sur cette base, nous optimisons conjointement les paramètres du masque avec un réseau convolutif temporel (TCN) en utilisant un simulateur fondé physiquement. Le modèle résultant décode la vitesse à partir des quatre mesures produites par les photodiodes. En associant ces estimations à la vitesse angulaire d'une IMU, on obtient une trajectoire planaire continue. Nous validons notre approche avec un capteur prototype monté sur un robot à entraînement différentiel. Sur divers terrains intérieurs et extérieurs, notre système suit de près la vérité terrain de référence sans aucun réglage fin dans le monde réel. Notre travail montre que la détection minimaliste permet une odométrie planaire efficace et précise.
La recherche d'images de mode est un pilier des systèmes de commerce électronique modernes. Un cadre unifié capable de prendre en charge divers formats de requêtes et intentions de recherche est fortement souhaité en pratique. Cependant, les approches existantes se concentrent sur des tâches de recherche étroites et ne capturent pas pleinement cette diversité. Ainsi, dans ce travail, nous visons à développer un cadre unifié capable de gérer divers scénarios réalistes de recherche de mode, réalisant une véritable recherche d'images de mode polyvalente. Pour établir une base de données, nous introduisons d'abord U-FIRE, un benchmark complet qui consolide des ensembles de données de mode fragmentés en une collection unifiée, complétée par deux ensembles de données annotés manuellement pour tester la généralisation. Sur cette base, nous proposons FashionLens, un cadre unifié basé sur des modèles de langage multimodaux à grande échelle. Pour gérer des objectifs de correspondance divergents, nous concevons un Calibrateur de Requêtes Sphériques Guidé par Propositions qui déplace dynamiquement les représentations des requêtes dans des espaces métriques alignés sur les tâches via une interpolation linéaire sphérique adaptative. De plus, pour atténuer le déséquilibre d'optimisation causé par des complexités de tâches et des échelles de données variables, nous développons une stratégie d'Échantillonnage Adaptatif Guidé par Gradient qui repondère automatiquement les tâches en fonction de la difficulté d'apprentissage en temps réel et de l'échelle de données priori. Les expériences sur U-FIRE montrent que FashionLens atteint des performances de pointe dans divers scénarios de recherche et se généralise de manière robuste à des tâches inédites. Les données et le code sont publiés publiquement à l'adresse https://github.com/haokunwen/FashionLens.