Articles de recherche IA sélectionnés quotidiennement avec traductions
Les progrès récents en génération vidéo ont mis en lumière un phénomène inattendu : les modèles vidéo basés sur la diffusion présentent des capacités de raisonnement non triviales. Les travaux antérieurs attribuent cela à un mécanisme de Chaîne d'Images (Chain-of-Frames, CoF), où le raisonnement est supposé se dérouler séquentiellement à travers les images vidéo. Dans ce travail, nous remettons en cause cette hypothèse et découvrons un mécanisme fondamentalement différent. Nous montrons que le raisonnement dans les modèles vidéo émerge principalement le long des étapes de dé-bruitage de la diffusion. Par une analyse qualitative et des expériences de sondage ciblées, nous constatons que les modèles explorent plusieurs solutions candidates dans les premières étapes de dé-bruitage et convergent progressivement vers une réponse finale, un processus que nous nommons Chaîne d'Étapes (Chain-of-Steps, CoS). Au-delà de ce mécanisme central, nous identifions plusieurs comportements de raisonnement émergents essentiels aux performances du modèle : (1) la mémoire de travail, permettant une référence persistante ; (2) l'auto-correction et l'amélioration, permettant de revenir de solutions intermédiaires incorrectes ; et (3) la perception avant l'action, où les premières étapes établissent un ancrage sémantique et les étapes ultérieures effectuent une manipulation structurée. Au cours d'une étape de diffusion, nous découvrons en outre une spécialisation fonctionnelle auto-évoluée au sein des Transformers de Diffusion, où les premières couches encodent une structure perceptuelle dense, les couches intermédiaires exécutent le raisonnement et les couches ultérieures consolident les représentations latentes. Motivés par ces observations, nous présentons une stratégie simple sans apprentissage comme preuve de concept, démontrant comment le raisonnement peut être amélioré en agrégeant les trajectoires latentes de modèles identiques avec différentes graines aléatoires. Globalement, notre travail fournit une compréhension systématique de la manière dont le raisonnement émerge dans les modèles de génération vidéo, offrant une base pour guider les recherches futures afin de mieux exploiter la dynamique de raisonnement inhérente des modèles vidéo en tant que nouveau substrat pour l'intelligence.
Les grands modèles de langage de code récents ont réalisé des progrès remarquables dans les tâches de programmation générales. Néanmoins, leurs performances se dégradent significativement dans les scénarios industriels nécessitant un raisonnement sur la sémantique matérielle, des constructions linguistiques spécialisées et des contraintes de ressources strictes. Pour relever ces défis, nous présentons InCoder-32B (Industrial-Coder-32B), le premier modèle de fondation de code à 32 milliards de paramètres unifiant l'intelligence du code à travers la conception de puces, l'optimisation de noyaux GPU, les systèmes embarqués, l'optimisation de compilateurs et la modélisation 3D. En adoptant une architecture efficace, nous entraînons InCoder-32B à partir de zéro avec un pré-entraînement sur du code général, un recuit sur du code industriel sélectionné, un entraînement intermédiaire étendant progressivement le contexte de 8 000 à 128 000 jetons avec des données de raisonnement industriel synthétiques, et un post-entraînement avec vérification fondée sur l'exécution. Nous menons une évaluation approfondie sur 14 benchmarks de code général principaux et 9 benchmarks industriels couvrant 4 domaines spécialisés. Les résultats montrent qu'InCoder-32B atteint des performances très compétitives sur les tâches générales tout en établissant de solides bases open-source à travers les domaines industriels.
Les modèles linguistiques omnimodaux (MLO) redéfinissent l'interaction homme-machine en intégrant nativement l'audio, la vision et le texte. Cependant, les benchmarks existants pour les MLO restent ancrés dans des tâches statiques axées sur la précision, laissant un vide critique dans l'évaluation de l'interactivité sociale, capacité fondamentale à naviguer les indices dynamiques dans les dialogues naturels. Pour combler cette lacune, nous proposons SocialOmni, un benchmark complet qui opérationnalise l'évaluation de cette interactivité conversationnelle selon trois dimensions clés : (i) la séparation et l'identification des locuteurs (qui parle), (ii) le contrôle du moment d'interruption (quand intervenir), et (iii) la génération d'interruptions naturelles (comment formuler l'interruption). SocialOmni comprend 2 000 échantillons de perception et un ensemble diagnostique de 209 instances de génération d'interaction, contrôlé qualitativement avec des contraintes temporelles et contextuelles strictes, le tout étant complété par des scénarios d'incohérence audio-visuelle contrôlés pour tester la robustesse des modèles. Nous avons évalué 12 MLO leaders, ce qui révèle une variance significative de leurs capacités d'interaction sociale selon les modèles. De plus, notre analyse met en évidence un découplage prononcé entre la précision perceptuelle d'un modèle et sa capacité à générer des interruptions contextuellement appropriées, indiquant que les métriques centrées sur la compréhension seule sont insuffisantes pour caractériser la compétence sociale conversationnelle. Plus encourageant encore, ces diagnostics issus de SocialOmni produisent des signaux actionnables pour combler le fossé perception-interaction dans les futurs MLO.
Nous présentons MiroThinker-1.7, un nouvel agent de recherche conçu pour les tâches de raisonnement complexes à long horizon. Sur cette base, nous introduisons également MiroThinker-H1, qui étend les capacités de l'agent avec un raisonnement approfondi pour une résolution de problèmes multi-étapes plus fiable. En particulier, MiroThinker-1.7 améliore la fiabilité de chaque étape d'interaction grâce à une phase d'entraînement intermédiaire qui met l'accent sur la planification structurée, le raisonnement contextuel et l'interaction avec des outils. Cela permet une interaction multi-étapes plus efficace et un raisonnement soutenu pour les tâches complexes. MiroThinker-H1 intègre en outre une vérification directement dans le processus de raisonnement, aux niveaux local et global. Les décisions de raisonnement intermédiaires peuvent être évaluées et affinées lors de l'inférence, tandis que la trajectoire globale du raisonnement est auditée pour garantir que les réponses finales s'appuient sur des chaînes de preuves cohérentes. Sur des benchmarks couvrant la recherche web ouverte, le raisonnement scientifique et l'analyse financière, MiroThinker-H1 obtient des performances à la pointe de l'état de l'art pour les tâches de recherche approfondie, tout en maintenant des résultats solides dans des domaines spécialisés. Nous publions également MiroThinker-1.7 et MiroThinker-1.7-mini en tant que modèles open-source, offrant des capacités compétitives d'agent de recherche avec une efficacité nettement améliorée.
Nous présentons Qianfan-OCR, un modèle vision-langage de bout en bout comptant 4 milliards de paramètres, qui unifie l'analyse documentaire, l'analyse de mise en page et la compréhension de documents au sein d'une architecture unique. Il effectue une conversion directe image-vers-Markdown et prend en charge diverses tâches pilotées par des invites, incluant l'extraction de tableaux, la compréhension de graphiques, la question-réponse sur documents et l'extraction d'informations clés. Pour pallier la perte de l'analyse explicite de la mise en page dans la reconnaissance optique de caractères (OCR) de bout en bout, nous proposons Layout-as-Thought, une phase de réflexion facultative déclenchée par des jetons de pensée spéciaux. Cette phase génère des représentations structurées de la mise en page – boîtes englobantes, types d'éléments et ordre de lecture – avant de produire les résultats finaux, restaurant ainsi les capacités d'ancrage spatial tout en améliorant la précision sur les mises en page complexes. Qianfan-OCR se classe premier parmi les modèles de bout en bout sur OmniDocBench v1.5 (93,12) et OlmOCR Bench (79,8), obtient des résultats compétitifs sur OCRBench, CCOCR, DocVQA et ChartQA par rapport aux modèles vision-langage généraux d'échelle comparable, et atteint le score moyen le plus élevé sur les benchmarks publics d'extraction d'informations clés, surpassant Gemini-3.1-Pro, Seed-2.0 et Qwen3-VL-235B. Le modèle est accessible publiquement via la plateforme Qianfan de Baidu AI Cloud.
Les récents progrès des modèles de raisonnement multimodal (MLRM) ont considérablement amélioré les performances en réponse à des questions visuelles. Cependant, nous observons que les mots de transition (par exemple, parce que, cependant, et attends) sont étroitement associés aux hallucinations et tendent à présenter des états à haute entropie. Nous soutenons que des informations de raisonnement contextuel adéquates peuvent être extraites directement de la distribution de probabilité des tokens. Inspirés par la théorie de la représentation superposée, nous proposons d'exploiter le raisonnement latent superposé pour intégrer de multiples sémantiques candidates et maintenir des trajectoires de raisonnement latentes. L'hypothèse est que la dépendance à des entrées textuelles discrètes pourrait conduire le modèle vers un raisonnement explicite séquentiel, sous-utilisant les indices contextuels denses durant les phases de raisonnement à haute entropie. Par conséquent, nous proposons de construire des représentations sémantiques riches à partir des distributions de probabilité des tokens pour améliorer le raisonnement en contexte. Dans ce but, nous présentons le Décodage Sensible à l'Entropie Latente (LEAD), une stratégie de décodage efficace prête à l'emploi qui exploite le contexte sémantique pour parvenir à un raisonnement fiable. Le cœur de notre méthode réside dans la commutation de mode de raisonnement sensible à l'entropie. Le modèle utilise des embeddings continus pondérés par les probabilités dans les états de haute entropie et revient aux embeddings discrets de tokens lorsque l'entropie diminue. De plus, nous proposons une stratégie d'injection d'ancres visuelles guidée par des connaissances préalables qui encourage le modèle à se concentrer sur l'information visuelle. Des expériences approfondies montrent que LEAD atténue efficacement les hallucinations sur divers MLRM et plusieurs benchmarks.
La simulation des interactions robot-monde est une pierre angulaire de l'intelligence artificielle incarnée. Récemment, quelques travaux ont montré des résultats prometteurs en exploitant les générations vidéo pour transcender les contraintes visuelles/physiques rigides des simulateurs traditionnels. Cependant, ils opèrent principalement dans l'espace 2D ou sont guidés par des indices environnementaux statiques, ignorant la réalité fondamentale que les interactions robot-monde sont intrinsèquement des événements spatiotemporels 4D nécessitant une modélisation interactive précise. Pour restaurer cette essence 4D tout en garantissant un contrôle précis du robot, nous présentons Kinema4D, un nouveau simulateur robotique génératif 4D conditionné par l'action qui décompose l'interaction robot-monde en : i) Une représentation 4D précise des contrôles robotiques : nous pilotons un robot 3D basé sur URDF via la cinématique, produisant une trajectoire de contrôle robotique 4D précise. ii) Une modélisation générative 4D des réactions environnementales : nous projetons la trajectoire robotique 4D dans une carte de points comme signal visuel spatiotemporel, contrôlant le modèle génératif pour synthétiser la dynamique réactive d'environnements complexes en séquences synchronisées RVB/carte de points. Pour faciliter l'entraînement, nous avons constitué un jeu de données à grande échelle appelé Robo4D-200k, comprenant 201 426 épisodes d'interaction robotique avec des annotations 4D de haute qualité. Des expériences approfondies démontrent que notre méthode simule efficacement des interactions physiquement plausibles, géométriquement cohérentes et indépendantes de l'incarnation, reflétant fidèlement diverses dynamiques du monde réel. Pour la première fois, elle montre une capacité potentielle de transfert zero-shot, offrant une base de haute fidélité pour faire progresser la simulation incarnée de nouvelle génération.
Les récentes avancées dans les transformateurs de diffusion vidéo ont permis le développement de modèles de mondes de jeu interactifs permettant aux utilisateurs d'explorer des environnements générés sur de longues séquences. Cependant, les approches existantes peinent à assurer un contrôle d'action précis et une cohérence 3D à long terme. La plupart des travaux antérieurs traitent les actions utilisateur comme des signaux de conditionnement abstraits, négligeant le couplage géométrique fondamental entre les actions et le monde 3D, où les actions induisent des mouvements de caméra relatifs qui s'accumulent en une pose caméra globale dans un monde en trois dimensions. Dans cet article, nous établissons la pose caméra comme une représentation géométrique unificatrice pour ancrer conjointement le contrôle d'action immédiat et la cohérence 3D à long terme. Premièrement, nous définissons un espace d'action continu basé sur la physique et représentons les entrées utilisateur dans l'algèbre de Lie pour dériver des poses caméra 6-DoF précises, qui sont injectées dans le modèle génératif via un intégrateur de caméra pour garantir un alignement précis des actions. Deuxièmement, nous utilisons les poses caméra globales comme indices spatiaux pour récupérer les observations passées pertinentes, permettant une revisite géométriquement cohérente des lieux lors d'une navigation à long terme. Pour soutenir cette recherche, nous introduisons un jeu de données à grande échelle comprenant 3 000 minutes de gameplay humain authentique annotées avec des trajectoires de caméra et des descriptions textuelles. Des expériences approfondies montrent que notre approche surpasse substantiellement les modèles de mondes de jeu interactifs de pointe en matière de contrôlabilité des actions, de qualité visuelle à long terme et de cohérence spatiale 3D.
Le paradigme dominant pour améliorer les grands modèles de langage repose sur un apprentissage hors ligne avec des annotations humaines ou des environnements simulés, laissant l'expérience riche accumulée lors des déploiements réels entièrement inexploitée. Nous proposons l'Apprentissage Expérientiel en Ligne (OEL), un cadre qui permet aux modèles de langage de s'améliorer continuellement à partir de leur propre expérience de déploiement. OEL fonctionne en deux étapes : premièrement, des connaissances expérientielles transférables sont extraites et accumulées à partir des trajectoires d'interaction collectées côté utilisateur ; deuxièmement, ces connaissances sont consolidées dans les paramètres du modèle via une distillation contextuelle sur la politique, sans nécessiter d'accès à l'environnement utilisateur. Les deux étapes sont itérées pour former une boucle d'apprentissage en ligne, où le modèle amélioré collecte des trajectoires de meilleure qualité qui produisent des connaissances expérientielles plus riches pour les rounds suivants. Nous évaluons OEL sur des environnements de jeu textuels à différentes échelles de modèles et pour des variantes avec et sans raisonnement. OEL obtient des améliorations constantes sur les itérations successives, augmentant à la fois la précision des tâches et l'efficacité des tokens tout en préservant les performances hors distribution. Notre analyse montre en outre que les connaissances expérientielles extraites sont nettement plus efficaces que les trajectoires brutes, et que la cohérence sur la politique entre la source de connaissances et le modèle de politique est cruciale pour un apprentissage efficace.
L'analyse Text-to-SQL a réalisé des progrès remarquables sous l'hypothèse de Schéma Complet. Cependant, cette prémisse échoue dans les environnements d'entreprise réels où les bases de données contiennent des centaines de tables avec des métadonnées massives et bruitées. Plutôt que d'injecter le schéma complet d'emblée, un agent doit identifier et vérifier activement uniquement le sous-ensemble pertinent, donnant lieu au scénario de Schéma Inconnu que nous étudions dans ce travail. Pour y remédier, nous proposons TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools). Nous formulons la tâche comme un Processus de Décision Markovien Partiellement Observable où notre agent autonome emploie un protocole structuré en quatre phases pour ancrer le raisonnement dans des métadonnées vérifiées. Ce protocole fournit crucialement une frontière structurelle pour notre nouvelle stratégie GRPO à Double Piste. En appliquant des avantages masqués au niveau des tokens, cette stratégie isole les récompenses d'exploration des résultats d'exécution pour résoudre le problème d'attribution du crédit, produisant une amélioration relative de 9,9 % par rapport au GRPO standard. Des expériences approfondies sur cinq benchmarks démontrent que TRUST-SQL atteint une amélioration absolue moyenne de 30,6 % et 16,6 % pour les variantes 4B et 8B respectivement par rapport à leurs modèles de base. Fait remarquable, bien qu'il fonctionne entièrement sans métadonnées préchargées, notre cadre égale ou dépasse systématiquement les bases de référence solides qui reposent sur le pré-remplissage du schéma.
L'intégration des modèles de langage de grande taille (LLM) dans le domaine financier entraîne un changement de paradigme, passant d'une récupération passive de l'information à une interaction dynamique et agentique. Alors que l'apprentissage de l'utilisation d'outils à usage général a connu une explosion de benchmarks, le secteur financier, caractérisé par des enjeux élevés, une conformité stricte et une volatilité rapide des données, reste cruellement sous-desservi. Les évaluations financières existantes se concentrent principalement sur l'analyse textuelle statique ou les questions-réponses basées sur des documents, ignorant la réalité complexe de l'exécution des outils. À l'inverse, les benchmarks généraux d'outils manquent de la rigueur spécifique au domaine requise pour la finance, s'appuyant souvent sur des environnements simplistes ou un nombre négligeable d'API financières. Pour combler cette lacune, nous présentons FinToolBench, le premier benchmark exécutable en conditions réelles dédié à l'évaluation des agents d'apprentissage d'outils financiers. Contrairement aux travaux antérieurs limités à une poignée d'outils simulés, FinToolBench établit un écosystème réaliste couplant 760 outils financiers exécutables avec 295 requêtes rigoureuses nécessitant l'usage d'outils. Nous proposons un nouveau cadre d'évaluation qui va au-delà du simple succès binaire de l'exécution, en évaluant les agents sur des dimensions critiques pour la finance : la temporalité, le type d'intention et l'alignement sur le domaine réglementaire. De plus, nous présentons FATR, une base de référence pour la recherche d'outils et le raisonnement, sensible aux contraintes financières, qui améliore la stabilité et la conformité. En fournissant le premier banc d'essai pour une exécution financière agentique et vérifiable, FinToolBench établit une nouvelle norme pour l'IA digne de confiance en finance. Le manifeste des outils, l'environnement d'exécution et le code d'évaluation seront open-source pour faciliter la recherche future.
De nombreuses applications de grands modèles de langage nécessitent de conditionner sur de longs contextes. Les Transformers prennent généralement cela en charge en stockant un grand cache clé-valeur (KV-cache) par couche pour les activations passées, ce qui entraîne une surcharge mémoire substantielle. Une alternative souhaitable est la mémoire compressive : lire un contexte une fois, le stocker dans un état compact et répondre à de nombreuses requêtes à partir de cet état. Nous étudions cela dans un cadre de suppression de contexte, où le modèle doit générer une réponse sans avoir accès au contexte original au moment de l'inférence. Nous présentons GradMem, qui écrit le contexte en mémoire via une optimisation par échantillon au moment du test. Étant donné un contexte, GradMem effectue quelques étapes de descente de gradient sur un petit ensemble de jetons de mémoire de préfixe tout en gardant les poids du modèle gelés. GradMem optimise explicitement une perte d'auto-supervision au niveau du modèle pour la reconstruction du contexte, ce qui donne une opération d'écriture pilotée par la perte avec correction d'erreur itérative, contrairement aux méthodes uniquement avant. Sur la tâche de récupération associative clé-valeur, GradMem surpasse les écrivains de mémoire uniquement avant avec la même taille de mémoire, et des étapes de gradient supplémentaires augmentent la capacité bien plus efficacement que des écritures avant répétées. Nous montrons en outre que GradMem se généralise au-delà des benchmarks synthétiques : avec des modèles de langage pré-entraînés, il obtient des résultats compétitifs sur des tâches de langage naturel, y compris des variantes de bAbI et de SQuAD, en ne reposant que sur les informations encodées en mémoire.
Alors que les modèles récents de Flow Matching évitent les goulots d'étranglement de reconstruction des autoencodeurs latents en opérant directement dans l'espace des pixels, le manque de continuité sémantique dans la variété des pixels entremêle sévèrement les chemins de transport optimal. Cela induit de graves conflits de trajectoire près des intersections, produisant des solutions sous-optimales. Plutôt que de contourner ce problème via des représentations latentes avec perte d'information, nous démêlons directement les trajectoires dans l'espace des pixels en proposant les Waypoint Diffusion Transformers (WiT). WiT factorise le champ vectoriel continu via des points de passage sémantiques intermédiaires projetés à partir de modèles de vision pré-entraînés. Il démêle efficacement les trajectoires de génération en divisant le transport optimal en segments prior-vers-point-de-passage et point-de-passage-vers-pixel. Plus précisément, durant le processus itératif de débruitage, un générateur léger infère dynamiquement ces points de passage intermédiaires à partir de l'état bruité actuel. Ils conditionnent ensuite continuellement le transformeur de diffusion principal via le mécanisme Just-Pixel AdaLN, orientant l'évolution vers l'état suivant, pour finalement produire les pixels RVB finaux. Évalué sur ImageNet 256x256, WiT surpasse les solides modèles de référence de l'espace pixel, accélérant la convergence de l'entraînement JiT par un facteur de 2,2. Le code sera publiquement disponible à l'adresse https://github.com/hainuo-wang/WiT.git.
Les modèles multimodaux unifiés (UMM) sont souvent limités par le pré-entraînement de leurs composants de génération visuelle, qui repose généralement sur des paradigmes inefficaces et des données appariées texte-image de haute qualité rares. Dans cet article, nous analysons systématiquement les méthodes de pré-entraînement pour la génération visuelle des UMM et identifions ces deux problèmes comme les principaux goulots d'étranglement. Pour y remédier, nous proposons l'**Entraînement sur Images Uniquement pour les UMM (IOMM)**, un cadre d'entraînement efficace en données en deux étapes. La première étape pré-entraîne le composant de génération visuelle exclusivement à l'aide d'abondantes données non étiquetées constituées uniquement d'images, supprimant ainsi la dépendance aux données appariées pour cette phase coûteuse. La deuxième étape effectue un apprentissage fin du modèle en utilisant un mélange d'images non étiquetées et d'un petit ensemble trié de paires texte-image, conduisant à une meilleure alignement aux instructions et une qualité générative améliorée. Des expériences approfondies montrent qu'IOMM améliore non seulement l'efficacité de l'entraînement, mais atteint également des performances à l'état de l'art (SOTA). Par exemple, notre modèle IOMM-B (3,6B) a été entraîné à partir de zéro en utilisant seulement ∼1050 heures GPU H800 (dont la grande majorité, 1000 heures, dédiée à la phase efficace de pré-entraînement sur images uniquement). Il obtient un score de 0,89 sur GenEval et 0,55 sur WISE, surpassant des bases de référence solides telles que BAGEL-7B (0,82 & 0,55) et BLIP3-o-4B (0,84 & 0,50). Le code est disponible à l'adresse : https://github.com/LINs-lab/IOMM.
Les évaluations de jeux multi-tours et multi-agents par LLM présentent souvent une variance importante d'une exécution à l'autre. Dans les interactions à long terme, de petites déviations initiales s'amplifient de manière cumulative à travers les tours et sont exacerbées par le couplage multi-agent. Cela biaise les estimations du taux de victoire et rend les classements peu fiables sur des tournois répétés. Le choix des prompts aggrave ce problème en produisant des politiques effectives différentes. Nous abordons à la fois l'instabilité et la sous-performance avec MEMO (MOdel context optimization augmenté par la mémoire), un cadre d'auto-joueur qui optimise le contexte au moment de l'inférence en couplant rétention et exploration. La rétention maintient une banque de mémoire persistante qui stocke des insights structurés issus des trajectoires d'auto-jeu et les injecte comme priors lors des parties ultérieures. L'exploration exécute une évolution de prompts de type tournoi avec une sélection tenant compte de l'incertitude via TrueSkill, et utilise un rejeu prioritaire pour revisiter des états rares et décisifs. Sur cinq jeux textuels, MEMO augmente le taux de victoire moyen de 25,1% à 49,5% pour GPT-4o-mini et de 20,9% à 44,3% pour Qwen-2.5-7B-Instruct, en utilisant 2 000 parties d'auto-jeu par tâche. La variance d'une exécution à l'autre diminue également, produisant des classements plus stables across les variations de prompts. Ces résultats suggèrent que les performances et la robustesse des LLM dans les jeux multi-agents ont une marge d'amélioration substantielle grâce à l'optimisation du contexte. MEMO obtient les gains les plus importants dans les jeux de négociation et à information imparfaite, tandis que l'apprentissage par renforcement reste plus efficace dans les environnements à information parfaite.
Si les grands modèles de langage (LLM) ont évolué pour devenir des agents utilisant des outils, ils restent fragiles dans les interactions à long terme. Contrairement au raisonnement mathématique où les erreurs sont souvent rectifiables par retour arrière, les échecs d'utilisation d'outils provoquent fréquemment des effets secondaires irréversibles, rendant une vérification précise au niveau des étapes cruciale. Cependant, les benchmarks existants au niveau processus se limitent principalement à des domaines mathématiques en monde clos, ne parvenant pas à capturer la nature dynamique et ouverte de l'exécution d'outils. Pour combler cette lacune, nous présentons AgentProcessBench, le premier benchmark dédié à évaluer l'efficacité au niveau des étapes dans des trajectoires réalistes augmentées par outils. Le benchmark comprend 1 000 trajectoires diverses et 8 509 annotations d'étapes étiquetées manuellement avec un accord inter-annotateurs de 89,1 %. Il propose un schéma d'étiquetage ternaire pour capturer l'exploration et une règle de propagation d'erreur pour réduire l'ambiguïté de l'étiquetage. Des expériences approfondies révèlent des insights clés : (1) les modèles de politique plus faibles présentent des ratios gonflés d'étapes correctes en raison d'une terminaison précoce ; (2) distinguer les actions neutres et erronées reste un défi significatif pour les modèles actuels ; et (3) les signaux dérivés du processus apportent une valeur complémentaire à la supervision par résultat, améliorant significativement la mise à l'échelle au moment du test. Nous espérons qu'AgentProcessBench pourra favoriser les futures recherches sur les modèles de récompense et ouvrir la voie vers des agents généraux. Le code et les données sont disponibles à l'adresse https://github.com/RUCBM/AgentProcessBench.
La traduction automatique (TA) de haute qualité peut être déployée à l'échelle de centaines de langues, établissant ainsi un niveau de référence élevé pour les systèmes multilingues. Cependant, comparé aux 7 000 langues parlées dans le monde, les systèmes actuels n'offrent encore qu'une couverture limitée : environ 200 langues côté cible, et peut-être quelques centaines de plus côté source, prises en charge grâce au transfert translinguistique. Et même ces chiffres ont été difficiles à évaluer en raison du manque de benchmarks et de métriques fiables. Nous présentons Omnilingual Machine Translation (OMT), le premier système de TA prenant en charge plus de 1 600 langues. Cette échelle est rendue possible par une stratégie de données exhaustive qui intègre de grands corpus multilingues publics avec des jeux de données nouvellement créés, incluant le bitext MeDLEY soigneusement curaté manuellement. Nous explorons deux méthodes pour spécialiser un grand modèle de langage (LLM) à la traduction automatique : en tant que modèle décodeur uniquement (OMT-LLaMA) ou en tant que module dans une architecture encodeur-décodeur (OMT-NLLB). Il est notable que tous nos modèles de 1 à 8 milliards de paramètres égalent ou dépassent les performances en TA d'un modèle de référence LLM de 70B, révélant un net avantage à la spécialisation et permettant une qualité de traduction robuste dans des contextes à faible puissance de calcul. De plus, notre évaluation des traductions de l'anglais vers 1 600 langues montre que si les modèles de référence peuvent interpréter des langues peu prises en charge, ils échouent fréquemment à les générer avec une fidélité significative ; les modèles OMT-LLaMA étendent substantiellement l'ensemble des langues pour lesquelles une génération cohérente est réalisable. Par ailleurs, les modèles OMT s'améliorent en transfert translinguistique, s'approchant de la résolution de la partie "compréhension" du puzzle de la TA pour les 1 600 langues évaluées. Notre classique (leaderboard) et nos principaux jeux de données d'évaluation créés par des humains (BOUQuET et Met-BOUQuET) évoluent dynamiquement vers l'omnilinguisme et sont librement accessibles.
Les grands modèles de langage (LLM) avec raisonnement en chaîne de pensée atteignent des performances de pointe sur des tâches complexes de résolution de problèmes, mais leurs traces de raisonnement verbeuses et leurs besoins importants en contexte les rendent impraticables pour un déploiement en périphérie. Ces défis incluent les coûts élevés de génération de tokens, les empreintes mémoire importantes du cache KV et les inefficacités lors de la distillation des capacités de raisonnement dans des modèles plus petits pour appareils mobiles. Les approches existantes reposent souvent sur la distillation des traces de raisonnement de modèles plus grands vers des modèles plus petits, qui sont verbeuses et stylistiquement redondantes, ce qui est indésirable pour l'inférence sur appareil. Dans ce travail, nous proposons une approche légère pour activer le raisonnement dans les petits LLM en utilisant des adaptateurs LoRA combinés à un fine-tuning supervisé. Nous introduisons également un forçage budgétaire via apprentissage par renforcement sur ces adaptateurs, réduisant significativement la longueur des réponses avec une perte de précision minimale. Pour adresser le décodage limité par la mémoire, nous exploitons la mise à l'échelle parallèle au moment du test, améliorant la précision avec une faible augmentation de latence. Enfin, nous présentons un mécanisme dynamique de commutation d'adaptateurs qui active le raisonnement uniquement lorsque nécessaire et une stratégie de partage du cache KV lors de l'encodage des prompts, réduisant le temps jusqu'au premier token pour l'inférence sur appareil. Les expériences sur Qwen2.5-7B démontrent que notre méthode permet un raisonnement efficace et précis sous des contraintes de ressources strictes, rendant le raisonnement des LLM praticable pour les scénarios mobiles. Des vidéos démontrant notre solution fonctionnant sur des appareils mobiles sont disponibles sur notre page projet.
Les compétences d'agent, des ensembles de connaissances procédurales structurées injectées au moment de l'inférence, sont de plus en plus utilisées pour améliorer les agents de LLM sur les tâches de génie logiciel. Cependant, leur utilité réelle dans des contextes de développement de bout en bout reste incertaine. Nous présentons SWE-Skills-Bench, le premier benchmark axé sur les exigences qui isole l'utilité marginale des compétences d'agent dans le génie logiciel (SWE) réel. Il associe 49 compétences SWE publiques à des dépôts GitHub authentiques figés à des commits spécifiques et à des documents d'exigences avec des critères d'acceptation explicites, produisant environ 565 instances de tâches réparties dans six sous-domaines du SWE. Nous introduisons un cadre de vérification déterministe qui mappe les critères d'acceptation de chaque tâche à des tests basés sur l'exécution, permettant une évaluation contrôlée par paires avec et sans la compétence. Nos résultats montrent que les bénéfices de l'injection de compétences sont bien plus limités que ne le suggère l'adoption rapide : 39 compétences sur 49 n'apportent aucune amélioration du taux de réussite, et le gain moyen n'est que de +1,2 %. La surcharge en tokens varie de modestes économies à une augmentation de 451 %, tandis que les taux de réussite restent inchangés. Seules sept compétences spécialisées produisent des gains significatifs (jusqu'à +30 %), tandis que trois dégradent les performances (jusqu'à -10 %) en raison de directives inadaptées à la version qui entrent en conflit avec le contexte du projet. Ces résultats suggèrent que les compétences d'agent sont une intervention limitée dont l'utilité dépend fortement de l'adéquation au domaine, du niveau d'abstraction et de la compatibilité contextuelle. SWE-Skills-Bench fournit un banc d'essai pour évaluer la conception, la sélection et le déploiement des compétences dans les agents de génie logiciel. SWE-Skills-Bench est disponible à l'adresse https://github.com/GeniusHTX/SWE-Skills-Bench.
Nous présentons SegviGen, un cadre qui réaffecte des modèles génératifs 3D natifs à la segmentation de parties 3D. Les pipelines existants élèvent soit des connaissances préalables 2D robustes en 3D via la distillation ou l'agrégation de masques multi-vues, souffrant souvent d'incohérences inter-vues et de limites floues, soit explorent la segmentation discriminative 3D native, qui nécessite généralement des données 3D annotées à grande échelle et des ressources d'entraînement substantielles. En revanche, SegviGen exploite les connaissances préalables structurées encodées dans un modèle génératif 3D pré-entraîné pour induire la segmentation via une colorisation distinctive des parties, établissant un cadre novateur et efficace pour la segmentation de parties. Plus précisément, SegviGen encode un actif 3D et prédit des couleurs indicatives des parties sur les voxels actifs d'une reconstruction alignée géométriquement. Il prend en charge la segmentation interactive de parties, la segmentation complète et la segmentation complète avec guidage 2D dans un cadre unifié. Des expériences approfondies montrent que SegviGen améliore l'état de l'art précédent de 40 % sur la segmentation interactive de parties et de 15 % sur la segmentation complète, tout en n'utilisant que 0,32 % des données d'entraînement étiquetées. Cela démontre que les connaissances préalables génératives 3D pré-entraînées se transfèrent efficacement à la segmentation de parties 3D, permettant des performances robustes avec une supervision limitée. Consultez notre page de projet à l'adresse https://fenghora.github.io/SegviGen-Page/.
La super-résolution vidéo (VSR) vise à restaurer des séquences vidéo de haute qualité à partir d'estimations basse résolution (LR). Cependant, la plupart des approches VSR existantes se comportent comme des boîtes noires lors de l'inférence : les utilisateurs ne peuvent pas corriger de manière fiable les artefacts inattendus, mais doivent se contenter du résultat produit par le modèle. Dans cet article, nous proposons un nouveau cadre interactif de VSR, baptisé SparkVSR, qui utilise des images clés éparses comme signal de contrôle simple et expressif. Concrètement, les utilisateurs peuvent d'abord appliquer la super-résolution à un petit ensemble d'images clés à l'aide de n'importe quel modèle de super-résolution d'image (ISR) standard, puis SparkVSR propage les informations a priori des images clés à l'ensemble de la séquence vidéo tout en restant ancré par le mouvement de la vidéo LR d'origine. Plus précisément, nous introduisons un pipeline d'apprentissage en deux étapes (latent-pixel) conditionné par les images clés, qui fusionne les latents de la vidéo LR avec les latents des images clés haute résolution (HR) encodées de manière éparse pour apprendre une propagation robuste entre espaces et affiner les détails perceptuels. Lors de l'inférence, SparkVSR prend en charge une sélection flexible des images clés (spécification manuelle, extraction des images-I du codec, ou échantillonnage aléatoire) et un mécanisme de guidage sans référence qui équilibre continuellement l'adhésion aux images clés et la restauration aveugle, garantissant des performances robustes même lorsque les images clés de référence sont absentes ou imparfaites. Les expériences sur plusieurs benchmarks VSR démontrent une meilleure cohérence temporelle et une forte qualité de restauration, dépassant les méthodes de référence jusqu'à 24,6 %, 21,8 % et 5,6 % respectivement sur CLIP-IQA, DOVER et MUSIQ, permettant ainsi une super-résolution vidéo contrôlable et pilotée par images clés. De plus, nous montrons que SparkVSR est un cadre générique de traitement vidéo interactif et conditionné par les images clés, car il peut être appliqué directement à des tâches non vues auparavant, telles que la restauration de films anciens et le transfert de style vidéo. Notre page projet est disponible à l'adresse : https://sparkvsr.github.io/
Nous présentons une formalisation complète dans Lean 4 de la caractérisation de l'équilibre pour le système de Vlasov-Maxwell-Landau (VML), qui décrit le mouvement d'un plasma chargé. Ce projet illustre la boucle complète de recherche mathématique assistée par IA : un modèle de raisonnement IA (Gemini DeepThink) a généré la preuve à partir d'une conjecture, un outil de codage agentique (Claude Code) l'a traduite en Lean à partir d'invites en langage naturel, un prouveur spécialisé (Aristote) a clos 111 lemmes, et le noyau Lean a vérifié le résultat. Un seul mathématicien a supervisé le processus sur 10 jours pour un coût de 200 dollars, sans écrire une seule ligne de code. L'intégralité du processus de développement est publique : les 229 invites humaines et les 213 commits git sont archivés dans le dépôt. Nous rapportons des enseignements détaillés sur les modes d'échec de l'IA – la dérive des hypothèses, les bugs d'alignement des définitions, les comportements d'évitement des agents – et sur ce qui a fonctionné : la séparation preuve abstraite/concrète, l'auto-révision contradictoire, et le rôle crucial de la revue humaine des définitions clés et des énoncés de théorèmes. Il est à noter que la formalisation a été achevée avant la version finale de l'article mathématique correspondant.
La gestion des contextes longs reste un défi fondamental pour les modèles de langage : même avec des fenêtres de contexte étendues, les modèles échouent souvent à extraire, raisonner et utiliser de manière fiable l'information sur de longs contextes. Des travaux récents comme les *Recursive Language Models* (RLM) ont abordé ce défi de manière agentique en décomposant les contextes longs en sous-appels récursifs via une interaction programmatique lors de l'inférence. Bien que prometteuse, la réussite des RLM dépend crucialement de la manière dont ces programmes d'interaction contextuelle sont sélectionnés, un aspect largement inexploré. Dans cet article, nous étudions ce problème et présentons SRLM, un cadre qui enrichit l'interaction contextuelle programmatique par une *Auto-Réflexion* consciente de l'incertitude. SRLM exploite trois signaux intrinsèques : l'auto-cohérence, la longueur du raisonnement et la confiance verbalisée. Ceux-ci servent d'indicateurs complémentaires de l'incertitude interne du modèle, que ce dernier utilise pour évaluer et comparer les programmes candidats d'interaction contextuelle. Des expériences approfondies sur divers jeux de données de référence, longueurs de contexte et modèles de base montrent que SRLM surpasse constamment les meilleures méthodes de référence, avec une amélioration allant jusqu'à 22 % par rapport à RLM pour un budget temps équivalent. Nos résultats indiquent que la récursion en elle-même n'est pas le principal facteur de performance dans les RLM, et qu'une simple recherche de programme auto-réflexive peut égaler ou surpasser les RLM sans nécessiter d'auto-interrogation ni de mécanismes de récursion explicites. Nous constatons que pour des longueurs de contexte situées dans la fenêtre du modèle, les RLM avec récursion dégradent souvent les performances par rapport au modèle de base, tandis que SRLM procure des gains constants sur des contextes courts et longs. Nous observons également que les RLM sont moins efficaces pour les tâches à forte intensité sémantique, où une recherche heuristique de programme est insuffisante et où une compréhension contextuelle plus large est requise, tandis que l'auto-réflexion dans SRLM fournit un signal sémantique qui guide mieux le raisonnement dans ces scénarios.
La reconstruction en flux à partir de vidéos monoculaires non étalonnées reste un défi, car elle nécessite à la fois une estimation de pose de haute précision et un raffinement en ligne efficace en termes de calcul dans des environnements dynamiques. Bien que le couplage de modèles de fondation 3D avec des frameworks SLAM soit un paradigme prometteur, un goulot d'étranglement critique persiste : la plupart des modèles de fondation multi-vues estiment les poses de manière séquentielle (feed-forward), produisant des correspondances au niveau pixel qui manquent de la précision requise pour une optimisation géométrique rigoureuse. Pour résoudre ce problème, nous présentons M³, qui augmente le modèle de fondation Multi-vues avec une tête de Matching dédiée pour faciliter les correspondances denses à grain fin et l'intègre dans un système SLAM robuste basé sur Monocular Gaussian Splatting. M³ améliore en outre la stabilité du suivi en incorporant une suppression des zones dynamiques et un alignement des paramètres intrinsèques par inférence croisée (cross-inference). Des expériences approfondies sur divers benchmarks intérieurs et extérieurs démontrent une précision de pointe à la fois dans l'estimation de pose et la reconstruction de scène. Notamment, M³ réduit l'erreur quadratique moyenne de l'ATE de 64,3 % par rapport à VGGT-SLAM 2.0 et surpasse ARTDECO de 2,11 dB en PSNR sur le jeu de données ScanNet++.
Une évaluation fiable est essentielle pour développer et déployer des modèles de langage à grande échelle, mais dans la pratique, elle nécessite souvent un effort manuel substantiel : les praticiens doivent identifier des benchmarks appropriés, reproduire des bases de code d'évaluation hétérogènes, configurer des mappings de schémas de données et interpréter des métriques agrégées. Pour relever ces défis, nous présentons One-Eval, un système d'évaluation agentique qui convertit des requêtes d'évaluation en langage naturel en workflows d'évaluation exécutables, traçables et personnalisables. One-Eval intègre (i) NL2Bench pour la structuration de l'intention et la planification personnalisée de benchmarks, (ii) BenchResolve pour la résolution de benchmarks, l'acquisition automatique de jeux de données et la normalisation des schémas afin d'assurer l'exécutabilité, et (iii) Métriques et Reporting pour la sélection de métriques adaptées aux tâches et un reporting orienté décision au-delà des scores scalaires. Le système intègre en outre des points de contrôle humains dans la boucle pour la revue, l'édition et la restauration, tout en préservant des traces d'échantillons pour le débogage et l'auditabilité. Les expériences montrent qu'One-Eval peut exécuter des évaluations de bout en bout à partir de requêtes variées en langage naturel avec un effort utilisateur minimal, supportant une évaluation plus efficace et reproductible en contexte industriel. Notre cadre est disponible publiquement à l'adresse https://github.com/OpenDCAI/One-Eval.
Avec les progrès rapides des modèles vision-langage, un nombre croissant d'études explorent leur potentiel pour les tâches de génération de SVG. Bien que les approches existantes améliorent les performances en construisant des jeux de données SVG à grande échelle et en introduisant des tokens spécifiques au SVG, elles souffrent encore d'une généralisation limitée, de chemins redondants dans les sorties de code et d'un manque de raisonnement explicite. Dans ce travail, nous présentons CTRL-S (Chain-of-Thought Reinforcement Learning for SVG), un cadre unifié qui introduit un mécanisme de chaîne de pensée pour exposer explicitement le processus de raisonnement du modèle lors de la génération de SVG. Pour soutenir ce raisonnement structuré, nous construisons SVG-Sophia, un jeu de données de haute qualité contenant 145 000 échantillons couvrant les tâches de raffinement de code SVG, de texte-à-SVG et d'image-à-SVG. En entraînant le modèle à générer du code SVG structuré au niveau des groupes, CTRL-S améliore significativement la cohérence structurelle et la fidélité visuelle. De plus, nous adoptons l'algorithme GRPO et concevons un cadre d'optimisation multi-récompenses, intégrant des récompenses basées sur DINO, la similarité image-texte, le format et l'efficacité du code. Grâce à une optimisation multi-récompenses conjointe et un entraînement multi-tâches, notre approche améliore systématiquement les capacités globales de génération. Des expériences approfondies montrent que CTRL-S surpasse les méthodes existantes, atteignant des taux de réussite plus élevés, une qualité de code SVG supérieure et une fidélité visuelle exceptionnelle.
L'échantillonnage à partir d'une distribution catégorielle est mathématiquement simple, mais dans le décodage à grand vocabulaire, il déclenche souvent un trafic mémoire supplémentaire et des noyaux de calcul supplémentaires après la tête de modèle de langage. Nous présentons FlashSampling, une primitive d'échantillonnage exacte qui fusionne l'échantillonnage dans le produit matriciel de la tête de LM et ne matérialise jamais le tenseur des logits en mémoire haute bande (HBM). La méthode est simple : calculer les logits par tuiles sur la puce, ajouter un bruit de Gumbel, ne conserver qu'un seul maximum par ligne et par tuile du vocabulaire, et terminer par une petite réduction sur les tuiles. Le noyau en tuiles fusionné est exact car l'argmax se décompose sur une partition ; les variantes groupées pour les contextes en ligne et parallèles par tenseur sont exactes grâce à la factorisation hiérarchique de la distribution catégorielle. Sur les GPU H100, H200, B200 et B300, FlashSampling accélère les charges de travail de décodage au niveau du noyau, et dans les expériences de bout en bout avec vLLM, il réduit le temps par token de sortie jusqu'à 19% sur les modèles testés. Ces résultats montrent que l'échantillonnage exact, sans approximation, peut être intégré dans le produit matriciel lui-même, transformant une étape de post-traitement limitée par la bande passante en un épilogue léger. Page du projet : https://github.com/FlashSampling/FlashSampling.
Une opinion répandue en apprentissage robotique soutient que la simulation seule est insuffisante ; on pense généralement qu'un transfert efficace du simulé au réel nécessite au moins une collecte de données dans le monde réel ou un ajustement spécifique à la tâche pour combler l'écart entre les environnements simulés et physiques. Nous remettons en cause cette hypothèse. En utilisant des données d'entraînement synthétiques simulées suffisamment vastes et diversifiées, nous montrons qu'un transfert zero-shot vers le monde réel est non seulement possible, mais aussi efficace pour la manipulation statique et mobile. Nous présentons MolmoBot-Engine, une pipeline entièrement open-source pour la génération procédurale de données couvrant différents robots, tâches et environnements simulés divers dans MolmoSpaces. Avec celle-ci, nous publions MolmoBot-Data, un jeu de données de 1,8 million de trajectoires expertes pour la manipulation d'objets articulés et les tâches de pick-and-place. Nous entraînons trois classes de politiques : MolmoBot, un modèle vision-langage multi-images basé sur Molmo2 avec une tête d'action par flow-matching ; MolmoBot-Pi0, qui reproduit l'architecture π_0 pour permettre une comparaison directe ; et MolmoBot-SPOC, une politique légère adaptée au déploiement en périphérie et susceptible d'être affinée par apprentissage par renforcement. Nous évaluons sur deux plateformes robotiques : le Franka FR3 pour les tâches de manipulation sur table et le manipulateur mobile Rainbow Robotics RB-Y1 pour l'ouverture de portes, la manipulation de tiroirs, l'interaction avec des armoires et le pick-and-place mobile. Sans aucun ajustement dans le monde réel, nos politiques réalisent un transfert zero-shot vers des objets et environnements non vus. Sur le pick-and-place sur table, MolmoBot atteint un taux de réussite de 79,2 % dans les évaluations en monde réel sur 4 configurations, surpassant π_{0,5} à 39,2 %. Nos résultats démontrent que la génération procédurale d'environnements combinée à des assets articulés diversifiés peut produire des politiques de manipulation robustes qui généralisent largement au monde réel. Blog Technique : https://allenai.org/blog/molmobot-robot-manipulation
La supervision précise des processus demeure un défi critique pour la manipulation robotique à long terme. Un goulot d'étranglement majeur réside dans le fait que les MLLM vidéo actuels, entraînés principalement selon un paradigme de Fine-Tuning Supervisé (SFT), fonctionnent comme des "Observateurs" passifs qui reconnaissent les événements en cours plutôt que d'évaluer l'état actuel par rapport à l'objectif final de la tâche. Dans cet article, nous présentons PRIMO R1 (Process Reasoning Induced Monitoring), un cadre de 7B qui transforme les MLLM vidéo en "Critiques" actifs. Nous exploitons l'Apprentissage par Renforcement basé sur les résultats pour inciter une génération explicite de Chaîne de Raisonnement (Chain-of-Thought) afin d'estimer la progression. De plus, notre architecture construit une entrée temporelle structurée en ancrant explicitement la séquence vidéo entre des images de l'état initial et de l'état actuel. Soutenue par le jeu de données et le benchmark PRIMO proposés, des expériences approfondies dans divers environnements en domaine interne et des scénarios humanoïdes réels hors domaine démontrent que PRIMO R1 atteint des performances à la pointe de l'état de l'art. Quantitativement, notre modèle de 7B réalise une réduction de 50 % de l'erreur absolue moyenne par rapport aux bases de référence spécialisées en raisonnement, démontrant des améliorations significatives de la précision relative par rapport aux MLLM généraux de taille 72B. De plus, PRIMO R1 présente une forte généralisation zero-shot sur des tâches difficiles de détection des échecs. Nous établissons une performance de pointe sur le benchmark RoboFail avec une précision de 67,0 %, surpassant des modèles propriétaires comme OpenAI o1 de 6,0 %.
Les modèles génératifs natifs 3D ont atteint une fidélité et une vitesse remarquables, mais ils souffrent d'une limitation critique : l'incapacité à prescrire des articulations structurelles précises, où le contrôle structurel précis dans l'espace 3D natif reste peu exploré. Cet article propose SK-Adapter, un cadre simple mais hautement efficace et efficient qui permet la manipulation squelettique précise pour la génération 3D native. Allant au-delà des invites textuelles ou visuelles, qui peuvent être ambiguës pour une structure précise, nous traitons le squelette 3D comme un signal de contrôle de premier ordre. SK-Adapter est un réseau adaptateur structurel léger qui encode les coordonnées des articulations et la topologie en tokens apprenables, injectés dans le backbone de génération 3D gelé via une attention croisée. Cette conception intelligente permet au modèle non seulement de "prêter attention" efficacement aux contraintes structurelles 3D spécifiques, mais aussi de préserver ses préalables génératifs originaux. Pour combler le déficit de données, nous contribuons avec le jeu de données Objaverse-TMS, un ensemble de données à grande échelle de 24 000 paires texte-maillage-squelette. Des expériences approfondies confirment que notre méthode atteint un contrôle structurel robuste tout en préservant la qualité géométrique et texturale du modèle de base, surpassant significativement les méthodes de référence existantes. De plus, nous étendons cette capacité à l'édition locale 3D, permettant la modification spécifique à une région d'actifs existants avec guidage squelettique, ce qui était inaccessible aux méthodes précédentes. Page du projet : https://sk-adapter.github.io/
Malgré le fait que la recherche interdisciplinaire génère un impact plus large et plus durable, la plupart des travaux restent confinés dans des silos académiques monodisciplinaires. Les approches récentes de découverte scientifique basées sur l'IA sont prometteuses pour la recherche interdisciplinaire, mais beaucoup privilégient la conception rapide d'expériences et de solutions, contournant les processus de raisonnement exploratoire et collaboratif qui sous-tendent les percées interdisciplinaires créatives. Par conséquent, les efforts antérieurs ont largement privilégié l'automatisation de la découverte scientifique plutôt que l'augmentation des processus de raisonnement à la base des ruptures scientifiques. Nous présentons Idea-Catalyst, un nouveau cadre qui identifie systématiquement des perspectives interdisciplinaires pour soutenir le raisonnement créatif chez les humains et les grands modèles de langage. En partant d'un objectif de recherche abstrait, Idea-Catalyst est conçu pour assister la phase de brainstorming, en évitant explicitement un ancrage prématuré sur des solutions spécifiques. Le cadre incarne des caractéristiques métacognitives clés du raisonnement interdisciplinaire : (a) la définition et l'évaluation des objectifs de recherche, (b) la conscience des opportunités et des défis non résolus d'un domaine, et (c) l'exploration stratégique d'idées interdisciplinaires basée sur le potentiel d'impact. Concrètement, Idea-Catalyst décompose un objectif abstrait (par exemple, améliorer la collaboration humain-IA) en questions de recherche fondamentales pour le domaine cible, qui guident l'analyse des progrès et des défis ouverts au sein de ce domaine. Ces défis sont reformulés en problèmes conceptuels indépendants du domaine, permettant une recherche dans des disciplines externes (par exemple, la psychologie, la sociologie) qui traitent de problèmes analogues. En synthétisant et recontextualisant les idées de ces domaines dans le domaine cible, Idea-Catalyst classe les domaines sources selon leur potentiel interdisciplinaire. Empiriquement, cette intégration ciblée améliore la nouveauté moyenne de 21 % et le caractère perspicace de 16 %, tout en restant ancrée dans le problème de recherche initial.
Bien que les modèles de langage multimodaux (MLLM) affichent des performances prometteuses dans l'interprétation automatisée des électrocardiogrammes, il reste incertain s'ils effectuent un véritable raisonnement séquentiel ou s'ils s'appuient simplement sur des indices visuels superficiels. Pour étudier cette question, nous présentons ECG-Reasoning-Benchmark, un nouveau cadre d'évaluation multi-tours comprenant plus de 6 400 échantillons pour évaluer systématiquement le raisonnement étape par étape dans 17 diagnostics ECG fondamentaux. Notre évaluation exhaustive des modèles de pointe révèle un échec critique dans l'exécution de la déduction logique multi-étapes. Bien que les modèles possèdent les connaissances médicales pour retrouver les critères cliniques d'un diagnostic, ils présentent des taux de réussite quasi nuls (6% d'achèvement) dans le maintien d'une chaîne de raisonnement complète, échouant principalement à ancrer les observations ECG correspondantes aux preuves visuelles réelles du signal électrocardiographique. Ces résultats démontrent que les MLLM actuels contournent l'interprétation visuelle réelle, exposant une faille critique dans les paradigmes d'entraînement existants et soulignant la nécessité d'une IA médicale robuste centrée sur le raisonnement. Le code et les données sont disponibles à l'adresse https://github.com/Jwoo5/ecg-reasoning-benchmark.
Des travaux récents ont montré que le chemin résiduel n'est pas une simple commodité d'optimisation ; il fait partie intégrante de la machinerie représentationnelle du modèle. Nous sommes d'accord, mais nous soutenons que la manière la plus claire d'organiser cet espace de conception passe par une vision à deux axes du Transformer. Un décodeur fait évoluer l'information selon deux dimensions ordonnées : la position dans la séquence et la profondeur des couches. L'auto-attention assure déjà un mélange adaptatif le long de l'axe séquentiel, tandis que le flux résiduel effectue généralement une addition fixe le long de l'axe de profondeur. Si nous fixons une position de token et traitons l'indice de couche comme la variable ordonnée, alors une lecture par attention résiduelle en profondeur causale est exactement le même opérateur local que l'attention causale par fenêtre glissante courte (ShortSWA), sauf qu'elle s'écrit sur la profondeur plutôt que sur la séquence. C'est la dualité fondamentale du flux résiduel qui sous-tend Transformer^2. Cette perspective éclaire également la littérature récente. ELC-BERT et DenseFormer montrent déjà qu'une agrégation apprise sur la profondeur peut surpasser l'accumulation résiduelle uniforme, tandis que l'Attention Verticale, DeepCrossAttention (DCA), MUDDFormer et les Attention Residuals vont plus loin vers un routage explicite par attention sur les couches antérieures. Le point clé, cependant, est que la dualité au niveau de l'opérateur n'implique pas une symétrie au niveau du système. Pour les modèles autorégressifs à grande échelle, le ShortSWA sur l'axe séquentiel est généralement le placement le plus adapté au matériel car il réutilise les noyaux de fenêtre glissante côté token, les layouts de cache KV et l'exécution par blocs. Si l'objectif est plutôt de modifier la connexion directe elle-même, le Deep Delta Learning (DDL) est l'intervention plus directe car il modifie l'opérateur résiduel directement plutôt que d'ajouter un chemin de récupération inter-couches séparé. Notre recommandation est donc simple : utilisez le DDL lorsque la connexion directe est l'objet d'étude, et utilisez le ShortSWA sur l'axe séquentiel lorsque l'objectif est un mélange adaptatif local.
La diffusion dans l'espace des pixels a récemment refait surface comme une alternative solide à la diffusion latente, permettant une génération de haute qualité sans autoencodeurs pré-entraînés. Cependant, les modèles de diffusion standards dans l'espace des pixels reçoivent une supervision sémantique relativement faible et ne sont pas explicitement conçus pour capturer la structure visuelle de haut niveau. Les méthodes récentes d'alignement des représentations (par exemple, REPA) suggèrent que les caractéristiques visuelles pré-entraînées peuvent considérablement améliorer l'entraînement par diffusion, et la co-dénaturation visuelle est apparue comme une direction prometteuse pour intégrer de telles caractéristiques dans le processus génératif. Cependant, les approches existantes de co-dénaturation entremêlent souvent plusieurs choix de conception, rendant incertains les choix véritablement essentiels. Par conséquent, nous présentons V-Co, une étude systématique de la co-dénaturation visuelle dans un cadre unifié basé sur JiT (Just-in-Time). Ce cadre contrôlé nous permet d'isoler les ingrédients qui rendent la co-dénaturation visuelle efficace. Notre étude révèle quatre ingrédients clés pour une co-dénaturation visuelle efficace. Premièrement, préserver le calcul spécifique aux caractéristiques tout en permettant une interaction flexible entre les flux motive une architecture entièrement double flux. Deuxièmement, une guidance efficace sans classifieur (CFG) nécessite une prédiction inconditionnelle structurellement définie. Troisièmement, une supervision sémantique plus forte est mieux fournie par une perte hybride à dérive perceptuelle. Quatrièmement, une co-dénaturation stable nécessite en outre un étalonnage approprié entre les flux, que nous réalisons par une renormalisation des caractéristiques basée sur RMS. Ensemble, ces résultats fournissent une recette simple pour la co-dénaturation visuelle. Les expériences sur ImageNet-256 montrent que, pour des tailles de modèles comparables, V-Co surpasse le modèle de référence sous-jacent de diffusion dans l'espace des pixels et les méthodes antérieures solides de diffusion pixel, tout en utilisant moins d'époques d'entraînement, offrant ainsi des conseils pratiques pour les futurs modèles génératifs alignés sur les représentations.
La stylisation par diffusion a considérablement progressé, mais les méthodes existantes se limitent à des transformations guidées par la couleur, négligeant la sémantique complexe et les détails matériaux. Nous présentons StyleExpert, un cadre sémantique basé sur le mélange d'experts (MoE). Notre cadre utilise un encodeur de style unifié, entraîné sur notre jeu de données à grande échelle de triplets contenu-style-stylisé, pour intégrer des styles divers dans un espace latent cohérent. Cette représentation est ensuite utilisée pour conditionner un mécanisme d'aiguillage sensible à la similarité, qui achemine dynamiquement les styles vers des experts spécialisés au sein de l'architecture MoE. En tirant parti de cette architecture MoE, notre méthode gère avec habileté des styles variés couvrant plusieurs niveaux sémantiques, des textures superficielles aux sémantiques profondes. Des expériences approfondies montrent que StyleExpert surpasse les approches existantes en préservant la sémantique et les détails matériaux, tout en généralisant à des styles non vus. Notre code et les images collectées sont disponibles sur la page du projet : https://hh-lg.github.io/StyleExpert-Page/.
Le paradigme dominant pour améliorer le raisonnement mathématique dans les modèles de langage repose sur l'apprentissage par renforcement avec des récompenses vérifiables. Cependant, les méthodes existantes traitent chaque instance de problème de manière isolée sans exploiter les stratégies réutilisables qui émergent et s'accumulent pendant l'entraînement. Pour cela, nous présentons ARISE (Agent Reasoning via Intrinsic Skill Evolution), un cadre d'apprentissage par renforcement hiérarchique dans lequel une politique partagée opère à la fois pour gérer les compétences de haut niveau et pour générer des réponses de bas niveau (désignées respectivement comme Gestionnaire de Compétences et Travailleur). Le Gestionnaire maintient une bibliothèque de compétences à plusieurs niveaux via un déploiement dédié de génération de compétences qui effectue une synthèse structurée des traces de solutions réussies (après exécution), tout en employant un mécanisme de sélection piloté par une politique pour récupérer les compétences pertinentes afin de conditionner les futurs déploiements (avant exécution). Une conception hiérarchique des récompenses guide la co-évolution de la capacité de raisonnement et de la qualité de la bibliothèque. Les expériences sur deux modèles de base et sept benchmarks couvrant à la fois les mathématiques de compétition et Omni-MATH montrent qu'ARISE surpasse constamment les algorithmes de la famille GRPO et les bases de référence à mémoire augmentée, avec des gains particulièrement notables sur les tâches hors distribution. Les études d'ablation confirment que chaque composant contribue aux améliorations observées et que la qualité de la bibliothèque et les performances de raisonnement s'améliorent de concert tout au long de l'entraînement. Le code est disponible à l'adresse https://github.com/Skylanding/ARISE.
Les récents progrès des agents multimodaux ont amélioré l'interaction avec les ordinateurs et l'utilisation d'outils, mais la plupart des systèmes existants restent réactifs, optimisant les actions de manière isolée sans raisonner sur les états futurs ou les objectifs à long terme. Cela limite la cohérence de la planification et empêche les agents de résoudre de manière fiable des tâches complexes à plusieurs étapes. Nous présentons TraceR1, un cadre d'apprentissage par renforcement à deux étapes qui entraîne explicitement le raisonnement anticipatoire en prévoyant des trajectoires à court horizon avant l'exécution. La première étape effectue un apprentissage par renforcement au niveau trajectoire avec des récompenses qui imposent une cohérence globale entre les séquences d'actions prédites. La deuxième étape applique un affinage par renforcement ancré, utilisant les retours d'exécution d'agents-outils figés pour améliorer la précision et l'exécutabilité au niveau de chaque étape. TraceR1 est évalué sur sept benchmarks, couvrant l'utilisation en ligne et hors ligne d'ordinateurs ainsi que des tâches de raisonnement avec outils multimodaux, où il obtient des améliorations substantielles en stabilité de planification, robustesse d'exécution et généralisation par rapport aux approches réactives et à une seule étape. Ces résultats montrent que le raisonnement anticipatoire par trajectoire est un principe clé pour construire des agents multimodaux capables de raisonner, planifier et agir efficacement dans des environnements réels complexes.
La mémoire persistante est une capacité centrale pour les agents d'IA, mais les fondements mathématiques de la récupération en mémoire, de la gestion du cycle de vie et de la cohérence restent inexplorés. Les systèmes actuels utilisent la similarité cosinus pour la récupération, une décroissance heuristique pour la saillance, et n'offrent aucune détection formelle des contradictions. Nous établissons des fondements information-géométriques à travers trois contributions. Premièrement, une métrique de récupération dérivée de la structure d'information de Fisher des familles gaussiennes diagonales, satisfaisant les axiomes d'une métrique riemannienne, invariante sous les statistiques exhaustives, et calculable en temps O(d). Deuxièmement, un cycle de vie de la mémoire formulé comme une dynamique de Langevin riemannienne avec preuve d'existence et d'unicité de la distribution stationnaire via l'équation de Fokker-Planck, remplaçant la décroissance manuelle par des garanties de convergence fondées en principe. Troisièmement, un modèle de faisceau cellulaire où les classes de cohomologie non triviales de premier ordre correspondent précisément aux contradictions irréconciliables entre les contextes de mémoire. Sur le benchmark LoCoMo, les couches mathématiques améliorent de +12,7 points de pourcentage les bases de référence d'ingénierie sur six conversations, atteignant +19,9 pp sur les dialogues les plus complexes. Une architecture de récupération à quatre canaux atteint 75 % de précision sans dépendance au cloud. Les résultats augmentés par le cloud atteignent 87,7 %. Une configuration sans grand modèle de langue satisfait aux exigences de souveraineté des données de la loi européenne sur l'IA par conception architecturale. À notre connaissance, il s'agit du premier travail établissant des fondements information-géométriques, faisceautiques et stochastico-dynamiques pour les systèmes de mémoire des agents d'IA.
La prise de décision dans le monde réel, de l'évaluation de la conformité fiscale au diagnostic médical, nécessite d'agréger de multiples sources de preuves bruitées et potentiellement contradictoires. Les approches existantes manquent soit de quantification explicite de l'incertitude (méthodes d'agrégation neuronales), soit reposent sur des prédicats discrets conçus manuellement (cadres de logique probabiliste), limitant leur extensibilité aux données non structurées. Nous présentons Latent Posterior Factors (LPF), un cadre qui transforme les postérieures latentes des Autoencodeurs Variationnels (VAE) en facteurs de vraisemblance souples pour l'inférence dans les Sum-Product Networks (SPN), permettant un raisonnement probabiliste traitable sur des preuves non structurées tout en préservant des estimations d'incertitude calibrées. Nous instancions LPF sous deux formes : LPF-SPN (inférence structurée basée sur des facteurs) et LPF-Learned (agrégation apprise de bout en bout), permettant une comparaison rigoureuse entre le raisonnement probabiliste explicite et l'agrégation apprise sous une représentation commune de l'incertitude. Sur huit domaines (sept synthétiques et le benchmark FEVER), LPF-SPN atteint une haute précision (jusqu'à 97,8 %), une faible erreur de calibration (ECE 1,4 %) et un fort ajustement probabiliste, surpassant substantiellement l'apprentissage profond évidentiel, les LLM et les modèles de référence à base de graphes sur 15 initialisations aléatoires. Contributions : (1) Un cadre reliant les représentations latentes de l'incertitude au raisonnement probabiliste structuré. (2) Des architectures duales permettant une comparaison contrôlée des paradigmes de raisonnement. (3) Une méthodologie d'entraînement reproductible avec sélection d'initialisation. (4) Évaluation contre l'apprentissage profond évidentiel, BERT, R-GCN et des modèles de référence de grands langages. (5) Validation transdomaine. (6) Garanties formelles dans un article compagnon.
Nous présentons une caractérisation théorique complète des Facteurs Postérieurs Latents (LPF), un cadre méthodologique pour l'agrégation de multiples éléments de preuve hétérogènes dans les tâches de prédiction probabiliste. Le raisonnement multi-preuve apparaît de manière omniprésente dans des domaines à haut risque incluant le diagnostic médical, l'évaluation du risque financier, l'analyse de cas juridiques et la conformité réglementaire. Pourtant, les approches existantes manquent soit de garanties formelles, soit échouent architecturalement à gérer les scénarios multi-preuve. LPF encode chaque élément de preuve en une postérieure latente gaussienne via un autoencodeur variationnel, convertit les postérieures en facteurs souples par marginalisation de Monte Carlo, et agrège les facteurs via une inférence exacte par réseau somme-produit (LPF-SPN) ou un agrégateur neuronal appris (LPF-Learned). Nous démontrons sept garanties formelles couvrant les desiderata clés pour une IA digne de confiance : Préservation de l'étalonnage (ECE <= epsilon + C/sqrt(K_eff)) ; Erreur de Monte Carlo décroissant en O(1/sqrt(M)) ; une borne PAC-Bayes non triviale avec un écart entraînement-test de 0,0085 à N=4200 ; un fonctionnement à 1,12 fois la borne inférieure informationnelle ; une dégradation gracieuse en O(epsilon*delta*sqrt(K)) sous corruption, maintenant 88% des performances avec la moitié des preuves adversarialement remplacées ; une dégradation de l'étalonnage en O(1/sqrt(K)) avec R²=0,849 ; et une décomposition exacte de l'incertitude épistémique-aléatoire avec une erreur inférieure à 0,002%. Tous les théorèmes sont validés empiriquement sur des jeux de données contrôlés allant jusqu'à 4 200 exemples d'entraînement. Notre cadre théorique établit LPF comme fondation pour une IA multi-preuve digne de confiance dans les applications critiques pour la sécurité.
Nous présentons VAREX (VARied-schema EXtraction), un benchmark pour évaluer les modèles de fondation multimodaux sur l'extraction de données structurées à partir de formulaires administratifs. VAREX utilise un pipeline d'Annotation Inverse qui remplit programmatiquement des modèles PDF avec des valeurs synthétiques, produisant une vérité terrain déterministe validée par un contrôle qualité en trois phases. Le benchmark comprend 1 777 documents avec 1 771 schémas uniques répartis en trois catégories structurelles, chacun fourni dans quatre modalités d'entrée : texte brut, texte préservant la mise en page (aligné sur les espaces blancs pour approximer les positions des colonnes), image du document, ou une combinaison du texte et de l'image. Contrairement aux benchmarks existants qui évaluent à partir d'une seule représentation d'entrée, VAREX fournit quatre modalités contrôlées par document, permettant une ablation systématique de l'effet du format d'entrée sur la précision de l'extraction — une capacité absente des benchmarks antérieurs. Nous évaluons 20 modèles, allant de modèles propriétaires de pointe à de petits modèles ouverts, en accordant une attention particulière aux modèles de <=4B de paramètres adaptés à un déploiement sensible au coût et contraint par la latence. Les résultats révèlent que (1) en dessous de 4B de paramètres, la conformité de la sortie structurée — et non la capacité d'extraction — est un goulot d'étranglement dominant ; en particulier, l'écho du schéma (les modèles produisant une structure conforme au schéma au lieu des valeurs extraites) réduit les scores de 45 à 65 pp (points de pourcentage) chez les modèles concernés ; (2) un affinage spécifique à l'extraction sur un modèle de 2B procure des gains de +81 pp, démontrant que le déficit de suivi des instructions peut être résolu sans augmentation d'échelle ; (3) le texte préservant la mise en page offre le gain de précision le plus important (+3-18 pp), dépassant les indices visuels au niveau pixel ; et (4) le benchmark discrimine le plus efficacement les modèles dans la bande de précision de 60 à 95 %. Le jeu de données et le code d'évaluation sont publiquement disponibles.
La résolution de problèmes par utilisation d'outils sous contraintes explicites constitue un scénario extrêmement difficile mais incontournable pour les grands modèles de langage (LLM), nécessitant des capacités telles que l'appel de fonctions, le suivi d'instructions et l'auto-affinement. Cependant, les progrès sont entravés par l'absence d'évaluations dédiées. Pour y remédier, nous présentons CCTU, un benchmark pour évaluer l'utilisation d'outils par les LLM sous contraintes complexes. CCTU s'appuie sur une taxonomie de 12 catégories de contraintes couvrant quatre dimensions (à savoir les ressources, le comportement, l'ensemble d'outils et la réponse). Le benchmark comprend 200 cas de test soigneusement conçus et difficiles, couvrant divers scénarios d'utilisation d'outils, chacun impliquant en moyenne sept types de contraintes et une longueur d'invite moyenne dépassant 4700 tokens. Pour permettre une évaluation fiable, nous développons un module exécutable de validation des contraintes qui effectue une validation au niveau des étapes et assure la conformité lors d'interactions multi-tours entre les modèles et leur environnement. Nous évaluons neuf LLM de pointe dans des modes avec et sans réflexion. Les résultats indiquent que lorsqu'une adhésion stricte à toutes les contraintes est requise, aucun modèle n'atteint un taux de réalisation des tâches supérieur à 20%. Une analyse plus poussée révèle que les modèles violent les contraintes dans plus de 50% des cas, particulièrement dans les dimensions des ressources et des réponses. De plus, les LLM démontrent une capacité limitée à l'auto-affinement même après avoir reçu un retour détaillé sur les violations de contraintes, soulignant un goulot d'étranglement critique dans le développement d'agents robustes d'utilisation d'outils. Pour faciliter les recherches futures, nous rendons publiques les données et le code.
Les modèles de fondation visuelle (VFMs) basés sur les Vision Transformers (ViTs) ont obtenu des performances remarquables sur diverses tâches de vision, mais souffrent d'une complexité quadratique qui limite leur extensibilité aux longues séquences. Les approches d'attention linéaire existantes pour les ViTs sont généralement entraînées à partir de zéro, nécessitant d'importantes ressources computationnelles, tandis que les méthodes de linéarisation développées pour les décodeurs de grands modèles linguistiques ne se transfèrent pas efficacement aux ViTs. Pour relever ces défis, nous proposons ViT-AdaLA, un cadre novateur pour adapter et transférer efficacement les connaissances antérieures des VFMs vers des ViTs à attention linéaire. ViT-AdaLA se compose de trois étapes : alignement de l'attention, alignement des caractéristiques et réglage fin supervisé. Lors de l'étape d'alignement de l'attention, nous alignons l'attention linéaire standard avec l'attention originale basée sur softmax dans chaque bloc pour approximer le comportement de l'attention softmax. Cependant, des erreurs d'approximation résiduelles s'accumulent inévitablement à travers les couches. Nous atténuons ce problème en affinant le ViT linéarisé pour aligner ses caractéristiques de dernière couche avec celles d'un enseignant VFM à softmax gelé. Enfin, les connaissances antérieures adaptées sont transférées vers des tâches en aval via un réglage fin supervisé. Des expériences approfondies sur des tâches de classification et de segmentation démontrent l'efficacité et la généralité de ViT-AdaLA par rapport à diverses contreparties à attention linéaire de pointe.
La compréhension des humains à partir de nuages de points LiDAR est l'une des tâches les plus critiques pour la conduite autonome en raison de son lien étroit avec la sécurité des piétons, mais elle reste difficile en présence d'interactions diversifiées entre humains et objets et d'arrière-plans encombrés. Néanmoins, les méthodes existantes négligent largement le potentiel de l'exploitation des interactions humain-objet pour construire des cadres robustes d'estimation de la pose humaine 3D. Deux défis majeurs motivent l'incorporation de l'interaction humain-objet. Premièrement, ces interactions introduisent une ambiguïté spatiale entre les points humains et objets, ce qui conduit souvent à des prédictions erronées des points clés humains 3D dans les régions d'interaction. Deuxièmement, il existe un déséquilibre sévère entre les classes concernant le nombre de points pour les parties du corps en interaction et celles qui ne le sont pas, les régions à interactions fréquentes comme les mains et les pieds étant faiblement observées dans les données LiDAR. Pour relever ces défis, nous proposons un cadre d'Apprentissage des Interactions Humain-Objet (HOIL) pour une estimation robuste de la pose humaine 3D à partir de nuages de points LiDAR. Pour atténuer le problème d'ambiguïté spatiale, nous présentons un apprentissage par contraste sensible aux interactions humain-objet (HOICL) qui améliore efficacement la discrimination des caractéristiques entre les points humains et objets, particulièrement dans les régions d'interaction. Pour remédier au déséquilibre entre classes, nous introduisons un pooling guidé par les parties et sensible au contact (CPPool) qui réalloue adaptativement la capacité représentationnelle en compressant les points surreprésentés tout en préservant les points informatifs des parties du corps en interaction. De plus, nous présentons un raffinement temporel optionnel basé sur le contact qui affine les estimations erronées des points clés par image en utilisant les indices de contact sur la durée. En conséquence, notre HOIL exploite efficacement l'interaction humain-objet pour résoudre l'ambiguïté spatiale et le déséquilibre entre classes dans les régions d'interaction. Les codes seront publiés.
Les modèles de diffusion masquée (MDM) présentent une généralisation supérieure lorsqu'ils sont appris à l'aide d'un schéma de masquage partiel (Prime). Cette approche convertit les tokens en sous-tokens et modélise le processus de diffusion au niveau du sous-token. Nous identifions deux limitations du cadre MDM-Prime. Premièrement, nous manquons d'outils pour guider le choix des hyperparamètres de la granularité des tokens dans le sous-tokeniseur. Deuxièmement, nous constatons que la forme fonctionnelle du sous-tokeniseur dégrade significativement l'estimation de vraisemblance lorsqu'elle est associée aux tokeniseurs courants de type Byte-Pair-Encoding (BPE). Pour résoudre ces limitations, nous étudions la précision de la borne variationnelle dans MDM-Prime et développons MDM-Prime-v2, un modèle de langage par diffusion masquée qui intègre un encodage binaire et un mélange d'indices. Notre analyse d'échelle révèle que MDM-Prime-v2 est 21,8 fois plus efficace en calcul que les modèles autorégressifs (ARM). Dans des comparaisons en régime de calcul optimal, MDM-Prime-v2 atteint une perplexité de 7,77 sur OpenWebText, surpassant les ARM (12,99), les MDM (18,94) et les MDM-Prime (13,41). Lorsque la taille du modèle est étendue à 1,1 milliard de paramètres, notre modèle démontre en outre une précision zero-shot supérieure sur diverses tâches de raisonnement de sens commun.
Les méthodes existantes de génération de scènes 3D par diffusion opèrent principalement dans des espaces latents d'images/vidéos 2D, ce qui rend intrinsèquement difficile le maintien de la cohérence d'apparence et géométrique entre les vues. Pour combler cette lacune, nous présentons OneWorld, un cadre effectuant la diffusion directement dans un espace de représentation 3D cohérent. L'élément central de notre approche est l'Autoencodeur à Représentation Unifiée 3D (3D-URAE) ; il tire parti de modèles de fondation 3D préentraînés et augmente leur nature centrée sur la géométrie en injectant l'apparence et en distillant la sémantique dans un espace latent 3D unifié. De plus, nous introduisons une perte de cohérence par Correspondance Inter-Vues (CVC) au niveau des tokens pour imposer explicitement un alignement structurel entre les vues, et proposons le Forçage par Dérive de Variété (MDF) pour atténuer le biais d'exposition entraînement-inférence et façonner une variété 3D robuste en mélangeant des représentations dérivées et originales. Des expériences approfondies démontrent qu'OneWorld génère des scènes 3D de haute qualité avec une cohérence inter-vues supérieure aux méthodes état de l'art basées sur la 2D. Notre code sera disponible à l'adresse https://github.com/SensenGao/OneWorld.
Nous présentons Polyglot-Lion, une famille de modèles compacts de reconnaissance automatique de la parole (ASR) multilingues conçue pour le paysage linguistique de Singapour, couvrant l'anglais, le mandarin, le tamoul et le malais. Nos modèles sont obtenus par affinage de Qwen3-ASR-0.6B et Qwen3-ASR-1.7B exclusivement sur des corpus vocaux publics, en utilisant une stratégie d'échantillonnage équilibrée qui égalise le nombre d'énoncés d'entraînement par langue et omet délibérément le conditionnement par étiquette de langue afin que le modèle apprenne à identifier les langues implicitement à partir de l'audio. Sur 12 benchmarks couvrant les quatre langues cibles, Polyglot-Lion-1.7B atteint un taux d'erreur moyen de 14,85, ce qui est compétitif avec MERaLiON-2-10B-ASR (14,32) – un modèle 6 fois plus grand – tout en nécessitant un coût d'entraînement de 81 $ sur un seul GPU RTX PRO 6000 contre 18 862 $ pour la référence utilisant 128 GPU. Le débit d'inférence est environ 20 fois plus rapide que MERaLiON, à 0,10 s/échantillon contre 2,02 s/échantillon. Ces résultats démontrent qu'un affinage linguistiquement équilibré de modèles pré-entraînés de taille modérée peut produire des systèmes ASR multilingues prêts au déploiement pour une fraction du coût des systèmes spécialisés plus volumineux.
Les modèles de diffusion opèrent dans un mode réflexif de type Système 1, contraints par un calendrier d'échantillonnage fixe et agnostique au contenu. Cette rigidité découle de la malédiction de la dimensionnalité des états, où l'explosion combinatoire des états possibles dans la variété de bruit de haute dimension rend la planification explicite des trajectoires intraitable et conduit à une mauvaise allocation systématique des ressources computationnelles. Pour résoudre ce problème, nous présentons Chain-of-Trajectories (CoTj), un cadre non entraîné permettant une planification délibérative de type Système 2. Au cœur de CoTj se trouve l'ADN de Diffusion, une signature de faible dimension qui quantifie la difficulté de débruitage à chaque étape et sert de proxy pour l'espace d'état de haute dimension, nous permettant de reformuler l'échantillonnage comme une planification de graphe sur un graphe acyclique dirigé. Grâce à un paradigme Prédire-Planifier-Exécuter, CoTj alloue dynamiquement l'effort computationnel aux phases génératives les plus difficiles. Les expériences menées sur plusieurs modèles génératifs démontrent que CoTj découvre des trajectoires sensibles au contexte, améliorant la qualité et la stabilité des sorties tout en réduisant les calculs redondants. Ce travail établit une nouvelle base pour la modélisation de diffusion basée sur la planification et consciente des ressources. Le code est disponible à l'adresse https://github.com/UnicomAI/CoTj.
Les systèmes de génération augmentée par récupération (RAG) rencontrent des difficultés face aux questions complexes à inférence multiple. Des cadres agentiels tels que Search-R1 (Jin et al., 2025), fonctionnant de manière itérative, ont été proposés pour résoudre ces complexités. Cependant, ces approches peuvent introduire des inefficacités, incluant la récupération répétitive d'informations déjà traitées et des défis dans la contextualisation efficace des résultats récupérés au sein de l'invite de génération courante. Ces problèmes peuvent entraîner des cycles de récupération superflus, un raisonnement sous-optimal, des réponses inexactes et une consommation accrue de tokens. Dans cet article, nous étudions des modifications en temps de test apportées au pipeline Search-R1 pour atténuer ces lacunes identifiées. Plus précisément, nous explorons l'intégration de deux composants et leur combinaison : un module de contextualisation pour mieux intégrer les informations pertinentes des documents récupérés dans le raisonnement, et un module de déduplication qui remplace les documents précédemment récupérés par les suivants les plus pertinents. Nous évaluons nos approches à l'aide des jeux de données HotpotQA (Yang et al., 2018) et Natural Questions (Kwiatkowski et al., 2019), en rapportant le score de correspondance exacte (EM), une évaluation de l'exactitude des réponses par LLM-comme-juge, et le nombre moyen d'itérations. Notre variante la plus performante, utilisant GPT-4.1-mini pour la contextualisation, obtient une augmentation de 5,6 % du score EM et réduit le nombre d'itérations de 10,5 % par rapport à la baseline Search-R1, démontrant ainsi une amélioration de la précision des réponses et de l'efficacité de la récupération.
Nous présentons HistoAtlas, un atlas computationnel pan-cancer qui extrait 38 caractéristiques histologiques interprétables à partir de 6 745 lames diagnostiques H&E couvrant 21 types de cancer du TCGA, et qui relie systématiquement chaque caractéristique à la survie, l'expression génique, les mutations somatiques et les sous-types immunitaires. Toutes les associations sont ajustées pour les covariables, corrigées pour les tests multiples et classées en niveaux de force de preuve. L'atlas retrouve des mécanismes biologiques connus, allant de l'infiltration immunitaire et du pronostic à la prolifération et à la signalisation des kinases, tout en révélant des signaux immunitaires spécifiques aux compartiments et des sous-types morphologiques aux pronostics divergents. Chaque résultat est spatialement traçable jusqu'aux compartiments tissulaires et aux cellules individuelles, statistiquement calibré et librement consultable. HistoAtlas permet une découverte systématique et à grande échelle de biomarqueurs à partir de lames H&E de routine, sans coloration spécialisée ni séquençage. Les données et un atlas web interactif sont librement disponibles à l'adresse https://histoatlas.com.
Les modèles de langage chimique (CLM) sont apparus comme des concurrents prometteurs face aux modèles d'apprentissage automatique classiques populaires pour les tâches de prédiction de propriétés moléculaires (MPP). Cependant, un nombre croissant d'études ont rapporté des résultats incohérents et contradictoires concernant les performances des CLM sur diverses tâches de référence en MPP. Dans cette étude, nous menons et analysons des centaines d'expériences minutieusement contrôlées pour étudier systématiquement les effets de divers facteurs, tels que la taille des jeux de données, la taille des modèles et la standardisation, sur les performances en pré-entraînement et en affinage des CLM pour la MPP. En l'absence de lois d'échelle bien établies pour les modèles de langage à encodeur unique masqué, notre objectif est de fournir des preuves numériques complètes et une compréhension plus approfondie des mécanismes sous-jacents affectant les performances des CLM pour les tâches de MPP, dont certains semblent être totalement négligés dans la littérature.
La clôture à grande échelle de terres pour des méga-projets de développement spéculatif constitue un processus spatial hors équilibre dont la vélocité, la topologie et l'irréversibilité restent mal quantifiées. Nous étudions le méga-projet côtier Pantai Indah Kapuk 2 (PIK2) au nord de Jakarta, en Indonésie, en utilisant huit années (2017-2024) de données d'occupation/utilisation des sols (LULC) Sentinel-2 à une résolution de 10 mètres. Le paysage est projeté sur un simplexe de probabilité marxien partitionnant les pixels terrestres en fractions de Communs, de terres Agricoles et de Capital. Les distances géodésiques de Fisher-Rao (FR) sur ce simplexe identifient une impulsion de transformation de 0,405 rad/an durant 2019-2020, coïncidant avec une activité de construction majeure. L'analyse par chaîne de Markov absorbante donne des temps d'absorption attendus dans l'environnement bâti de 46,0 ans pour les terres cultivées et de 38,1 ans pour la couverture arborée, avec un taux d'auto-rétention global des zones bâties de 96,4 %. L'analyse de percolation révèle qu'une composante géante connectée contenant 89 à 95 % de tous les pixels bâtis persiste à des probabilités d'occupation p dans [0,096 ; 0,162], bien en deçà du seuil de percolation aléatoire p_c ≈ 0,593, indiquant une croissance spatiale planifiée plutôt que stochastique. La dimension fractale par comptage de boîtes de la frontière urbaine augmente de d_f = 1,316 à 1,397, ce qui est cohérent avec une expansion de la frontière de plus en plus irrégulière. Ces résultats suggèrent que les outils de géométrie de l'information et de mécanique statistique peuvent caractériser avec une précision quantitative les signatures cinématiques et topologiques de l'accumulation spatiale capitaliste.