Articles de recherche IA sélectionnés quotidiennement avec traductions
La construction de modèles du monde capables d'apprendre, de simuler et de raisonner sur les lois physiques objectives constitue un défi fondamental dans la quête de l'intelligence artificielle générale. Les récentes avancées représentées par les modèles de génération vidéo comme Sora ont démontré le potentiel des lois d'échelle basées sur les données pour approximer la dynamique physique, tandis que le modèle multimodal unifié (UMM) émergeant offre un paradigme architectural prometteur pour intégrer la perception, le langage et le raisonnement. Malgré ces progrès, le domaine manque encore d'un cadre théorique principiel définissant les propriétés essentielles requises pour un modèle général du monde. Dans cet article, nous proposons qu'un modèle du monde doit être ancré dans une Trinité de la Cohérence : la Cohérence Modale comme interface sémantique, la Cohérence Spatiale comme base géométrique, et la Cohérence Temporelle comme moteur causal. À travers ce prisme tripartite, nous examinons systématiquement l'évolution de l'apprentissage multimodal, révélant une trajectoire allant de modules spécialisés faiblement couplés vers des architectures unifiées permettant l'émergence synergique de simulateurs internes du monde. Pour compléter ce cadre conceptuel, nous introduisons CoW-Bench, un benchmark centré sur des scénarios de raisonnement et de génération multi-images. CoW-Bench évalue à la fois les modèles de génération vidéo et les UMM sous un protocole d'évaluation unifié. Notre travail établit une voie principielle vers des modèles généraux du monde, clarifiant à la fois les limites des systèmes actuels et les exigences architecturales pour les progrès futurs.
Alors que les modèles multimodaux de grande taille (LMM) augmentent en échelle et que les méthodes d'apprentissage par renforcement (RL) gagnent en maturité, les LMM ont réalisé des progrès notables en raisonnement complexe et en prise de décision. Pourtant, l'entraînement repose toujours sur des données statiques et des procédures figées, rendant difficile le diagnostic des angles morts capacitatifs ou la fourniture d'un renforcement dynamique et ciblé. Motivés par les résultats montrant que l'exposition aux erreurs via des tests et la correction par feedback surpassent la pratique répétitive, nous proposons l'Évolution Progressive par Diagnostic (DPE), une boucle spiralaire où le diagnostic oriente la génération de données et le renforcement, chaque itération rediagnostiquant le modèle mis à jour pour piloter le cycle suivant d'amélioration ciblée. DPE comporte deux composants clés. Premièrement, plusieurs agents annotent et contrôlent la qualité de masses de données multimodales non labellisées, utilisant des outils tels que la recherche web et l'édition d'images pour produire des échantillons diversifiés et réalistes. Deuxièmement, DPE attribue les échecs à des faiblesses spécifiques, ajuste dynamiquement le mélange de données et guide les agents pour générer des données ciblant ces faiblesses en vue d'un renforcement précis. Les expériences menées sur Qwen3-VL-8B-Instruct et Qwen2.5-VL-7B-Instruct montrent des gains stables et continus sur onze benchmarks, indiquant que DPE constitue un paradigme évolutif pour l'entraînement continu des LMM dans des distributions de tâches ouvertes. Notre code, modèles et données sont publics à l'adresse https://github.com/hongruijia/DPE.
Les agents de planification d'itinéraires alimentés par des grands modèles de langage (LLM) sont apparus comme un paradigme prometteur pour soutenir la mobilité humaine quotidienne grâce à l'interaction en langage naturel et la prise de décision assistée par des outils. Cependant, l'évaluation systématique dans des contextes de mobilité réels est entravée par la diversité des demandes de routage, le caractère non déterministe des services de cartographie et la reproductibilité limitée. Dans cette étude, nous présentons MobilityBench, un benchmark évolutif pour évaluer les agents de planification d'itinéraires basés sur des LLM dans des scénarios de mobilité réels. MobilityBench est construit à partir de requêtes utilisateurs réelles anonymisées à grande échelle collectées auprès d'Amap et couvre un large éventail d'intentions de planification d'itinéraires dans plusieurs villes à travers le monde. Pour permettre une évaluation reproductible de bout en bout, nous concevons un bac à sable de rejeu d'API déterministe qui élimine la variance environnementale des services en direct. Nous proposons en outre un protocole d'évaluation multidimensionnel centré sur la validité des résultats, complété par des évaluations de la compréhension des instructions, de la planification, de l'utilisation des outils et de l'efficacité. En utilisant MobilityBench, nous évaluons plusieurs agents de planification d'itinéraires basés sur des LLM dans divers scénarios de mobilité réels et fournissons une analyse approfondie de leurs comportements et performances. Nos résultats révèlent que les modèles actuels performent de manière compétente sur les tâches de Récupération d'informations de base et de Planification d'itinéraires, mais éprouvent des difficultés considérables avec la Planification d'itinéraires sous contraintes de préférences, soulignant une marge d'amélioration significative pour les applications de mobilité personnalisées. Nous rendons publics les données du benchmark, la boîte à outils d'évaluation et la documentation à l'adresse https://github.com/AMAP-ML/MobilityBench.
L'intelligence humaine intègre naturellement une perception multimodale — englobant la vision, l'audio et le langage — avec un raisonnement complexe et l'utilisation d'outils pour interagir avec le monde. Cependant, les modèles de langage multimodaux actuels se limitent principalement à des interactions bimodales (par exemple, vision-langage), manquant des capacités cognitives unifiées nécessaires pour des assistants IA généraux. Pour combler cette lacune, nous présentons OmniGAIA, un benchmark complet conçu pour évaluer les agents multimodaux sur des tâches nécessitant un raisonnement approfondi et une exécution d'outils multi-tours à travers les modalités vidéo, audio et image. Construit via une nouvelle approche de graphe d'événements multimodaux, OmniGAIA synthétise des requêtes complexes et multi-étapes dérivées de données réelles qui exigent un raisonnement cross-modal et une intégration d'outils externes. De plus, nous proposons OmniAtlas, un agent de fondation natif multimodal sous un paradigme de raisonnement intégrant des outils avec une perception multimodale active. Entraîné sur des trajectoires synthétisées via une stratégie d'exploration arborescente guidée a posteriori et OmniDPO pour une correction d'erreurs fine, OmniAtlas améliore efficacement les capacités d'utilisation d'outils des modèles open-source existants. Ce travail représente une étape vers la prochaine génération d'assistants IA natifs multimodaux pour des scénarios réels.
Le raisonnement visuel latent vise à imiter le processus d'imagination humaine en méditant à travers les états cachés des modèles de langage multimodaux de grande taille. Bien que reconnu comme un paradigme prometteur pour le raisonnement visuel, les mécanismes sous-jacents qui expliquent son efficacité restent flous. Motivés par la volonté de démystifier la véritable source de son efficacité, nous étudions la validité du raisonnement latent à l'aide de l'analyse de médiation causale. Nous modélisons le processus comme une chaîne causale : l'entrée comme traitement, les tokens latents comme médiateurs et la réponse finale comme résultat. Nos découvertes mettent en évidence deux déconnexions critiques : (a) Déconnexion Entrée-Latent : des perturbations importantes sur l'entrée entraînent des changements négligeables sur les tokens latents, suggérant que les tokens latents n'accordent pas une attention effective à la séquence d'entrée. (b) Déconnexion Latent-Réponse : les perturbations sur les tokens latents ont un impact minimal sur la réponse finale, indiquant l'effet causal limité que les tokens latents exercent sur le résultat. De plus, une analyse approfondie par sondage révèle que les tokens latents encodent une information visuelle limitée et présentent une similarité élevée. Par conséquent, nous remettons en question la nécessité du raisonnement latent et proposons une alternative simple nommée CapImagine, qui apprend au modèle à imaginer explicitement en utilisant du texte. Les expériences sur des benchmarks centrés sur la vision montrent que CapImagine surpasse significativement les modèles de référence complexes dans l'espace latent, soulignant le potentiel supérieur du raisonnement visuel par l'imagination explicite.
L'exploration reste le principal goulot d'étranglement pour les agents de grands modèles linguistiques entraînés par apprentissage par renforcement. Bien que les méthodes antérieures exploitent les connaissances pré-entraînées, elles échouent dans les environnements nécessitant la découverte d'états nouveaux. Nous proposons l'Optimisation On- et Off-Policy avec Mémoire Exploratoire (EMPO²), un cadre d'apprentissage par renforcement hybride qui tire parti de la mémoire pour l'exploration et combine les mises à jour on-policy et off-policy pour permettre aux LLM de bien performer avec la mémoire tout en garantissant leur robustesse sans celle-ci. Sur ScienceWorld et WebShop, EMPO² obtient des améliorations de 128,6 % et 11,3 % par rapport à GRPO, respectivement. De plus, dans les tests hors-distribution, EMPO² démontre une adaptabilité supérieure aux nouvelles tâches, ne nécessitant que quelques essais avec mémoire et aucune mise à jour des paramètres. Ces résultats soulignent qu'EMPO² est un cadre prometteur pour construire des agents basés sur les LLM plus exploratoires et généralisables.
Si les systèmes multi-agents (SMA) excellent dans le raisonnement complexe, ils souffrent de l'impact en cascade des informations erronées générées par les participants individuels. Les solutions actuelles ont souvent recours à une ingénierie structurelle rigide ou à un ajustement fin coûteux, limitant ainsi leur déployabilité et leur adaptabilité. Nous proposons AgentDropoutV2, un cadre d'élagage rectifier-ou-rejeter en temps de test conçu pour optimiser dynamiquement le flux d'information des SMA sans réentraînement. Notre approche agit comme un pare-feu actif, interceptant les sorties des agents et employant un rectificateur augmenté par retrieval pour corriger itérativement les erreurs sur la base d'un pool d'indicateurs piloté par les échecs. Ce mécanisme permet l'identification précise des erreurs potentielles en utilisant des patterns d'échec distillés comme connaissance a priori. Les sorties irréparables sont ensuite élaguées pour empêcher la propagation des erreurs, tandis qu'une stratégie de repli préserve l'intégrité du système. Les résultats empiriques sur de vastes benchmarks mathématiques montrent qu'AgentDropoutV2 améliore significativement la performance des SMA aux tâches, obtenant un gain de précision moyen de 6,3 points de pourcentage sur les benchmarks mathématiques. De plus, le système présente une généralisation et une adaptabilité robustes, modulant dynamiquement les efforts de rectification en fonction de la difficulté de la tâche tout en exploitant des indicateurs sensibles au contexte pour résoudre un large spectre de patterns d'erreur. Notre code et notre jeu de données sont disponibles à l'adresse https://github.com/TonySY2/AgentDropoutV2.
Nous présentons MediX-R1, un cadre d'apprentissage par renforcement (RL) ouvert pour les modèles linguistiques multimodaux (MLLM) médicaux, qui permet des réponses librement formulées et ancrées cliniquement, au-delà des formats à choix multiples. MediX-R1 affine un modèle de base vision-langage grâce à un RL basé sur les groupes et une récompense composite conçue pour le raisonnement médical : une récompense de précision basée sur un LLM qui évalue la justesse sémantique avec une décision stricte OUI/NON, une récompense sémantique basée sur des embeddings médicaux pour capturer les paraphrases et les variantes terminologiques, et des récompenses légères de format et de modalité qui imposent un raisonnement interprétable et une reconnaissance des modalités. Cette conception multi-signaux fournit un retour d'information stable et informatif pour les sorties ouvertes, là où les récompenses traditionnelles vérifiables ou basées uniquement sur les QCM échouent. Pour mesurer les progrès, nous proposons un cadre d'évaluation unifié pour les tâches uniquement textuelles et image+texte, utilisant un LLM-juge basé sur des références à la place des métriques fragiles de chevauchement de chaînes, captant ainsi la justesse sémantique, le raisonnement et l'alignement contextuel. Bien qu'il n'utilise que 51 000 exemples d'instructions simulées, MediX-R1 obtient d'excellents résultats sur les benchmarks standards des LLM médicaux (texte uniquement) et VLM (image + texte), surpassant de solides modèles de référence open-source et réalisant des gains particulièrement importants sur les tâches cliniques ouvertes. Nos résultats démontrent que le RL ouvert avec des signaux de récompense complets et une évaluation basée sur les LLM est une voie pratique vers un raisonnement médical fiable dans les modèles multimodaux. Nos modèles entraînés, nos ensembles de données organisés et notre code source sont disponibles à l'adresse https://medix.cvmbzuai.com.
Les agents de recherche approfondie récents améliorent principalement leurs performances en augmentant la profondeur de raisonnement, mais cela entraîne un coût d'inférence élevé et une latence importante dans les scénarios nécessitant une recherche intensive. De plus, la généralisation à travers des environnements de recherche hétérogènes reste difficile. Dans ce travail, nous proposons Search More, Think Less (SMTL), un cadre pour la recherche agentique à long horizon qui vise à la fois l'efficacité et la généralisation. SMTL remplace le raisonnement séquentiel par une acquisition parallèle de preuves, permettant une gestion efficace du contexte sous contrainte budgétaire. Pour soutenir la généralisation across les types de tâches, nous introduisons en outre un pipeline unifié de synthèse de données qui construit des tâches de recherche couvrant à la fois le question-réponse déterministe et les scénarios de recherche ouverts, avec des métriques d'évaluation adaptées à chaque tâche. Nous entraînons un agent de bout en bout par fine-tuning supervisé et apprentissage par renforcement, obtenant des performances solides et souvent state-of-the-art sur plusieurs benchmarks incluant BrowseComp (48,6 %), GAIA (75,7 %), Xbench (82,0 %) et DeepResearch Bench (45,9 %). Comparé à Mirothinker-v1.0, SMTL avec un maximum de 100 étapes d'interaction réduit le nombre moyen d'étapes de raisonnement sur BrowseComp de 70,7 %, tout en améliorant la précision.
Nous présentons un modèle de reconstruction 3D scalable qui résout une limitation critique des méthodes feed-forward hors ligne : leurs exigences computationnelles et mémoire croissent de manière quadratique par rapport au nombre d'images d'entrée. Notre approche repose sur l'idée clé que ce goulot d'étranglement provient de la représentation de la géométrie de la scène dans un espace Clé-Valeur (KV) de longueur variable, que nous distillons dans un Perceptron Multicouche (MLP) de taille fixe via un entraînement au moment du test. VGG-T³ (Visual Geometry Grounded Test Time Training) s'adapte linéairement au nombre de vues d'entrée, à l'instar des modèles en ligne, et reconstruit un ensemble de 1 000 images en seulement 54 secondes, réalisant une accélération de 11,6 fois par rapport aux méthodes de référence utilisant l'attention softmax. Comme notre méthode conserve une capacité d'agrégation globale de la scène, notre erreur de reconstruction de carte de points surpasse largement celle des autres méthodes à temps linéaire. Enfin, nous démontrons les capacités de localisation visuelle de notre modèle en interrogeant la représentation de la scène avec des images non vues.
Les modèles de diffusion ont réalisé des progrès remarquables dans la génération d'images, de vidéos et d'audio de haute fidélité, mais l'inférence reste coûteuse en calcul. Néanmoins, les méthodes actuelles d'accélération de la diffusion basées sur le parallélisme distribué souffrent d'artefacts de génération perceptibles et n'atteignent pas une accélération substantielle proportionnelle au nombre de GPU. Par conséquent, nous proposons un cadre de parallélisme hybride qui combine une nouvelle stratégie de parallélisme de données, le partitionnement conditionnel, avec une méthode optimale d'ordonnancement de pipeline, la commutation adaptative du parallélisme, afin de réduire la latence de génération et d'atteindre une qualité de génération élevée dans les modèles de diffusion conditionnels. Les idées clés sont (i) d'exploiter les chemins de débruitage conditionnel et non conditionnel comme nouvelle perspective de partitionnement des données et (ii) d'activer de manière adaptive un parallélisme de pipeline optimal en fonction de l'écart de débruitage entre ces deux chemins. Notre cadre atteint des réductions de latence de 2,31 fois et 2,07 fois respectivement sur SDXL et SD3 en utilisant deux GPU NVIDIA RTX~3090, tout en préservant la qualité d'image. Ce résultat confirme la généralité de notre approche à travers les modèles de diffusion basés sur U-Net et les architectures de flow-matching basées sur DiT. Notre approche surpasse également les méthodes existantes en termes d'accélération dans des paramètres de synthèse haute résolution. Le code est disponible à l'adresse https://github.com/kaist-dmlab/Hybridiff.
La promesse d'agents généralistes - des systèmes capables d'exécuter des tâches dans des environnements non familiers sans ingénierie spécifique à un domaine - reste largement non tenue. Les agents existants sont principalement spécialisés, et bien que des implémentations émergentes comme OpenAI SDK Agent et Claude Code laissent entrevoir des capacités plus étendues, aucune évaluation systématique de leurs performances générales n'a été entreprise. Les benchmarks actuels pour agents supposent une intégration domaine-spécifique, encodant l'information des tâches d'une manière qui empêche une évaluation équitable des agents généralistes. Cet article positionne l'évaluation des agents généralistes comme un objectif de recherche de premier ordre. Nous proposons des principes conceptuels pour une telle évaluation, un Protocole Unifié permettant l'intégration agent-benchmark, et Exgentic - un cadre pratique pour l'évaluation d'agents généralistes. Nous évaluons cinq implémentations d'agents prominentes à travers six environnements pour constituer le premier Tableau de Classement Open d'Agents Généralistes. Nos expériences montrent que les agents généralistes se généralisent à travers divers environnements, atteignant des performances comparables aux agents spécialisés sans aucun réglage spécifique à l'environnement. Nous publions notre protocole d'évaluation, cadre méthodologique et tableau de classement pour établir une base de recherche systématique sur les agents généralistes.
Les comportements humains dans le monde réel encodent naturellement de riches informations contextuelles à long terme, exploitables pour entraîner des agents incarnés à percevoir, comprendre et agir. Cependant, les systèmes de capture existants reposent généralement sur des installations studio coûteuses et des dispositifs portables, limitant la collecte à grande échelle de données de mouvement humain conditionné par la scène en environnement naturel. Pour y remédier, nous proposons EmbodMocap, un pipeline portable et économique de collecte de données utilisant deux iPhones mobiles. Notre idée clé est d'étalonner conjointement des séquences RGB-D doubles pour reconstruire à la fois les humains et les scènes dans un système de coordonnées métriques mondial unifié. Cette méthode permet une capture à échelle métrique et cohérente avec la scène dans des environnements quotidiens, sans caméras statiques ni marqueurs, unissant ainsi parfaitement le mouvement humain et la géométrie de la scène. Par rapport à la vérité terrain de capture optique, nous démontrons que la configuration à double vue présente une capacité remarquable à atténuer l'ambiguïté de profondeur, obtenant une alignement et des performances de reconstruction supérieurs aux modèles monoculaires ou à iPhone unique. Sur la base des données collectées, nous alimentons trois tâches d'IA incarnée : la reconstruction humain-scène monoculaire, où nous affinons des modèles feedforward produisant des humains et des scènes alignés dans l'espace mondial à échelle métrique ; l'animation de personnages basée sur la physique, où nous prouvons que nos données peuvent servir à amplifier les compétences d'interaction humain-objet et le suivi de mouvement conscient de la scène ; et le contrôle de mouvement robotique, où nous entraînons un robot humanoïde par RL sim-to-real à reproduire les mouvements humains représentés dans des vidéos. Les résultats expérimentaux valident l'efficacité de notre pipeline et sa contribution à l'avancement de la recherche en IA incarnée.
L'évaluation rigoureuse de l'intelligence artificielle par rapport au large spectre de l'intelligence générale humaine est devenue de plus en plus importante et difficile à l'ère des progrès technologiques rapides. Les benchmarks conventionnels d'IA évaluent généralement des capacités restreintes dans un domaine limité d'activité humaine. La plupart sont également statiques et se saturent rapidement lorsque les développeurs optimisent explicitement ou implicitement leurs systèmes pour ces tests. Nous proposons qu'une approche plus prometteuse pour évaluer l'intelligence générale de type humain dans les systèmes d'IA passe par une forme particulièrement exigeante de jeu général : étudier comment, et avec quelle efficacité, ces systèmes jouent et apprennent à jouer à tous les jeux humains concevables, en les comparant à des joueurs humains disposant du même niveau d'expérience, de temps ou d'autres ressources. Nous définissons un « jeu humain » comme un jeu conçu par des humains pour des humains, et nous défendons la pertinence évaluative de l'espace constitué par tous ces jeux que les gens peuvent imaginer et apprécier – le « Multivers des Jeux Humains ». Faisant un premier pas vers cette vision, nous présentons l'AI GameStore, une plateforme évolutive et ouverte qui utilise des LLM avec des humains dans la boucle pour synthétiser de nouveaux jeux humains représentatifs, en sourçant et adaptant automatiquement des variantes standardisées et conteneurisées d'environnements de jeu provenant de plateformes de jeu numérique humaines populaires. Comme preuve de concept, nous avons généré 100 de ces jeux basés sur les classements tops de l'Apple App Store et de Steam, et évalué sept modèles vision-langage (VLM) de pointe sur de courtes sessions de jeu. Les meilleurs modèles ont obtenu moins de 10 % du score moyen humain sur la majorité des jeux, et ont particulièrement éprouvé des difficultés avec les jeux qui sollicitent l'apprentissage de modèles du monde, la mémoire et la planification. Nous concluons par un ensemble de prochaines étapes pour développer l'AI GameStore en tant qu'outil pratique pour mesurer et stimuler les progrès vers une intelligence générale de type humain dans les machines.
Les modèles prédictifs du monde basés sur l'énergie offrent une approche puissante pour la planification visuelle multi-étapes en raisonnant sur des paysages d'énergie latents plutôt qu'en générant des pixels. Cependant, les approches existantes sont confrontées à deux défis majeurs : (i) leurs représentations latentes sont généralement apprises dans un espace euclidien, négligeant la structure géométrique et hiérarchique sous-jacente entre les états, et (ii) elles peinent avec la prédiction à long terme, ce qui entraîne une dégradation rapide lors des déploiements étendus. Pour relever ces défis, nous présentons GeoWorld, un modèle géométrique du monde qui préserve la structure géométrique et les relations hiérarchiques via un JEPA hyperbolique, qui projette les représentations latentes de l'espace euclidien sur des variétés hyperboliques. Nous introduisons également l'apprentissage par renforcement géométrique pour l'optimisation basée sur l'énergie, permettant une planification multi-étapes stable dans l'espace latent hyperbolique. Des expériences approfondies sur CrossTask et COIN démontrent une amélioration d'environ 3% du taux de réussite (SR) pour la planification à 3 étapes et de 2% pour la planification à 4 étapes par rapport à l'état de l'art V-JEPA 2. Site web du projet : https://steve-zeyu-zhang.github.io/GeoWorld.
Les progrès récents des modèles de diffusion de mouvement ont considérablement amélioré le réalisme de la synthèse du mouvement humain. Cependant, les approches existantes reposent soit sur des modèles de diffusion bidirectionnels traitant des séquences complètes, ce qui limite la causalité temporelle et l'applicabilité en temps réel, soit sur des modèles autorégressifs qui souffrent d'instabilité et d'erreurs cumulatives. Dans ce travail, nous présentons les Modèles de Diffusion de Mouvement Causaux (MDMC), un cadre unifié pour la génération de mouvement autorégressive basé sur un transformeur de diffusion causal opérant dans un espace latent sémantiquement aligné. MDMC s'appuie sur un VAE Causal Aligné Mouvement-Langage (MAC-VAE), qui encode les séquences de mouvement en représentations latentes temporellement causales. Sur cette représentation latente, un transformeur de diffusion autorégressif est entraîné en utilisant un forçage de diffusion causal pour effectuer un débruitage temporellement ordonné à travers les images de mouvement. Pour parvenir à une inférence rapide, nous introduisons un plan d'échantillonnage image par image avec incertitude causale, où chaque image suivante est prédite à partir des images précédentes partiellement débruitées. Le cadre résultant prend en charge la génération de mouvement de haute qualité à partir de texte, la synthèse en flux continu et la génération de mouvement à long terme à des taux interactifs. Les expériences sur HumanML3D et SnapMoGen démontrent que MDMC surpasse les modèles de diffusion et autorégressifs existants à la fois en fidélité sémantique et en fluidité temporelle, tout en réduisant substantiellement la latence d'inférence.
Le parallélisme de données entièrement partitionnées (FSDP), également connu sous le nom de ZeRO, est largement utilisé pour l'entraînement de modèles à grande échelle, se distinguant par sa flexibilité et son intrusion minimale dans le code du modèle. Cependant, les systèmes FSDP actuels peinent à gérer les méthodes d'entraînement sensibles à la structure (par exemple, l'entraînement quantifié par blocs) et les optimiseurs non élément par élément (comme Shampoo et Muon) utilisés dans les modèles de pointe (tels que Gemini et Kimi K2). Les formats de partitionnement fixes, élément par élément ou ligne par ligne, de FSDP entrent en conflit avec les calculs à structure bloc. De plus, les implémentations actuelles présentent des lacunes en matière d'efficacité des communications et de la mémoire, limitant la montée en charge à des dizaines de milliers de GPU. Nous présentons veScale-FSDP, un système FSDP repensé qui associe un format de partitionnement flexible, RaggedShard, à un algorithme de planification sensible à la structure pour offrir à la fois flexibilité et performance à grande échelle. veScale-FSDP prend nativement en charge le placement efficace des données requis par FSDP, permettant la quantification par blocs et les optimiseurs non élément par élément. En conséquence, veScale-FSDP atteint un débit de 5 à 66 % supérieur et une utilisation mémoire de 16 à 30 % inférieure aux systèmes FSDP existants, tout en montant efficacement en charge sur des dizaines de milliers de GPU.
La segmentation à vocabulaire ouvert (OVS) étend les capacités de reconnaissance zero-shot des modèles vision-langage (VLM) à la prédiction au niveau pixel, permettant la segmentation de catégories arbitraires spécifiées par des invites textuelles. Malgré les progrès récents, l'OVS reste inférieure aux approches supervisées en raison de deux défis : la supervision grossière au niveau image utilisée pour entraîner les VLM et l'ambiguïté sémantique du langage naturel. Nous abordons ces limitations en introduit un cadre few-shot qui enrichit les invites textuelles avec un ensemble de support d'images annotées au niveau pixel. Sur cette base, nous proposons un adaptateur en temps de test augmenté par retrieval qui apprend un classifieur léger, par image, en fusionnant les caractéristiques textuelles et visuelles de support. Contrairement aux méthodes antérieures reposant sur une fusion tardive et artisanale, notre approche effectue une fusion apprise, par requête, atteignant une synergie plus forte entre les modalités. La méthode prend en charge des ensembles de support extensibles continuellement et s'applique à des tâches fines telles que la segmentation personnalisée. Les expériences montrent que nous réduisons significativement l'écart entre la segmentation zero-shot et supervisée tout en préservant la capacité à vocabulaire ouvert.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu le paradigme dominant pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, les algorithmes standards de RLVR souffrent d'une pathologie bien documentée : bien qu'ils améliorent la précision Pass@1 via un échantillonnage plus sélectif, ils réduisent simultanément les frontières de raisonnement du modèle et diminuent la diversité des générations. Nous identifions une cause fondamentale négligée par les méthodes existantes : la pénalisation uniforme des erreurs. Les approches actuelles – qu'il s'agisse des méthodes de filtrage de données qui sélectionnent les prompts par difficulté, ou des schémas de normalisation de l'avantage – traitent tous les rollouts incorrects au sein d'un groupe de manière identique. Nous montrons que cette uniformité permet aux erreurs surconfiantes (chemins de raisonnement incorrects que le processus de RL a renforcés de manière fallacieuse) de persister et de monopoliser la masse de probabilité, supprimant in fine les trajectoires d'exploration valides. Pour résoudre ce problème, nous proposons la Pénalité d'Erreur Asymétrique et Sensible à la Confiance (ACE). ACE introduit une métrique de décalage de confiance par rollout, c_i = log(pi_theta(y_i|x) / pi_ref(y_i|x)), pour moduler dynamiquement les avantages négatifs. Théoriquement, nous démontrons que le gradient d'ACE peut être décomposé en le gradient d'un régulariseur sélectif restreint aux erreurs surconfiantes, plus un résidu bien caractérisé qui modère partiellement la force du régulariseur. Nous menons des expériences approfondies en affinant Qwen2.5-Math-7B, Qwen3-8B-Base et Llama-3.1-8B-Instruct sur le jeu de données DAPO-Math-17K en utilisant GRPO et DAPO dans le cadre VERL. Évaluée sur MATH-500 et AIME 2025, ACE se combine de manière transparente avec les méthodes existantes et améliore constamment l'ensemble du spectre Pass@k pour les trois familles de modèles et tous les benchmarks.
Les hallucinations des grands modèles de langage (LLM) sont généralement considérées comme des défauts du modèle ou de sa stratégie de décodage. En nous appuyant sur la linguistique classique, nous soutenons que la forme d'une requête peut également influencer la réponse d'un interlocuteur (et du modèle). Nous opérationnalisons cette idée en construisant un vecteur de caractéristiques de requête à 22 dimensions, couvrant la complexité syntaxique, la rareté lexicale, ainsi que l'ancrage de l'anaphore, de la négation, de la capacité de réponse et de l'intention, tous connus pour affecter la compréhension humaine. En utilisant 369 837 requêtes du monde réel, nous posons la question suivante : Certains types de requêtes rendent-elles l'hallucination plus probable ? Une analyse à grande échelle révèle un « paysage de risque » cohérent : certaines caractéristiques, comme l'enchâssement profond de clauses et le sous-spécification, sont associées à une propension plus élevée à l'hallucination. En revanche, un ancrage clair de l'intention et une bonne capacité de réponse sont associés à des taux d'hallucination plus faibles. D'autres, y compris la spécificité du domaine, montrent des effets mitigés, dépendants du jeu de données et du modèle. Ainsi, ces résultats établissent une représentation empiriquement observable des caractéristiques des requêtes corrélée au risque d'hallucination, ouvrant la voie à une reformulation guidée des requêtes et à de futures études d'intervention.
Nous présentons DLT-Corpus, la plus vaste collection de textes spécialisés à ce jour pour la recherche sur les technologies de registre distribué (DLT) : 2,98 milliards de tokens provenant de 22,12 millions de documents couvrant la littérature scientifique (37 440 publications), les brevets de l'Office américain des brevets et des marques (USPTO) (49 023 dépôts) et les médias sociaux (22 millions de publications). Les ressources existantes en traitement du langage naturel (TLN) pour les DLT se concentrent étroitement sur la prédiction du prix des cryptomonnaies et les contrats intelligents, laissant le langage spécifique au domaine sous-exploré malgré une capitalisation boursière d'environ 3 000 milliards de dollars et une évolution technologique rapide. Nous démontrons l'utilité de DLT-Corpus en analysant les schémas d'émergence technologique et les corrélations entre marché et innovation. Les résultats révèlent que les technologies prennent naissance dans la littérature scientifique avant d'atteindre les brevets et les médias sociaux, suivant les schémas traditionnels de transfert de technologie. Alors que le sentiment sur les médias sociaux reste massivement optimiste même pendant les « hivers cryptographiques », l'activité scientifique et brevets croît indépendamment des fluctuations du marché, suivant l'expansion globale du marché dans un cercle vertueux où la recherche précède et permet la croissance économique qui finance l'innovation future. Nous mettons publiquement à disposition l'intégralité de DLT-Corpus ; LedgerBERT, un modèle adapté au domaine qui améliore de 23 % les performances de BERT-base sur une tâche de reconnaissance d'entités nommées (NER) spécifique aux DLT ; ainsi que tous les outils et codes associés.
Les capacités de raisonnement avancées des grands modèles de langage (LLM) ont accru la fréquence des hallucinations, mais la plupart des travaux d'atténuation se concentrent sur les modèles open-source pour la détection a posteriori et l'édition de paramètres. La rareté des études sur les hallucinations dans les modèles fermés est particulièrement préoccupante, car ceux-ci constituent la grande majorité des modèles déployés en milieu institutionnel. Nous présentons QueryBandits, un cadre de bandits contextuels indépendant du modèle qui apprend adaptativement en ligne à sélectionner la stratégie optimale de reformulation des requêtes en exploitant une fonction de récompense empiriquement validée et calibrée. Sur 16 scénarios de question-réponse, notre meilleur QueryBandit (échantillonnage de Thompson) atteint un taux de succès de 87,5 % par rapport à une baseline sans reformulation et surpasse les politiques statiques zero-shot (par exemple Paraphrase ou Expand) de 42,6 % et 60,3 % respectivement. De plus, tous les bandits contextuels surpassent les bandits classiques sur tous les jeux de données, une variance caractéristique plus élevée coïncidant avec une plus grande variance dans la sélection des bras. Cela conforte notre conclusion qu'aucune politique de reformulation unique n'est optimale pour toutes les requêtes. Nous découvrons également que certaines politiques statiques génèrent un regret cumulatif supérieur au scénario sans reformulation, indiquant qu'une politique de reformulation rigide peut aggraver les hallucinations. Ainsi, l'apprentissage d'une politique en ligne sur des caractéristiques sémantiques avec QueryBandits peut modifier le comportement du modèle uniquement par des mécanismes de passe avant, permettant son utilisation avec des modèles fermés et contournant le besoin de réentraînement ou d'adaptation par gradient.
Avec les progrès de l'apprentissage par imitation (IL) et des jeux de données de conduite à grande échelle, la conduite autonome de bout en bout (E2E-AD) a réalisé des avancées significatives récemment. Les méthodes basées sur l'IL sont devenues un paradigme dominant : les modèles s'appuient sur les comportements de conduite standard fournis par des experts et apprennent à minimiser l'écart entre leurs actions et celles de l'expert. Cependant, cet objectif de « conduire uniquement comme l'expert » souffre d'une généralisation limitée : face à des scénarios rares ou inédits (scénarios de longue traîne) en dehors de la distribution des démonstrations expertes, les modèles ont tendance à produire des décisions non sécuritaires en l'absence d'expérience préalable. Cela soulève une question fondamentale : Un système E2E-AD peut-il prendre des décisions fiables sans aucune supervision par des actions expertes ? Motivés par cette question, nous proposons un cadre unifié nommé Risk-aware World Model Predictive Control (RaWMPC) pour résoudre ce dilemme de généralisation via un contrôle robuste, sans dépendre des démonstrations expertes. Concrètement, RaWMPC utilise un modèle du monde pour prédire les conséquences de multiples actions candidates et sélectionne les actions à faible risque via une évaluation explicite du risque. Pour doter le modèle du monde de la capacité à prédire les issues de comportements de conduite risqués, nous concevons une stratégie d'interaction sensible au risque qui expose systématiquement le modèle du monde à des comportements dangereux, rendant les issues catastrophiques prévisibles et donc évitables. De plus, pour générer des actions candidates à faible risque lors des tests, nous introduisons une méthode d'auto-évaluation par distillation pour transférer les capacités d'évitement du risque du modèle du monde entraîné vers un réseau générateur de propositions d'actions, et ce sans aucune démonstration experte. Des expériences approfondies montrent que RaWMPC surpasse les méthodes de l'état de l'art dans des scénarios intra-distribution et hors-distribution, tout en offrant une interprétabilité décisionnelle supérieure.
La segmentation d'images médicales reste difficile en raison du nombre limité d'annotations disponibles pour l'entraînement, de la présence de caractéristiques anatomiques ambiguës et des décalages de domaine. Bien que les modèles vision-langage comme CLIP offrent des représentations intermodales puissantes, leur potentiel pour la segmentation médicale dense guidée par le texte reste sous-exploré. Nous présentons MedCLIPSeg, une nouvelle architecture qui adapte CLIP pour une segmentation d'images médicales robuste, économe en données et consciente de l'incertitude. Notre approche exploite les embeddings CLIP au niveau des patchs via une attention intermodale probabiliste, permettant une interaction bidirectionnelle entre les tokens visuels et textuels ainsi qu'une modélisation explicite de l'incertitude prédictive. Combinée à une fonction de contraste douce au niveau des patchs qui favorise un apprentissage sémantique plus nuancé grâce à divers prompts textuels, MedCLIPSeg améliore efficacement l'efficacité des données et la généralisation inter-domaine. Des expériences approfondies sur 16 jeux de données couvrant cinq modalités d'imagerie et six organes démontrent que MedCLIPSeg surpasse les méthodes antérieures en précision, efficacité et robustesse, tout en fournissant des cartes d'incertitude interprétables qui mettent en évidence la fiabilité locale des résultats de segmentation. Ce travail démontre le potentiel de la modélisation probabiliste vision-langage pour la segmentation d'images médicales pilotée par le texte.
La génération de gestes conversationnels réalistes est essentielle pour obtenir des interactions naturelles et socialement engageantes avec des humains numériques. Cependant, les méthodes existantes mappent généralement un seul flux audio aux mouvements d'un seul locuteur, sans tenir compte du contexte social ni modéliser la dynamique mutuelle entre deux personnes engagées dans une conversation. Nous présentons DyaDiT, un transformeur de diffusion multimodal qui génère des mouvements humains contextuellement appropriés à partir de signaux audio dyadiques. Entraîné sur le Seamless Interaction Dataset, DyaDiT utilise un audio dyadique avec des jetons de contexte social optionnels pour produire un mouvement adapté au contexte. Il fusionne les informations des deux locuteurs pour capturer la dynamique interactionnelle, utilise un dictionnaire de mouvements pour encoder des connaissances a priori sur le mouvement, et peut optionnellement utiliser les gestes du partenaire conversationnel pour produire un mouvement plus réactif. Nous évaluons DyaDiT sur des métriques standards de génération de mouvement et menons des études utilisateurs quantitatives, démontrant qu'il surpasse non seulement les méthodes existantes sur les métriques objectives, mais qu'il est aussi fortement préféré par les utilisateurs, soulignant sa robustesse et sa génération de mouvements socialement favorables. Le code et les modèles seront publiés après acceptation.
L'alignement multimodal entre la vidéo et l'audio à grande échelle est difficile, particulièrement en raison du manque de données et de l'inadéquation entre les descriptions textuelles et les informations vidéo au niveau des images. Dans ce travail, nous abordons le défi de la mise à l'échelle dans la génération multimodale-vers-audio, en examinant si des modèles entraînés sur de courts extraits peuvent généraliser à des séquences plus longues lors des tests. Pour relever ce défi, nous présentons des réseaux hiérarchiques multimodaux, appelés MMHNet, une extension améliorée des modèles state-of-the-art de vidéo-vers-audio. Notre approche intègre une méthode hiérarchique et un Mamba non causal pour supporter la génération audio de longue durée. Notre méthode proposée améliore significativement la génération d'audio long, jusqu'à plus de 5 minutes. Nous démontrons également qu'il est possible d'entraîner sur du court et de tester sur du long dans les tâches de génération vidéo-vers-audio sans entraînement sur des durées plus longues. Nos expériences montrent que notre méthode peut obtenir des résultats remarquables sur des benchmarks de génération audio à partir de vidéos longues, surpassant les travaux antérieurs dans les tâches vidéo-vers-audio. De plus, nous démontrons la capacité de notre modèle à générer plus de 5 minutes d'audio, alors que les méthodes vidéo-vers-audio précédentes échouent à générer sur de longues durées.
Le décodage neuronal économe en données constitue un défi majeur pour les interfaces cerveau-ordinateur dédiées à la parole. Nous présentons la première démonstration de transfer learning et de décodage inter-tâches pour des modèles de parole basés sur la MEG, couvrant la perception et la production. Nous pré-entraînons un modèle basé sur l'architecture Conformer sur 50 heures de données d'écoute d'un seul sujet, puis l'affinons avec seulement 5 minutes de données par sujet sur 18 participants. Le transfer learning produit des améliorations constantes, avec des gains de précision intra-tâche de 1 à 4 % et des gains inter-tâches plus importants allant jusqu'à 5-6 %. Non seulement le pré-entraînement améliore les performances au sein de chaque tâche, mais il permet également un décodage inter-tâches fiable entre la perception et la production. Fait crucial, les modèles entraînés sur la production de parole décodent l'écoute passive au-dessus du niveau de chance, confirmant que les représentations apprises reflètent des processus neuronaux partagés plutôt qu'une activité motrice spécifique à la tâche.
L'apprentissage continu est une exigence fondamentale pour les modèles de langage déployés, mais les pipelines d'entraînement et de fine-tuning standards restent fragiles face à des données non stationnaires. Les mises à jour en ligne induisent souvent un oubli catastrophique, tandis que les méthodes améliorant la stabilité augmentent fréquemment la latence, l'empreinte mémoire ou le calcul dense d'une manière qui ne s'adapte pas bien aux contextes longs. Nous présentons TRC² (Colonnes Corticales à Routage Thalamique), une architecture de type décodeur uniquement qui aborde l'apprentissage continu au niveau architectural. TRC² combine un routage thalamique épars sur des colonnes corticales avec des mécanismes de modulation, de prédiction, de mémoire et de rétroaction, ainsi qu'une voie corrective rapide qui permet une adaptation rapide sans déstabiliser les paramètres plus lents. Le bloc résultant est épars et parallélisable par blocs, permettant un entraînement et une inférence efficaces tout en préservant des ablations propres de chaque sous-système. Nous instancions une pile d'entraînement et d'évaluation reproductible ainsi qu'un harnais d'apprentissage continu qui mesure l'oubli par procuration sous des changements de domaine en flux. Sur des benchmarks de modélisation du langage et d'apprentissage continu, TRC² améliore le compromis stabilité-plasticité à puissance de calcul comparable, permettant une adaptation rapide en flux tout en préservant les comportements acquis précédemment.