Articles de recherche IA sélectionnés quotidiennement avec traductions
Que se passe-t-il lorsqu'un conteur oublie sa propre histoire ? Les grands modèles de langage (LLM) peuvent désormais générer des récits s'étendant sur des dizaines de milliers de mots, mais ils échouent souvent à maintenir une cohérence sur toute leur longueur. Lorsqu'ils génèrent des narrations longues, ces modèles peuvent se contredire sur des faits préétablis, des traits de caractère ou les règles de leur univers. Les benchmarks existants pour la génération d'histoires se concentrent principalement sur la qualité de l'intrigue et la fluidité, laissant les erreurs de cohérence largement inexplorées. Pour combler cette lacune, nous présentons ConStory-Bench, un benchmark conçu pour évaluer la cohérence narrative dans la génération de récits longs. Il contient 2 000 prompts répartis dans quatre scénarios de tâche et définit une taxonomie de cinq catégories d'erreurs avec 19 sous-types granulaires. Nous développons également ConStory-Checker, un pipeline automatisé qui détecte les contradictions et étaye chaque jugement par des preuves textuelles explicites. En évaluant une série de LLM à travers cinq questions de recherche, nous constatons que les erreurs de cohérence présentent des tendances claires : elles sont plus fréquentes dans les dimensions factuelles et temporelles, ont tendance à apparaître vers le milieu des récits, surviennent dans des segments de texte avec une entropie au niveau des tokens plus élevée, et certains types d'erreurs ont tendance à co-occurrer. Ces résultats peuvent éclairer les futures tentatives d'amélioration de la cohérence dans la génération narrative longue. Notre page projet est disponible à l'adresse https://picrew.github.io/constory-bench.github.io/.
La poursuite de l'intelligence spatiale repose fondamentalement sur l'accès à des données 3D à grande échelle et à granularité fine. Cependant, les approches existantes construisent principalement des benchmarks de compréhension spatiale en générant des paires question-réponse (QR) à partir d'un nombre limité de jeux de données annotés manuellement, plutôt que d'annoter systématiquement de nouvelles scènes 3D à grande échelle à partir de données web brutes. En conséquence, leur évolutivité est sévèrement limitée, et les performances des modèles sont en outre entravées par les écarts de domaine inhérents à ces jeux de données étroitement sélectionnés. Dans ce travail, nous proposons Holi-Spatial, le premier jeu de données multimodal à grande échelle et spatialement conscient entièrement automatisé, construit à partir de vidéos brutes sans intervention humaine, en utilisant le pipeline de curation de données proposé. Holi-Spatial prend en charge une supervision spatiale multi-niveaux, allant de reconstructions 3D par Gaussian Splatting (3DGS) géométriquement précises avec des cartes de profondeur rendues, aux annotations sémantiques au niveau objet et relationnel, ainsi qu'aux paires question-réponse (QR) spatiales correspondantes. En suivant un pipeline systématique et fondé sur des principes, nous construisons en outre Holi-Spatial-4M, le premier jeu de données sémantique 3D de grande échelle et de haute qualité, contenant 12 000 scènes 3DGS optimisées, 1,3 million de masques 2D, 320 000 bounding boxes 3D, 320 000 légendes d'instances, 1,2 million d'instances d'ancrage 3D et 1,2 million de paires QR spatiales couvrant diverses tâches de raisonnement géométrique, relationnel et sémantique. Holi-Spatial démontre des performances exceptionnelles en matière de qualité de curation des données, surpassant significativement les méthodes feed-forward et optimisées par scène existantes sur des jeux de données tels que ScanNet, ScanNet++ et DL3DV. De plus, le fine-tuning de modèles vision-langage (VLM) sur des tâches de raisonnement spatial en utilisant ce jeu de données a également conduit à des améliorations substantielles des performances des modèles.
Les modèles géométriques feedforward atteignent une reconstruction solide sur de courtes fenêtres temporelles, mais leur passage à des vidéos de plusieurs minutes est limité par la complexité quadratique de l'attention ou la mémoire effective restreinte des architectures récurrentes. Nous présentons LoGeR (Long-context Geometric Reconstruction), une architecture novatrice qui étend la reconstruction 3D dense à des séquences extrêmement longues sans post-optimisation. LoGeR traite les flux vidéo par segments, en exploitant des préconnaissances bidirectionnelles fortes pour un raisonnement intra-segment de haute fidélité. Pour gérer le défi critique de la cohérence aux limites des segments, nous proposons un module de mémoire hybride basé sur l'apprentissage. Ce système à double composante combine une mémoire paramétrique par entraînement au moment du test (TTT) pour ancrer le repère global et prévenir la dérive d'échelle, ainsi qu'un mécanisme d'attention glissante non paramétrique (SWA) pour préserver un contexte non compressé permettant un alignement adjacent de haute précision. Fait remarquable, cette architecture mémorielle permet à LoGeR d'être entraîné sur des séquences de 128 images et de généraliser jusqu'à des milliers d'images lors de l'inférence. Évalué sur des benchmarks standards et un nouveau dataset VBR réadapté avec des séquences allant jusqu'à 19 000 images, LoGeR surpasse substantiellement les méthodes feedforward antérieures de l'état de l'art – réduisant l'ATE sur KITTI de plus de 74 % – et réalise une reconstruction robuste et globalement cohérente sur des horizons sans précédent.
L'apprentissage par renforcement non supervisé avec récompenses vérifiables (URLVR) offre une voie pour dépasser les limites de la supervision dans l'entraînement des grands modèles de langage en générant des récompenses sans vérité terrain. Les travaux récents exploitent des signaux intrinsèques au modèle, montrant des gains initiaux prometteurs, mais leur potentiel et leurs limites restent flous. Dans cette étude, nous revisitons l'URLVR et proposons une analyse complète couvrant taxonomie, théorie et expérimentations extensives. Nous classons d'abord les méthodes URLVR en intrinsèques versus externes selon leurs sources de récompenses, puis établissons un cadre théorique unifié révélant que toutes les méthodes intrinsèques convergent vers un resserrement de la distribution initiale du modèle. Ce mécanisme de resserrement réussit lorsque la confiance initiale correspond à la justesse, mais échoue catastrophiquement en cas de divergence. Par des expériences systématiques, nous montrons que les récompenses intrinsèques suivent constamment un schéma de croissance puis déclin, le moment de l'effondrement étant déterminé par l'a priori du modèle plutôt que par des choix techniques. Malgré ces limites d'échelle, les récompenses intrinsèques restent utiles pour l'entraînement en temps de test sur de petits jeux de données. Nous proposons l'Étape d'Effondrement du Modèle pour mesurer l'a priori du modèle, servant d'indicateur pratique de la capacité d'entraînement par RL. Enfin, nous explorons les méthodes à récompenses externes qui ancrent la vérification dans des asymétries computationnelles, montrant des preuves préliminaires qu'elles pourraient dépasser le plafond confiance-justesse. Nos résultats délimitent les frontières de l'URLVR intrinsèque tout en ouvrant des pistes vers des alternatives évolutives.
Les grands modèles de raisonnement ont démontré des performances remarquables grâce au développement des techniques de mise à l’échelle au moment du test, qui améliorent la précision des prédictions en générant plusieurs réponses candidates et en sélectionnant la réponse la plus fiable. Si les travaux antérieurs ont montré que les signaux internes des modèles, tels que les scores de confiance, peuvent partiellement indiquer l’exactitude des réponses et présenter une corrélation distributionnelle avec la précision, cette information distributionnelle n’a pas été pleinement exploitée pour guider la sélection des réponses. Motivés par ce constat, nous proposons DistriVoting, qui intègre des a priori distributionnels comme signal supplémentaire aux côtés de la confiance lors du vote. Plus précisément, notre méthode (1) décompose d’abord la distribution mixte des confiances en composantes positive et négative à l’aide de modèles de mélange gaussiens, (2) applique ensuite un filtre de rejet basé sur des échantillons positifs/négatifs issus de celles-ci pour atténuer le chevauchement entre les deux distributions. Par ailleurs, pour further réduire ce chevauchement du point de vue de la distribution elle-même, nous proposons SelfStepConf, qui utilise la confiance au niveau des étapes pour ajuster dynamiquement le processus d’inférence, augmentant ainsi la séparation entre les deux distributions afin d’améliorer la fiabilité des confiances dans le vote. Les expériences menées sur 16 modèles et 5 benchmarks montrent que notre méthode surpasse significativement les approches state-of-the-art.
Les éditeurs de diffusion unifiés reposent souvent sur une architecture fixe et partagée pour diverses tâches, souffrant d'interférences entre tâches et d'une mauvaise adaptation aux demandes hétérogènes (par exemple, local vs global, sémantique vs photométrique). En particulier, les variantes prédominantes de ControlNet et OmniControl combinent plusieurs signaux de conditionnement (par exemple, texte, masque, référence) via une concaténation statique ou des adaptateurs additifs qui ne peuvent pas prioriser ou supprimer dynamiquement les modalités conflictuelles, entraînant ainsi des artefacts comme des saignements de couleur aux limites des masques, des dérives d'identité ou de style, et des comportements imprévisibles avec des entrées multi-conditions. Pour résoudre ce problème, nous proposons le Routage Conditionnel d'Experts (CARE-Edit) qui aligne le calcul du modèle avec des compétences d'édition spécifiques. Au cœur du système, un routeur à attention latente léger assigne les tokens de diffusion encodés à quatre experts spécialisés – Texte, Masque, Référence et Base – en fonction des conditions multimodales et des pas de temps de diffusion : (i) un module de Repeinture de Masque affine d'abord les masques grossiers définis par l'utilisateur pour un guidage spatial précis ; (ii) le routeur applique une sélection creuse top-K pour allouer dynamiquement le calcul aux experts les plus pertinents ; (iii) un module de Mélange Latent fusionne ensuite les sorties des experts, intégrant de manière cohérente les informations sémantiques, spatiales et stylistiques aux images de base. Les expériences valident les performances solides de CARE-Edit sur des tâches d'édition contextuelles, incluant l'effacement, le remplacement, les modifications pilotées par texte et le transfert de style. L'analyse empirique révèle en outre un comportement spécifique aux tâches des experts spécialisés, démontrant l'importance d'un traitement dynamique et conditionnel pour atténuer les conflits multi-conditions.
Les progrès récents des modèles multimodaux unifiés (UMM) ont considérablement fait avancer la génération texte-image (T2I), notamment grâce à l'intégration du raisonnement par enchaînement de pensées (CoT). Cependant, les méthodes T2I existantes basées sur le CoT reposent largement sur une planification en langage naturel abstraite, qui manque de la précision nécessaire pour les dispositions spatiales complexes, les éléments visuels structurés et le contenu textuel dense. Dans ce travail, nous proposons CoCo (Code-as-CoT), un cadre de raisonnement piloté par code qui représente le processus de raisonnement sous forme de code exécutable, permettant une planification intermédiaire explicite et vérifiable pour la génération d'images. Étant donné une instruction textuelle, CoCo génère d'abord du code exécutable qui spécifie la disposition structurelle de la scène, lequel est ensuite exécuté dans un environnement isolé pour produire une ébauche d'image déterministe. Le modèle affine ensuite cette ébauche par un édition d'image fine pour produire le résultat final haute fidélité. Pour soutenir ce paradigme d'apprentissage, nous avons constitué CoCo-10K, un jeu de données organisé contenant des paires d'images ébauche-finale structurées conçues pour enseigner à la fois la construction d'ébauches structurées et le raffinement visuel correctif. Les évaluations empiriques sur StructT2IBench, OneIG-Bench et LongText-Bench montrent que CoCo obtient des améliorations de +68,83 %, +54,8 % et +41,23 % par rapport à la génération directe, tout en surpassant également les autres méthodes de génération assistées par le CoT. Ces résultats démontrent que le code exécutable est un paradigme de raisonnement efficace et fiable pour une génération texte-image précise, contrôlable et structurée. Le code est disponible à l'adresse : https://github.com/micky-li-hd/CoCo
La diffusion autorégressive (AR) offre un cadre prometteur pour générer des vidéos de longueur théoriquement infinie. Cependant, un défi majeur consiste à maintenir la continuité temporelle tout en empêchant la dégradation progressive de la qualité causée par l'accumulation d'erreurs. Pour assurer la continuité, les méthodes existantes se conditionnent généralement sur des contextes fortement débruités ; pourtant, cette pratique propage les erreurs de prédiction avec une grande certitude, aggravant ainsi la dégradation. Dans cet article, nous soutenons qu'un contexte très propre est inutile. Nous nous inspirons des modèles de diffusion bidirectionnels, qui débruisent les images à un niveau de bruit partagé tout en maintenant la cohérence, pour proposer que le conditionnement sur un contexte au même niveau de bruit que le bloc actuel fournit un signal suffisant pour la cohérence temporelle tout en atténuant efficacement la propagation des erreurs. Sur la base de cette idée, nous proposons HiAR, un framework de débruitage hiérarchique qui inverse l'ordre de génération conventionnel : au lieu de compléter chaque bloc séquentiellement, il effectue une génération causale sur tous les blocs à chaque étape de débruitage, de sorte que chaque bloc est toujours conditionné sur un contexte au même niveau de bruit. Cette hiérarchie permet naturellement une inférence parallèle en pipeline, produisant une accélération en temps réel d'un facteur de 1,8 dans notre configuration à 4 étapes. Nous observons en outre que l'auto-distillation par déroulement (self-rollout) dans ce paradigme amplifie un raccourci de faible mouvement inhérent à l'objectif de KL inverse favorisant le mode. Pour contrer cela, nous introduisons un régulariseur de KL direct en mode attention bidirectionnelle, qui préserve la diversité des mouvements pour l'inférence causale sans interférer avec la perte de distillation. Sur VBench (génération de 20s), HiAR obtient le score global le plus élevé et la dérive temporelle la plus faible parmi toutes les méthodes comparées.
Alors que les modèles de langage (LM) évoluent d'assistants conversationnels vers des agents à long horizon capables de raisonnement multi-étapes et d'utilisation d'outils, les benchmarks existants restent largement confinés à des tâches structurées ou de type examen qui ne répondent pas aux exigences professionnelles du monde réel. Pour pallier cela, nous présentons \OneMillion-Bench, un benchmark de 400 tâches expertes couvrant le Droit, la Finance, l'Industrie, la Santé et les Sciences Naturelles, conçu pour évaluer les agents dans des scénarios à fort impact économique. Contrairement aux travaux antérieurs, ce benchmark nécessite de consulter des sources autorisées, de résoudre des informations contradictoires, d'appliquer des règles spécifiques à un domaine et de prendre des décisions sous contraintes, où la justesse dépend autant du processus de raisonnement que de la réponse finale. Nous adoptons un protocole d'évaluation basé sur une grille notant la précision factuelle, la cohérence logique, la faisabilité pratique et la conformité professionnelle, en se concentrant sur des problèmes de niveau expert pour assurer une différenciation significative entre les agents. Ainsi, \OneMillion-Bench fournit un banc d'essai unifié pour évaluer la fiabilité agentique, la profondeur professionnelle et la maturité opérationnelle des agents dans des scénarios à forte intensité domaines.
Bien que les systèmes de reconnaissance automatique de la parole (ASR) basés sur des modèles de langage de grande taille (LLM) autorégressifs (AR) atteignent une forte précision, leur décodage séquentiel limite le parallélisme et engendre une latence élevée. Nous proposons NLE, une approche non autorégressive (NAR) qui formule la reconnaissance vocale comme une édition conditionnelle de transcription, permettant une prédiction entièrement parallèle. NLE extrait des embeddings acoustiques et une hypothèse initiale d'un encodeur de parole pré-entraîné, puis affine l'hypothèse à l'aide d'un éditeur LLM bidirectionnel entraîné avec un objectif d'alignement latent. Une stratégie de remplissage entrelacé exploite le biais de mapping d'identité des Transformers, permettant au modèle de se concentrer sur les corrections plutôt que sur une reconstruction complète. Sur le classement Open ASR, NLE++ atteint un taux d'erreur sur les mots (WER) moyen de 5,67 % avec un RTFx (facteur de temps réel inverse) de 1630. Dans des scénarios à énoncé unique, NLE réalise une accélération de 27x par rapport à la baseline AR, le rendant adapté aux applications en temps réel.
Nous présentons AutoResearch-RL, un cadre dans lequel un agent d'apprentissage par renforcement mène de manière autonome une recherche ouverte sur l'architecture neuronale et les hyperparamètres, sans supervision humaine, fonctionnant perpétuellement jusqu'à ce qu'un oracle de terminaison signale une convergence ou l'épuisement des ressources. À chaque étape, l'agent propose une modification de code à apporter à un script d'entraînement cible, l'exécute avec un budget de temps calendaire fixe, observe une récompense scalaire dérivée du nombre de bits par octet de validation (val-bpb), et met à jour sa politique via l'Optimisation de Politique Proximale (PPO). L'idée clé de conception réside dans la séparation de trois préoccupations : (i) un environnement figé (pipeline de données, protocole d'évaluation et constantes) qui garantit une comparaison équitable entre les expériences ; (ii) un fichier cible mutable (train.py) qui représente l'état modifiable de l'agent ; et (iii) un méta-appreneur (l'agent RL lui-même) qui accumule une trajectoire croissante de résultats d'expériences et les utilise pour éclairer les propositions suivantes. Nous formalisons cela comme un Processus de Décision Markovien, dérivons des garanties de convergence sous des hypothèses faibles, et démontrons empiriquement sur un benchmark d'entraînement préalable nanochat avec une seule GPU qu'AutoResearch-RL découvre des configurations qui égalent ou surpassent les bases de référence réglées manuellement après environ 300 itérations exécutées de nuit, sans intervention humaine dans la boucle.
Les systèmes agentiques opérant sur de vastes écosystèmes d'outils doivent planifier et exécuter des workflows à long horizon sous une supervision faible ou non vérifiable. Si les modèles de pointe atténuent ces défis par leur échelle et leurs grands contextes, les petits modèles de langage (SLM) restent fragiles : le chargement intensif d'outils sature le contexte, les erreurs d'exécution s'accumulent et les récompenses éparses limitent l'apprentissage. Nous présentons ATLAS, un cadre de réglage fin par renforcement permettant aux SLM d'opérer efficacement dans des environnements à grande échelle d'outils en apprenant comment acquérir du contexte et comment exécuter des actions. Notre approche apporte deux contributions clés. Premièrement, nous traitons le contrôle du contexte et la structure d'exécution comme des décisions apprenables, combinant un chargement itératif d'outils avec une orchestration programmatique pour limiter la croissance du contexte et stabiliser les trajectoires à long horizon. Deuxièmement, nous proposons un réglage fin par renforcement basé sur des rubriques, qui décompose la réussite des tâches en critères structurés et alignés, permettant un entraînement scalable avec de petits modèles évaluateurs. Sur les benchmarks MCP, ces choix conceptionnels produisent des gains importants et constants par rapport aux méthodes de RL génériques, permettant à un SLM de 4B d'approcher les performances des agents de pointe avec des budgets de paramètres et de contexte bien plus contraints.
Les agents d'interface utilisateur graphique (GUI) actuels fonctionnent principalement selon un paradigme réactif : un utilisateur doit fournir une instruction explicite pour que l'agent exécute une tâche. Cependant, un assistant IA intelligent devrait être proactif, c'est-à-dire capable d'anticiper les intentions de l'utilisateur directement à partir d'entrées visuelles continues, telles que des captures d'écran mobiles ou de bureau, et de proposer des recommandations opportunes sans sollicitation explicite de l'utilisateur. La transition vers ce paradigme proactif présente des défis significatifs. L'activité à l'écran dans le monde réel est rarement linéaire ; elle consiste en des trajectoires à long terme entachées de navigation bruyante, d'actions dénuées de sens et de commutation multitâche. Pour combler cette lacune, nous présentons PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), un nouveau benchmark pour évaluer les modèles de langage multimodaux (MLLM) sur des entrées visuelles continues et faiblement supervisées. Contrairement aux ensembles de données réactifs, PIRA-Bench présente des trajectoires complexes avec plusieurs intentions entrelacées et des segments bruyants dans divers contextes de profils utilisateurs, mettant au défi les agents de détecter des événements actionnables tout en s'adaptant aux préférences de l'utilisateur. De plus, nous proposons la baseline PIRF, un framework de suivi d'état avec mémoire qui permet aux MLLM généraux de gérer plusieurs threads de tâches et de traiter les entrées visuelles trompeuses. PIRA-Bench constitue une première étape vers des assistants personnels robustes et proactifs basés sur les GUI.
Les modèles de diffusion dégradent les images par l'ajout de bruit, et inverser ce processus révèle une hiérarchie informationnelle à travers les pas de temps. La théorie de l'espace d'échelle présente une hiérarchie similaire via le filtrage passe-bas. Nous formalisons cette connexion et montrons que les états de diffusion fortement bruités ne contiennent pas plus d'information que de petites images sous-échantillonnées - ce qui soulève la question de savoir pourquoi ils doivent être traités à pleine résolution. Pour répondre à cela, nous fusionnons les espaces d'échelle dans le processus de diffusion en formulant une famille de modèles de diffusion avec des dégradations linéaires généralisées et des implémentations pratiques. L'utilisation du sous-échantillonnage comme dégradation donne notre modèle Scale Space Diffusion proposé. Pour supporter Scale Space Diffusion, nous introduisons Flexi-UNet, une variante d'UNet qui effectue un débruitage préservant et augmentant la résolution en utilisant uniquement les parties nécessaires du réseau. Nous évaluons notre cadre sur CelebA et ImageNet et analysons son comportement de mise à l'échelle à travers les résolutions et les profondeurs de réseau. Notre site web de projet ( https://prateksha.github.io/projects/scale-space-diffusion/ ) est disponible publiquement.
Les grands modèles de langage (LLM) ont démontré de solides capacités générales, mais leur déploiement en finance reste difficile en raison d'une terminologie spécialisée dense, d'exigences rigoureuses en raisonnement numérique et d'une faible tolérance aux erreurs factuelles. Nous menons une étude empirique contrôlée montrant que dans les domaines spécialisés verticaux, la performance est largement déterminée par la qualité et le profil de difficulté/vérifiabilité des données post-entraînement. Nous présentons ODA-Fin-SFT-318k, construit via une distillation multi-étapes et une vérification pour produire un supervision de haute qualité de type chaîne de raisonnement (Chain-of-Thought), et ODA-Fin-RL-12k, conçu pour des tâches difficiles mais vérifiables qui équilibrent précision de récompense et diversité des tâches. En utilisant des pipelines standards de SFT (Supervised Fine-Tuning) et RL (Reinforcement Learning), nous montrons qu'une distillation de haute qualité de chaînes de raisonnement établit une base robuste durant le SFT, tandis qu'un échantillonnage tenant compte de la difficulté et de la vérifiabilité améliore la généralisation en RL. Évalué sur neuf benchmarks couvrant des tâches financières générales, l'analyse de sentiment et le raisonnement numérique, notre modèle ODA-Fin-RL-8B surpasse constamment les LLM financiers open-source de pointe (SOTA) de taille comparable. Nous publions nos ensembles de données ODA-Fin-SFT-318k et ODA-Fin-RL-12k, ainsi que les modèles entraînés, pour faire progresser la recherche en IA financière centrée sur les données.
Les modèles actuels de génération vidéo souffrent d'une latence computationnelle élevée, rendant les applications en temps réel prohibitivement coûteuses. Dans cet article, nous abordons cette limitation en exploitant la redondance temporelle inhérente aux patches latents vidéo. À cette fin, nous proposons le cadre LIPAR (Latent Inter-frame Pruning with Attention Recovery), qui détecte et évite de recalculer les patches latents dupliqués. De plus, nous introduisons un nouveau mécanisme de Récupération de l'Attention qui approxime les valeurs d'attention des tokens élagués, éliminant ainsi les artefacts visuels résultant de l'application naïve de la méthode d'élagage. Empiriquement, notre méthode augmente le débit d'édition vidéo d'un facteur 1,45, atteignant en moyenne 12,2 IPS sur une NVIDIA A6000 contre 8,4 IPS pour la ligne de base. La méthode proposée ne compromet pas la qualité de génération et peut être intégrée de manière transparente au modèle sans apprentissage supplémentaire. Notre approche comble efficacement le fossé entre les algorithmes de compression traditionnels et les pipelines génératifs modernes.
L'entraînement des grands modèles de langage (LLM) en tant qu'agents autonomes commence souvent par l'apprentissage par imitation, mais celui-ci n'enseigne aux agents que quoi faire sans leur expliquer pourquoi : les agents ne comparent jamais les actions réussies à des alternatives sous-optimales et manquent ainsi de conscience de la qualité des actions. Des approches récentes tentent de remédier à ce problème en introduisant une supervision par auto-réflexion dérivée de contrastes entre des actions expertes et des actions alternatives. Cependant, le paradigme d'entraînement reste fondamentalement un apprentissage par imitation : le modèle imite un texte de réflexion pré-construit plutôt que d'apprendre à raisonner de manière autonome. Nous proposons l'Entraînement Critique Agentique (ACT), un paradigme d'apprentissage par renforcement qui forme les agents à identifier la meilleure action parmi des alternatives. En récompant le modèle selon l'exactitude de son jugement, ACT pousse le modèle à développer de manière autonome un raisonnement sur la qualité des actions, produisant ainsi une véritable auto-réflexion plutôt que de l'imiter. Sur trois benchmarks d'agents difficiles, ACT améliore constamment les performances des agents lorsqu'il est combiné à différentes méthodes de post-formation. Il obtient une amélioration moyenne de 5,07 points par rapport à l'apprentissage par imitation et de 4,62 points par rapport à l'apprentissage par renforcement. Par rapport aux approches qui injectent une capacité de réflexion par distillation de connaissances, ACT démontre également des avantages nets, avec une amélioration moyenne de 2,42 points. De plus, ACT permet une forte généralisation hors-distribution sur les benchmarks agentiques et améliore les performances sur des benchmarks de raisonnement général sans aucune donnée d'entraînement spécifique au raisonnement, soulignant la valeur de notre méthode. Ces résultats suggèrent qu'ACT est une voie prometteuse pour développer des agents LLM plus réfléchis et plus compétents.
Bien que les modèles génératifs à faible nombre d'étapes aient permis une génération d'images et de vidéos puissante à un coût significativement réduit, les paradigmes génériques d'apprentissage par renforcement (RL) pour les modèles à faible nombre d'étapes restent un problème non résolu. Les approches de RL existantes pour les modèles de diffusion à faible nombre d'étapes reposent fortement sur la rétropropagation à travers des modèles de récompense différentiables, excluant ainsi la majorité des signaux de récompense importants du monde réel, par exemple, les récompenses non différentiables telles que l'appréciation binaire humaine, le décompte d'objets, etc. Pour intégrer correctement les récompenses non différentiables afin d'améliorer les modèles génératifs à faible nombre d'étapes, nous présentons TDM-R1, un nouveau paradigme d'apprentissage par renforcement construit sur un modèle à faible nombre d'étapes de premier plan, l'Appariement de la Distribution de Trajectoire (TDM). TDM-R1 découple le processus d'apprentissage en apprentissage de récompense surrogate et apprentissage du générateur. De plus, nous avons développé des méthodes pratiques pour obtenir des signaux de récompense par étape le long de la trajectoire de génération déterministe du TDM, aboutissant à une méthode unifiée de post-entraînement par RL qui améliore significativement la capacité des modèles à faible nombre d'étapes avec des récompenses génériques. Nous menons des expériences approfondies couvrant le rendu de texte, la qualité visuelle et l'alignement des préférences. Tous les résultats démontrent que TDM-R1 est un paradigme d'apprentissage par renforcement puissant pour les modèles texte-image à faible nombre d'étapes, atteignant des performances de pointe en apprentissage par renforcement sur des métriques internes et externes au domaine. De plus, TDM-R1 s'adapte également efficacement au récent modèle puissant Z-Image, surpassant constamment à la fois ses variantes à 100 NFE et à faible nombre d'étapes avec seulement 4 NFE. Page du projet : https://github.com/Luo-Yihong/TDM-R1
Les Vision Transformers (ViT) se dégradent souvent face à des changements de distribution car elles s'appuient sur des corrélations fallacieuses, comme des indices contextuels, plutôt que sur des caractéristiques sémantiquement significatives. Les méthodes de régularisation existantes, qui reposent généralement sur des masques simples premier-plan/arrière-plan, échouent à capturer les concepts sémantiques fins qui définissent un objet (par exemple, un « long bec » et des « ailes » pour un « oiseau »). Par conséquent, ces méthodes offrent une robustesse limitée aux changements de distribution. Pour remédier à cette limitation, nous introduisons un nouveau cadre de *finetuning* qui oriente le raisonnement du modèle vers la sémantique au niveau conceptuel. Notre approche optimise les cartes de pertinence internes du modèle pour les aligner avec des masques conceptuels spatialement ancrés. Ces masques sont générés automatiquement, sans annotation manuelle : les concepts pertinents pour une classe sont d'abord proposés à l'aide d'une méthode basée sur un LLM et sans étiquette, puis segmentés à l'aide d'un VLM. L'objectif du *finetuning* est d'aligner la pertinence avec ces régions conceptuelles tout en supprimant simultanément l'accent sur les zones contextuelles fallacieuses. Notamment, ce processus ne nécessite qu'un ensemble minimal d'images et utilise la moitié des classes du jeu de données. Des expériences approfondies sur cinq benchmarks hors-distribution démontrent que notre méthode améliore la robustesse sur plusieurs modèles basés sur ViT. De plus, nous montrons que les cartes de pertinence résultantes présentent un alignement plus fort avec les parties sémantiques des objets, offrant une voie évolutive vers des modèles de vision plus robustes et interprétables. Enfin, nous confirmons que les masques guidés par les concepts fournissent une supervision plus efficace pour la robustesse des modèles que les cartes de segmentation conventionnelles, étayant notre hypothèse centrale.
La phase d'initialisation à froid joue un rôle crucial dans l'entraînement des Modèles de Raisonnement Large Multimodaux (MLRM), mais ses mécanismes restent mal compris. Pour analyser cette étape, nous introduisons le Score d'Attention Visuelle (VAS), une métrique basée sur l'attention qui quantifie le degré auquel un modèle se concentre sur les tokens visuels. Nous constatons que les performances en raisonnement sont fortement corrélées avec le VAS (r=0,9616) : les modèles avec un VAS plus élevé obtiennent un raisonnement multimodal nettement plus performant. De manière surprenante, l'initialisation à froid multimodale ne parvient pas à augmenter le VAS, ce qui donne des distributions d'attention proches de celles du modèle de base, tandis que l'initialisation à froid sur texte seul entraîne une augmentation nette. Nous nommons ce phénomène contre-intuitif la Localisation Paresseuse de l'Attention. Pour valider son rôle causal, nous concevons des interventions sans entraînement qui modulent directement l'allocation de l'attention lors de l'inférence, permettant des gains de performance de 1 à 2 % sans aucun réentraînement. En nous appuyant sur ces observations, nous proposons ensuite l'Ancrage Visuel Guidé par l'Attention et la Réflexion (AVAR), un cadre complet d'initialisation à froid qui intègre la synthèse de données à ancrage visuel, des objectifs guidés par l'attention et un façonnage de récompense à ancrage visuel. Appliqué à Qwen2.5-VL-7B, AVAR permet un gain moyen de 7,0 % sur 7 benchmarks de raisonnement multimodal. Des études d'ablation confirment en outre que chaque composant d'AVAR contribue de manière progressive aux gains globaux. Le code, les données et les modèles sont disponibles à l'adresse https://github.com/lrlbbzl/Qwen-AVAR.
Les méthodes existantes de personnalisation de concepts ont obtenu des résultats remarquables en matière de fidélité élevée et de personnalisation multi-concepts. Cependant, elles négligent souvent l’influence sur le comportement et les capacités du modèle original lors de l’apprentissage de nouveaux concepts personnalisés. Pour résoudre ce problème, nous proposons PureCC. PureCC introduit un nouvel objectif d’apprentissage découplé pour la personnalisation de concepts, qui combine le guidage implicite du concept cible avec la prédiction conditionnelle originale. Cette forme séparée permet à PureCC de se concentrer substantiellement sur le modèle original durant l’entraînement. De plus, sur la base de cet objectif, PureCC conçoit un pipeline d’entraînement à double branche comprenant un extracteur gelé fournissant des représentations purifiées du concept cible comme guidage implicite, et un modèle de flux entraînable produisant la prédiction conditionnelle originale, réalisant conjointement un apprentissage pur pour les concepts personnalisés. Par ailleurs, PureCC introduit une nouvelle échelle de guidage adaptative λ^star pour ajuster dynamiquement la force de guidage du concept cible, équilibrant la fidélité de la personnalisation et la préservation du modèle. Des expériences approfondies montrent que PureCC obtient des performances de pointe dans la préservation du comportement et des capacités originaux tout en permettant une personnalisation de concepts à haute fidélité. Le code est disponible à l’adresse https://github.com/lzc-sg/PureCC.
Le paysage de l'assistance au codage par IA connaît une transformation fondamentale, passant de plugins complexes pour IDE à des agents natifs du terminal, plus polyvalents. Fonctionnant directement là où les développeurs gèrent le contrôle des sources, exécutent les builds et déploient les environnements, les agents en ligne de commande offrent une autonomie sans précédent pour les tâches de développement à long terme. Dans cet article, nous présentons OPENDEV, un agent de codage en ligne de commande open-source, conçu spécifiquement pour ce nouveau paradigme. Une assistance autonome efficace nécessite des contrôles de sécurité stricts et une gestion de contexte hautement efficace pour éviter l'engorgement du contexte et la dégradation du raisonnement. OPENDEV surmonte ces défis grâce à une architecture système d'IA composite avec un routage de modèles spécialisé par charge de travail, une architecture à double agent séparant la planification de l'exécution, une découverte d'outils paresseuse et une compaction de contexte adaptative qui réduit progressivement les observations anciennes. De plus, il utilise un système de mémoire automatisé pour accumuler les connaissances spécifiques au projet entre les sessions et contrecarre l'atténuation des instructions grâce à des rappels système pilotés par des événements. En imposant des phases de raisonnement explicites et en priorisant l'efficacité du contexte, OPENDEV fournit une base sécurisée et extensible pour une assistance IA axée sur le terminal, offrant ainsi un modèle pour une ingénierie logicielle autonome robuste.
Les modèles de langage autorégressifs (AR) reposent sur une tokenisation causale, mais l'extension de ce paradigme à la vision reste non triviale. Les tokeniseurs visuels actuels aplatissent les patchs 2D en séquences non causales ou imposent des ordonnancements heuristiques qui ne sont pas alignés avec le schéma de "prédiction du token suivant". Les autoencodeurs à diffusion récents présentent des limitations similaires : conditionner le décodeur sur tous les tokens manque de causalité, tandis que l'application d'un mécanisme de dropout imbriqué introduit un déséquilibre. Pour relever ces défis, nous présentons CaTok, un tokeniseur d'images causal 1D avec un décodeur MeanFlow. En sélectionnant des tokens sur des intervalles temporels et en les liant à l'objectif MeanFlow, comme illustré dans la Fig. 1, CaTok apprend des représentations causales 1D qui prennent en charge à la fois une génération rapide en une étape et un échantillonnage multi-étapes de haute fidélité, tout en capturant naturellement divers concepts visuels à travers les intervalles de tokens. Pour stabiliser et accélérer davantage l'entraînement, nous proposons une régularisation simple REPA-A, qui aligne les caractéristiques de l'encodeur avec les modèles de fondation visuelle (VFMs). Les expériences démontrent que CaTok obtient des résultats de pointe sur la reconstruction d'ImageNet, atteignant 0,75 FID, 22,53 PSNR et 0,674 SSIM avec moins d'époques d'entraînement, et le modèle AR atteint des performances comparables aux approches leaders.
L'entraînement des modèles de nouvelle génération pour la génération de code nécessite des jeux de données de haute qualité, mais les ensembles existants souffrent de déséquilibres de difficulté, d'incohérences de format et de problèmes de qualité des données. Nous relevons ces défis grâce à un traitement systématique des données et à une mise à l'échelle de la difficulté. Nous présentons un Cadre de Traitement des Données en quatre étapes comprenant la collecte, le traitement, le filtrage et la vérification, en intégrant un Filtrage Automatique de la Difficulté via un cadre prédire-étalonner-sélectionner basé sur un LLM. Ce cadre exploite des métriques de difficulté multidimensionnelles sur cinq dimensions pondérées pour conserver les problèmes difficiles tout en éliminant les plus simplistes. Le jeu de données MicroCoder qui en résulte comprend des dizaines de milliers de problèmes de programmation compétitive réels et soigneusement sélectionnés provenant de diverses plateformes, en mettant l'accent sur la récence et la difficulté. Les évaluations sur LiveCodeBench (strictement hors échantillon d'entraînement) démontrent que MicroCoder permet des gains de performance 3 fois supérieurs en moins de 300 étapes d'entraînement par rapport aux jeux de données de référence largement utilisés et de taille comparable, avec des avantages constants sous les algorithmes d'entraînement GRPO et sa variante. Le jeu de données MicroCoder apporte des améliorations nettes sur les problèmes de difficulté moyenne et élevée pour différentes tailles de modèles, atteignant des gains relatifs allant jusqu'à 17,2 % dans les performances globales lorsque les capacités du modèle sont le plus sollicitées. Ces résultats valident le fait qu'une curation des données sensible à la difficulté améliore les performances des modèles sur les tâches complexes, offrant ainsi plusieurs perspectives pour la création de jeux de données dans le domaine de la génération de code.
L'ajustement par prompt basé sur CLIP permet aux modèles de vision et langage (VLM) pré-entraînés de s'adapter efficacement à des tâches en aval. Bien que les études existantes aient réalisé des progrès significatifs, elles accordent une attention limitée aux changements dans les représentations attentionnelles internes des VLM pendant le processus d'ajustement. Dans cet article, nous attribuons les modes d'échec des prédictions par ajustement de prompt à des dérives de l'attention sur l'avant-plan dans l'encodeur visuel, et proposons l'ajustement de prompt guidé par la vue de l'avant-plan (FVG-PT), un module plug-and-play adaptatif de guidage attentionnel de l'avant-plan, pour atténuer ces dérives. Concrètement, FVG-PT introduit une porte de fiabilité de l'avant-plan adaptable pour améliorer automatiquement la qualité de la vue de l'avant-plan, applique un module de compensation par distillation de l'avant-plan pour guider l'attention visuelle vers l'avant-plan, et introduit en outre un module d'étalonnage préalable pour atténuer la dégradation de la généralisation causée par une focalisation excessive sur l'avant-plan. Les expériences sur plusieurs modèles de base et jeux de données montrent l'efficacité et la compatibilité de FVG-PT. Les codes sont disponibles à l'adresse : https://github.com/JREion/FVG-PT
Les modèles modernes de génération de code produisent des sorties plus longues, présentent une croissance accélérée des capacités et des dynamiques d'entraînement modifiées, rendant les méthodologies, algorithmes et jeux de données d'entraînement traditionnels inefficaces pour améliorer leurs performances. Pour résoudre ces goulots d'étranglement, nous proposons MicroCoder-GRPO, une approche améliorée d'optimisation de politique relative par groupe avec trois innovations : un masquage par troncation conditionnelle pour améliorer le potentiel de sortie longue tout en maintenant la stabilité de l'entraînement, une sélection de température basée sur la diversité pour maintenir et encourager la diversité des sorties, et la suppression de la perte KL avec des ratios d'écrêtage élevés pour faciliter la diversité des solutions. MicroCoder-GRPO obtient jusqu'à 17,6 % d'amélioration relative par rapport aux bases de référence solides sur LiveCodeBench v6, avec des gains plus prononcés dans le cadre d'évaluations en contexte étendu. De plus, nous publions MicroCoder-Dataset, un corpus d'entraînement plus exigeant qui permet des gains de performances 3 fois supérieurs à ceux des jeux de données grand public sur LiveCodeBench v6 en seulement 300 étapes d'entraînement, et MicroCoder-Evaluator, un cadre robuste avec une précision d'évaluation améliorée d'environ 25 % et une exécution environ 40 % plus rapide. Grâce à une analyse complète menée sur plus de trente expériences contrôlées, nous révélons 34 observations sur l'entraînement couvrant sept aspects principaux, démontrant que des modèles correctement entraînés peuvent atteindre des performances compétitives par rapport à des modèles plus volumineux.
Les modèles vision-langage (VLM) sont apparus comme une orientation prometteuse pour la conduite autonome de bout en bout en modélisant conjointement les observations visuelles, le contexte de conduite et le raisonnement basé sur le langage. Cependant, les systèmes existants basés sur les VLM sont confrontés à un compromis entre le raisonnement de haut niveau et la planification du mouvement : les grands modèles offrent une forte compréhension sémantique mais sont coûteux à adapter pour un contrôle précis, tandis que les petits modèles VLM peuvent être affinés efficacement mais présentent souvent un raisonnement plus faible. Nous proposons NaviDriveVLM, un cadre découplé qui sépare le raisonnement de la génération d'actions en utilisant un Navigateur à grande échelle et un Conducteur léger et entraînable. Cette conception préserve la capacité de raisonnement, réduit le coût d'entraînement et fournit une représentation intermédiaire explicite et interprétable pour la planification en aval. Les expériences sur le benchmark nuScenes montrent que NaviDriveVLM surpasse les grandes bases de référence VLM en planification de mouvement de bout en bout.
Alors que la création de contenu vidéo évolue vers des récits longs, la composition de clips courts en histoires cohérentes devient de plus en plus cruciale. Cependant, les formulations de recherche prédominantes restent agnostiques au contexte lors de l'inférence, privilégiant l'alignement sémantique local tout en négligeant la cohérence des états et des identités. Pour remédier à cette limitation structurelle, nous formalisons la tâche de Recherche Vidéo Cohérente (CVR) et introduisons un benchmark diagnostique couvrant YouCook2, COIN et CrossTask. Nous proposons CAST (Transition d'État Sensible au Contexte), un adaptateur léger, prêt à l'emploi et compatible avec divers espaces d'incorporation vision-langage figés. En prédisant une mise à jour résiduelle conditionnée par l'état (Δ) à partir de l'historique visuel, CAST introduit un biais inductif explicite pour l'évolution de l'état latent. Des expériences approfondies montrent que CAST améliore les performances sur YouCook2 et CrossTask, reste compétitif sur COIN et surpasse constamment les lignes de base zero-shot sur diverses architectures fondamentales. De plus, CAST fournit un signal de reranking utile pour les candidats de génération vidéo en boîte noire (par exemple, de Veo), favorisant des continuités temporellement plus cohérentes.
La parcimonie semi-structurée N:M et la quantification basse précision (par exemple, le BitNet 1,58-bit) sont deux approches prometteuses pour améliorer l'efficacité des grands modèles de langage (LLM), mais elles ont largement été étudiées de manière isolée. Dans ce travail, nous étudions leur interaction et montrons que le BitNet 1,58-bit est naturellement plus compatible avec la parcimonie N:M que les modèles en pleine précision. Pour étudier cet effet, nous proposons Sparse-BitNet, un cadre unifié qui applique conjointement la quantification 1,58-bit et la sparsification dynamique N:M tout en garantissant, pour la première fois, un apprentissage stable. Sur plusieurs échelles de modèles et régimes d'apprentissage (pré-entraînement parcimonieux et stratégies dense-vers-parcimonieux), le BitNet 1,58-bit présente systématiquement une dégradation des performances plus faible que les modèles de référence en pleine précision aux mêmes niveaux de parcimonie, et peut tolérer une parcimonie structurée plus élevée avant un effondrement de la précision. De plus, en utilisant notre cœur de tenseur parcimonieux personnalisé, Sparse-BitNet atteint des accélérations substantielles à la fois lors de l'entraînement et de l'inférence, jusqu'à 1,30X. Ces résultats soulignent que la combinaison d'une quantification à très faible précision avec une parcimonie semi-structurée N:M est une voie prometteuse pour des LLM efficaces. Code disponible à l'adresse https://github.com/AAzdi/Sparse-BitNet
Nous présentons OfficeQA Pro, un benchmark pour évaluer les agents d'IA sur le raisonnement ancré multi-document à partir d'un vaste corpus hétérogène. Ce corpus est constitué de bulletins du Trésor américain couvrant près de 100 ans, comprenant 89 000 pages et plus de 26 millions de valeurs numériques. OfficeQA Pro comprend 133 questions qui nécessitent un analyse précise des documents, un système de retrieval et un raisonnement analytique sur des données textuelles non structurées et tabulaires. Les LLMs de pointe, incluant Claude Opus 4.6, GPT-5.4 et Gemini 3.1 Pro Preview, obtiennent une précision inférieure à 5% sur OfficeQA Pro en s'appuyant uniquement sur leur connaissance paramétrique, et moins de 12% avec un accès supplémentaire au web. Même en ayant un accès direct au corpus documentaire, ces agents éprouvent des difficultés sur plus de la moitié des questions, obtenant un score moyen de 34,1%. Nous constatons que fournir aux agents une représentation structurée des documents générée par la fonction `ai_parse_document` de Databricks améliore leurs performances relatives de 16,1% en moyenne. Nous menons des études d'ablation supplémentaires pour analyser les effets de la sélection du modèle, de la représentation des tableaux, de la stratégie de retrieval et du scaling au moment du test sur les performances. Malgré ces améliorations, des progrès significatifs restent à accomplir avant que les agents puissent être considérés comme fiables pour un raisonnement ancré de niveau professionnel.
L'édition par prompt direct échoue souvent sur les transformations complexes car des instructions vagues et subjectives nécessitent une compréhension nuancée des modifications à apporter à l'image. Notre intuition fondamentale est qu'exploiter des outils d'édition compositionnelle plutôt que des prompts directs bénéficie d'une planification structurée au niveau agent avec un raisonnement explicite, conduisant à de meilleurs résultats. Ce cadre de planification structuré permet un post-entraînement RL hors ligne efficace sur des trajectoires notées pour améliorer les performances. Nous présentons un framework agentique de post-entraînement RL basé sur des outils qui résout ce problème via une planification structurée avec un raisonnement en chaîne de pensée. Nos contributions principales incluent : (1) Une méthodologie de planification agentique outillée combinant une bibliothèque compositionnelle de transformations primitives orthogonales, une représentation structurée du contexte et un raisonnement explicite par étape pour décomposer le stylisme complexe en séquences d'outils interprétables. (2) Un pipeline de génération de données synthétiques produisant trois jeux de données à grande échelle (chacun simulant 10K trajectoires) avec chaînes de raisonnement, plans et scores de qualité, aucun jeu de données existant ne fournissant une telle supervision. Nos jeux de données et notre code sont publics sur le dépôt HuggingFace. (3) Des méthodes d'entraînement RL hors ligne pour apprendre des planificateurs avec raisonnement comme contributions algorithmiques principales, qui améliorent constamment la baseline Edit-Only en qualité visuelle et respect des instructions. (4) Une évaluation exhaustive sur des modèles Qwen3-VL de 4B et 8B paramètres montrant que nos méthodes surpassent les autres baselines sur la majorité des tâches compositionnelles, validée par des évaluations humaines.
Dans cet article, nous abordons le problème du transfert de politique « sim-to-real » tactile pour les tâches riches en contacts. Les méthodes existantes se concentrent principalement sur les capteurs basés sur la vision et mettent l'accent sur la qualité du rendu d'image, tout en fournissant des modèles de force et de cisaillement excessivement simplistes. Par conséquent, ces modèles présentent un écart important entre la simulation et la réalité pour de nombreuses tâches dextères. Nous présentons ici HydroShear, un simulateur tactile hydroélastique non holonome qui fait progresser l'état de l'art en modélisant : a) les transitions d'adhérence-glissement, b) l'accumulation de force et de cisaillement dépendante du chemin, et c) les interactions complètes SE(3) entre l'objet et le capteur. HydroShear étend les modèles de contact hydroélastiques en utilisant des fonctions de distance signée (SDF) pour suivre les déplacements des points en surface d'un pénétrateur lors de l'interaction physique avec la membrane du capteur. Notre approche génère des champs de force physiquement plausibles et efficaces sur le plan computationnel à partir de géométries étanches arbitraires, tout en restant agnostique au moteur physique sous-jacent. Dans des expériences avec des GelSight Minis, HydroShear reproduit le cisaillement tactile réel de manière plus fidèle que les méthodes existantes. Cette fidélité permet un transfert « sim-to-real » sans coup d'apprentissage par renforcement de politiques pour quatre tâches : l'insertion de chevilles, le rangement dans un bac, le rangement de livres pour l'insertion et le tirage de tiroirs pour le contrôle fin de la pince sous glissement. Notre méthode atteint un taux de réussite moyen de 93 %, surpassant les politiques entraînées sur des images tactiles (34 %) et les autres méthodes de simulation du cisaillement (58 %-61 %).
Les modèles de langage autorégressifs (AR) forment des représentations de manière incrémentale par prédiction gauche-droite, tandis que les modèles de langage à diffusion (dLLM) sont entraînés via un débruitage de séquence complète. Bien que les dLLM récents égalent les performances des modèles AR, il reste incertain si les objectifs de diffusion remodèlent fondamentalement les représentations internes en profondeur. Nous réalisons la première analyse représentationnelle couche-par-couche et token-par-token comparant les dLLM natifs (LLaDA), les modèles AR natifs (Qwen2.5) et les dLLM initialisés par AR (Dream-7B). Nous constatons que les objectifs de diffusion produisent des abstractions différentes, plus hiérarchiques, avec une redondance importante dans les couches précoces et un biais de récence réduit, tandis que les objectifs AR génèrent des représentations étroitement couplées et dépendantes de la profondeur. Fait crucial, les dLLM initialisés par AR conservent une dynamique représentationnelle similaire à l'AR malgré l'entraînement par diffusion, révélant un biais d'initialisation persistant. Tirant parti de cette redondance représentationnelle observée, nous introduisons une méthode statique et agnostique de la tâche, de saut de couches à l'inférence, ne nécessitant aucune modification architecturale ni partage de cache KV. Les dLLM natifs atteignent jusqu'à 18,75 % de réduction de FLOPs tout en conservant plus de 90 % des performances sur des benchmarks de raisonnement et de génération de code, tandis que les modèles AR se dégradent fortement avec un saut comparable. Ces résultats établissent un lien entre objectifs d'entraînement et structure représentationnelle, et permettent des gains d'efficacité pratiques et orthogonaux au cache.
Les modèles de fondation évoluent de prédicteurs hors ligne vers des systèmes déployés censés fonctionner sur de longues périodes. Dans les déploiements réels, les objectifs ne sont pas fixes : les domaines dérivent, les préférences des utilisateurs évoluent et de nouvelles tâches apparaissent après la mise en service du modèle. Cela élève l'apprentissage continu et la personnalisation instantanée du statut de fonctionnalités optionnelles à celui d'exigences architecturales fondamentales. Pourtant, la plupart des pipelines d'adaptation suivent encore un paradigme de poids statique : après l'entraînement (ou après toute étape d'adaptation), l'inférence exécute un unique vecteur de paramètres, indépendamment de l'intention de l'utilisateur, du domaine ou des contraintes spécifiques à l'instance. Cela traite le modèle entraîné ou adapté comme un point unique dans l'espace des paramètres. Dans des régimes hétérogènes et en évolution continue, des objectifs distincts peuvent induire des régions faisables séparées sur les paramètres, forçant toute mise à jour partagée unique vers un compromis, des interférences ou une surspécialisation. Par conséquent, l'apprentissage continu et la personnalisation sont souvent implémentés comme un réécriture répétée de poids partagés, risquant la dégradation des comportements précédemment appris. Nous proposons HY-WU (Weight Unleashing), un cadre d'adaptation axé sur la mémoire qui déplace la pression d'adaptation loin du réécriture d'un point de paramètre partagé unique. HY-WU implémente une mémoire fonctionnelle (au niveau opérateur) sous forme de module neuronal : un générateur qui synthétise des mises à jour de poids à la volée à partir de la condition d'instance, produisant des opérateurs spécifiques à l'instance sans optimisation au moment du test.
Les modèles linguistiques modernes reposent encore sur des tokenisations de sous-mots fixes et prédéfinies. Une fois qu'un tokeniseur est entraîné, le modèle ne peut opérer qu'à ce niveau de granularité fixe, ce qui entraîne souvent des comportements fragiles et contre-intuitifs, même pour des modèles par ailleurs performants en raisonnement. Nous présentons ByteFlow Net, une nouvelle architecture hiérarchique qui supprime entièrement les tokeniseurs et permet aux modèles d'apprendre leur propre segmentation des flux d'octets bruts en unités sémantiquement significatives. ByteFlow Net effectue une segmentation pilotée par la compression basée sur le taux de codage des représentations latentes, produisant des frontières adaptatives tout en préservant un graphe de calcul statique via une sélection Top-K. Contrairement aux méthodes d'auto-tokenisation antérieures qui dépendent d'heuristiques fragiles avec des biais inductifs conçus par l'homme, ByteFlow Net adapte la granularité de sa représentation interne à l'entrée elle-même. Les expériences démontrent que cette stratégie de segmentation par compression procure des gains substantiels de performances, ByteFlow Net surpassant à la fois les Transformers basés sur BPE et les architectures antérieures au niveau des octets. Ces résultats suggèrent que la modélisation end-to-end sans tokeniseur est non seulement réalisable mais aussi plus efficace, ouvrant la voie vers des modèles de langage plus adaptatifs et ancrés dans l'information.
Les modèles génératifs vidéo récents visent à simuler l'évolution des environnements visuels, permettant à un observateur d'explorer interactivement la scène via le contrôle de la caméra. Cependant, ils supposent implicitement que le monde n'évolue que dans le champ de vision de l'observateur. Une fois qu'un objet quitte la vue de l'observateur, son état est "figé" en mémoire, et revisiter la même région plus tard échoue souvent à refléter les événements qui auraient dû se produire entretemps. Dans ce travail, nous identifions et formalisons cette limitation négligée comme le problème des "dynamiques hors champ", qui empêche les modèles vidéo de monde de représenter un monde en évolution continue. Pour résoudre ce problème, nous proposons LiveWorld, un cadre novateur qui étend les modèles vidéo de monde pour supporter une évolution mondiale persistante. Au lieu de traiter le monde comme une mémoire observationnelle statique, LiveWorld modélise un état global persistant composé d'un arrière-plan 3D statique et d'entités dynamiques qui continuent d'évoluer même lorsqu'elles ne sont pas observées. Pour maintenir ces dynamiques invisibles, LiveWorld introduit un mécanisme basé sur des moniteurs qui simule autonome-ment la progression temporelle des entités actives et synchronise leurs états évolués lors des revisites, garantissant un rendu spatialement cohérent. Pour l'évaluation, nous introduisons en outre LiveBench, un benchmark dédié à la tâche de maintien des dynamiques hors champ. Des expériences approfondies montrent que LiveWorld permet une évolution persistante des événements et une cohérence scénique à long terme, comblant l'écart entre la mémoire observationnelle 2D existante et la véritable simulation de monde dynamique 4D. Le modèle de base et le benchmark seront publics sur https://zichengduan.github.io/LiveWorld/index.html.
L'optimisation manuelle des noyaux GPU est une tâche complexe et chronophage. Avec le développement rapide des LLM, l'optimisation automatisée des noyaux GPU devient progressivement une réalité tangible. Cependant, les méthodes d'optimisation automatisée actuelles pilotées par les LLM se concentrent étroitement sur les applications de l'apprentissage automatique, telles que l'optimisation des opérateurs PyTorch, tout en négligeant des domaines plus vastes comme les opérations sur matrices creuses dans le calcul scientifique. L'extension à ces applications élargies présente de nouveaux défis pour les benchmarks et les algorithmes. Par conséquent, le développement d'une méthode d'optimisation automatisée des noyaux à usage général devient notre objectif principal. Dans cet article, nous répondons à l'absence d'évaluation systématique pour les configurations multi-scénarios en introduisant MSKernelBench, qui couvre plusieurs scénarios, incluant les opérations algébriques fondamentales, les noyaux LLM courants, les opérateurs sur matrices creuses et les routines de calcul scientifique, chacun prenant en charge les précisions FP32 et BF16. Sur la base de ce benchmark, nous présentons CUDAMaster, un système multi-agent, matériellement conscient pour l'optimisation des noyaux qui exploite les informations de profilage et construit automatiquement la chaîne complète d'outils de compilation et d'exécution. Les résultats expérimentaux démontrent que CUDAMaster obtient des accélérations significatives sur la plupart des opérateurs, surpassant Astra d'environ 35%. Dans plusieurs cas, ses performances égalent ou dépassent celles de bibliothèques hautement optimisées et propriétaires telles que cuBLAS. Une démonstration présentant le code original et optimisé pour chaque opérateur est disponible à l'adresse https://hanyx2021.github.io/MSKernelBenchDemo/.
La distillation des connaissances (KD) a été largement appliquée en segmentation sémantique pour compresser les grands modèles, mais les approches conventionnelles préservent principalement la précision en domaine connu tout en négligeant la généralisation hors domaine, qui est essentielle face aux changements de distribution. Cette limitation devient plus sévère avec l'émergence des modèles de fondation visuels (VFMs) : bien que les VFMs présentent une forte robustesse sur des données non vues, leur distillation avec la KD conventionnelle compromet souvent cette capacité. Nous proposons la Distillation Généralisable des Connaissances (GKD), un cadre multi-étapes qui améliore explicitement la généralisation. GKD découple l'apprentissage de représentation de l'apprentissage de tâche. Dans la première étape, l'étudiant acquiert des représentations agnostiques au domaine via une distillation sélective des caractéristiques, et dans la seconde étape, ces représentations sont gelées pour l'adaptation à la tâche, atténuant ainsi le surapprentissage aux domaines visibles. Pour further soutenir le transfert, nous introduisons un mécanisme de distillation douce par requêtes, où les caractéristiques de l'étudiant agissent comme des requêtes vers les représentations du professeur pour récupérer sélectivement des connaissances spatiales transférables depuis les VFMs. Des expériences approfondies sur cinq benchmarks de généralisation de domaine démontrent que GKD surpasse constamment les méthodes KD existantes, obtenant des gains moyens de +1,9 % en distillation fondation-à-fondation (F2F) et de +10,6 % en distillation fondation-à-locale (F2L). Le code sera disponible à l'adresse https://github.com/Younger-hua/GKD.
Les agents d’interface graphique (GUI) modernes basés sur des modèles vision-langage (VLM) sont censés non seulement exécuter des actions avec précision, mais aussi répondre aux instructions utilisateur avec une faible latence. Si les recherches existantes sur la sécurité des agents GUI se concentrent principalement sur la manipulation de la justesse des actions, les risques liés à l’efficacité des réponses restent largement inexplorés. Dans cet article, nous présentons SlowBA, une nouvelle attaque par porte dérobée qui cible la réactivité des agents GUI basés sur VLM. L’idée clé est de manipuler la latence des réponses en induisant des chaînes de raisonnement excessivement longues sous certaines configurations déclencheuses. Pour y parvenir, nous proposons une stratégie d’injection de porte dérobée au niveau de la récompense (RBI) en deux étapes : d’abord aligner le format de réponse longue, puis apprendre l’activation conditionnée par le déclencheur via l’apprentissage par renforcement. De plus, nous concevons des fenêtres contextuelles réalistes comme déclencheurs, qui apparaissent naturellement dans les environnements GUI, améliorant ainsi la furtivité de l’attaque. Des expériences approfondies sur plusieurs jeux de données et modèles de référence montrent que SlowBA peut augmenter significativement la longueur et la latence des réponses, tout en préservant largement la précision des tâches. L’attaque reste efficace même avec un faible taux d’empoisonnement et sous plusieurs configurations défensives. Ces résultats révèlent une vulnérabilité de sécurité jusqu’alors négligée dans les agents GUI et soulignent la nécessité de défenses prenant en compte à la fois la justesse des actions et l’efficacité des réponses. Le code est disponible à l’adresse https://github.com/tu-tuing/SlowBA.
Prédire la réponse des cellules aux perturbations génétiques est fondamental pour comprendre la fonction des gènes, les mécanismes des maladies et le développement thérapeutique. Bien que les approches récentes d'apprentissage profond aient montré des résultats prometteurs pour modéliser les réponses aux perturbations à l'échelle monocellulaire, elles peinent à généraliser leurs performances à travers différents types cellulaires et contextes de perturbation en raison d'informations contextuelles limitées lors de la génération. Nous présentons PT-RAG (Perturbation-aware Two-stage Retrieval-Augmented Generation), un nouveau cadre qui étend la Génération Augmentée par Récupération au-delà des applications traditionnelles des modèles de langage pour l'appliquer à la biologie cellulaire. Contrairement aux systèmes RAG standard conçus pour la récupération de texte avec des LLM pré-entraînés, la récupération de perturbations manque de métriques de similarité établies et nécessite d'apprendre ce qui constitue un contexte pertinent, rendant une récupération différentiable essentielle. PT-RAG résout ce problème via un pipeline en deux étapes : premièrement, la récupération de perturbations candidates K à l'aide d'embeddings GenePT, puis l'affinage adaptatif de la sélection via un échantillonnage discret Gumbel-Softmax conditionné à la fois par l'état cellulaire et la perturbation d'entrée. Cette récupération différentiable, sensible au type cellulaire, permet une optimisation de bout en bout de l'objectif de récupération conjointement avec la génération. Sur le jeu de données de perturbation génique unique Replogle-Nadig, nous démontrons que PT-RAG surpasse à la fois STATE et le RAG standard dans des conditions expérimentales identiques, avec les gains les plus importants sur les métriques de similarité distributionnelle (W_1, W_2). Il est notable que l'échec spectaculaire du RAG standard est en soi un résultat clé : il démontre qu'une récupération différentiable et sensible au type cellulaire est essentielle dans ce domaine, et qu'une récupération naïve peut activement dégrader les performances. Nos résultats établissent la génération augmentée par récupération comme un paradigme prometteur pour la modélisation des réponses cellulaires aux perturbations géniques. Le code pour reproduire nos expériences est disponible à l'adresse https://github.com/difra100/PT-RAG_ICLR.
Nous étudions l'autodiffusiophorèse d'une particule chimiquement active sphérique près d'une paroi plane imperméable, en nous concentrant sur l'influence de l'orientation de la particule sur la propulsion. Nous analysons une particule Janus présentant une activité chimique de surface asymétrique, composée d'une petite région inerte à l'intérieur d'une calotte catalytiquement active. Bien que des simulations numériques aient été utilisées pour étudier de telles particules, elles rencontrent des difficultés à résoudre l'écoulement et le transport dans le régime extrêmement proche de la paroi en raison du confinement géométrique et des gradients de concentration de soluté abrupts. Nous abordons cette limitation par une analyse asymptotique dans la limite du contact proche, où l'espace entre la particule et la paroi est étroit. En particulier, nous considérons la limite distinguée dans laquelle la région inerte a une taille asymptotiquement comparable à la région de lubrification. Nous analysons une configuration axisymétrique dans laquelle la face inerte est orientée parallèlement à la paroi et étendons l'analyse à des orientations légèrement inclinées. Nous constatons que le basculement détermine si une particule inclinée tourne en arrière vers l'état axisymétrique ou continue de se réorienter, caractérisant ainsi sa stabilité rotationnelle dans le régime de contact proche.
Les cartes de flux permettent une génération d'images de haute qualité en une seule passe avant. Cependant, contrairement aux modèles de diffusion itératifs, leur absence de trajectoire d'échantillonnage explicite empêche l'intégration de contraintes externes pour la génération conditionnelle et la résolution de problèmes inverses. Nous proposons les Cartes de Flux Variationnelles, un cadre pour l'échantillonnage conditionnel qui déplace la perspective du conditionnement de "guider un chemin d'échantillonnage" vers celle "d'apprendre le bruit initial approprié". Plus précisément, étant donnée une observation, nous cherchons à apprendre un modèle adaptateur de bruit qui produit une distribution de bruit, de sorte qu'après transformation vers l'espace des données via la carte de flux, les échantillons respectent l'observation et l'a priori des données. À cette fin, nous développons un objectif variationnel fondé qui entraîne conjointement l'adaptateur de bruit et la carte de flux, améliorant l'alignement bruit-données, de telle sorte que l'échantillonnage à partir d'une distribution a posteriori complexe soit réalisé avec un simple adaptateur. Les expériences sur divers problèmes inverses montrent que les CFV produisent des échantillons conditionnels bien calibrés en une seule (ou quelques) étape(s). Pour ImageNet, la CFV atteint une fidélité compétitive tout en accélérant l'échantillonnage de plusieurs ordres de grandeur par rapport aux modèles de diffusion/flux itératifs alternatifs. Le code est disponible à l'adresse https://github.com/abbasmammadov/VFM
Les diapositives constituent un support essentiel pour la transmission d'informations dans des contextes orientés présentation, tels que le milieu universitaire, l'éducation et les affaires. Malgré leur importance, la création de présentations de diapositives de haute qualité reste une tâche chronophage et exigeante sur le plan cognitif. Les récents progrès des modèles génératifs, tels que Nano Banana Pro, ont rendu la génération automatisée de diapositives de plus en plus réalisable. Cependant, les évaluations existantes de la génération de diapositives sont souvent trop générales et s'appuient sur des jugements holistiques, ce qui rend difficile l'évaluation précise des capacités des modèles ou le suivi des progrès significatifs dans ce domaine. En pratique, l'absence de critères d'évaluation fins et vérifiables constitue un goulot d'étranglement critique tant pour la recherche que pour le déploiement en conditions réelles. Dans cet article, nous proposons PresentBench, un benchmark basé sur une grille d'évaluation détaillée pour évaluer la génération automatisée de diapositives en situation réelle. Il contient 238 instances d'évaluation, chacune complétée par les documents de contexte nécessaires à la création des diapositives. De plus, nous concevons manuellement en moyenne 54,1 éléments de checklist par instance, chacun formulé comme une question binaire, afin de permettre une évaluation fine et spécifique à chaque instance des présentations générées. Des expériences approfondies montrent que PresentBench fournit des résultats d'évaluation plus fiables que les méthodes existantes et présente un alignement significativement plus fort avec les préférences humaines. Par ailleurs, notre benchmark révèle que NotebookLM surpasse significativement les autres méthodes de génération de diapositives, mettant en lumière les progrès substantiels récents dans ce domaine.
Les modèles de diffusion générative sont de plus en plus utilisés pour l'augmentation de données en imagerie médicale, mais l'incitation textuelle ne peut pas produire des données d'entraînement causales. Le ré-*prompting* relance toute la trajectoire de génération, modifiant l'anatomie, la texture et l'arrière-plan. Les méthodes d'édition basées sur l'inversion introduisent une erreur de reconstruction qui entraîne une dérive structurelle. Nous proposons MedSteer, un cadre d'orientation des activations sans entraînement pour la synthèse endoscopique. MedSteer identifie un vecteur de pathologie pour chaque paire d'invites contrastives dans les couches d'attention croisée d'un transformeur de diffusion. Au moment de l'inférence, il oriente les activations de l'image le long de ce vecteur, générant des paires contrefactuelles à partir de zéro où la seule différence est le concept orienté. Toute autre structure est préservée par construction. Nous évaluons MedSteer sur trois expériences utilisant Kvasir v3 et HyperKvasir. Sur la génération contrefactuelle pour trois paires de concepts cliniques, MedSteer atteint des taux de basculement de 0,800, 0,925 et 0,950, surpassant la meilleure méthode de référence basée sur l'inversion à la fois en taux de basculement conceptuel et en préservation structurelle. Sur la dissociation des colorants, MedSteer réalise 75 % de suppression de colorant contre 20 % (PnP) et 10 % (h-Edit). Sur la détection aval de polypes, l'augmentation avec les paires contrefactuelles de MedSteer atteint une AUC ViT de 0,9755 contre 0,9083 pour le ré-*prompting* avec une quantité équivalente, confirmant que la structure contrefactuelle est à l'origine du gain. Le code est disponible à l'adresse : https://github.com/phamtrongthang123/medsteer
Le flux de trafic urbain est gouverné par l'interaction complexe et non linéaire entre la configuration de l'utilisation des sols et une demande de mobilité hétérogène dans l'espace et le temps. Les modèles conventionnels de régression globale et de séries temporelles ne peuvent simultanément capturer ces dynamiques multi-échelles pour de multiples modes de déplacement. Cette étude propose un cadre d'analyse hybride GeoAI qui intègre séquentiellement la Régression Géographiquement Pondérée Multi-échelle (MGWR), les Forêts Aléatoires (RF) et les Réseaux de Convolutions Graphiques Spatio-Temporelles (ST-GCN) pour modéliser l'hétérogénéité spatio-temporelle des patterns de flux de trafic et leur interaction avec l'utilisation des sols pour trois modes de mobilité : le véhicule motorisé, les transports publics et les modes actifs. L'application du cadre à un jeu de données empiriquement calibré de 350 zones de trafic réparties sur six villes couvrant deux morphologies urbaines contrastées fait émerger quatre résultats clés : (i) le modèle hybride GeoAI atteint une racine de l'erreur quadratique moyenne (RMSE) de 0,119 et un R² de 0,891, surpassant tous les modèles de référence de 23 à 62 % ; (ii) l'analyse SHAP identifie le mix d'utilisation des sols comme le prédicteur le plus fort pour les flux de véhicules motorisés et la densité des arrêts de transport comme le prédicteur le plus fort pour les transports publics ; (iii) le clustering DBSCAN identifie cinq typologies fonctionnellement distinctes du trafic urbain avec un score de silhouette de 0,71, et les résidus du modèle hybride GeoAI présentent un I de Moran = 0,218 (p < 0,001), une réduction de 72 % par rapport aux modèles de régression linéaire (OLS) ; et (iv) les expériences de transfert inter-villes révèlent une transférabilité modérée à l'intérieur des clusters (R² ≥ 0,78) et une généralisabilité limitée entre les clusters, soulignant la primauté du contexte morphologique urbain. Le cadre offre aux planificateurs et ingénieurs des transports une boîte à outils interprétable et évolutive pour une gestion évidence-based de la mobilité multimodale et la conception de politiques d'utilisation des sols.
Le suivi de points arbitraires (TAP) est une tâche fondamentale mais difficile en vision par ordinateur, nécessitant une grande précision et un raisonnement motionnel à long terme. Les tentatives récentes de combinaison d'images RVB et de flux d'événements sont prometteuses, mais elles reposent généralement sur une fusion synchrone ou non adaptative, entraînant un désalignement temporel et une dégradation sévère lorsqu'une modalité est défaillante. Nous présentons TAPFormer, un framework basé sur un transformateur qui réalise une fusion temporellement cohérente et asynchrone des images et des événements pour un suivi robuste et haute fréquence de points arbitraires. Notre innovation clé est un mécanisme de Fusion Asynchrone Transitoire (TAF), qui modélise explicitement l'évolution temporelle entre les images discrètes via des mises à jour continues des événements, comblant ainsi l'écart entre les images à faible fréquence et les événements à haute fréquence. De plus, un module de Fusion Pondérée Localement Intermodale (CLWF) ajuste de manière adaptative l'attention spatiale selon la fiabilité des modalités, produisant des caractéristiques stables et discriminantes même en cas de flou ou de faible luminosité. Pour évaluer notre approche dans des conditions réalistes, nous avons constitué un nouveau jeu de données TAP réel combinant images et événements, sous diverses conditions d'éclairage et de mouvement. Notre méthode surpasse les trackeurs de points existants, obtenant une amélioration de 28,2% de l'erreur pixel moyenne dans le seuil. De plus, sur les benchmarks standards de suivi de points, notre tracker obtient systématiquement les meilleures performances. Site web du projet : tapformer.github.io
Des sorties diversifiées en génération de texte sont nécessaires pour une exploration efficace dans les tâches de raisonnement complexe, telles que la génération de code et la résolution de problèmes mathématiques. Les problèmes de type Pass@k bénéficient de candidats distincts couvrant l'espace des solutions. Cependant, les approches d'échantillonnage traditionnelles gaspillent souvent des ressources computationnelles sur des modes d'échec répétitifs. Bien que les modèles de langage à diffusion soient apparus comme une alternative compétitive au paradigme autorégressif dominant, ils restent vulnérables à cette redondance, les échantillons indépendants s'effondrant fréquemment dans des modes similaires. Pour remédier à cela, nous proposons une intervention peu coûteuse et sans apprentissage pour améliorer la diversité générative dans les modèles de langage à diffusion. Notre approche modifie séquentiellement les échantillons intermédiaires dans un lot, où chaque échantillon est repoussé de l'espace des caractéristiques des échantillons précédents, pénalisant activement la redondance. Contrairement aux méthodes antérieures nécessitant un réentraînement ou une recherche en faisceau, notre stratégie entraîne une surcharge computationnelle négligeable, tout en garantissant que chaque échantillon apporte une perspective unique au lot. Nous évaluons notre méthode sur les benchmarks HumanEval et GSM8K en utilisant le modèle LLaDA-8B-Instruct. Nos résultats démontrent une amélioration significative de la diversité et des performances Pass@k pour divers réglages de température. En tant que simple modification du processus d'échantillonnage, notre méthode offre une amélioration immédiate et peu coûteuse pour les modèles de langage à diffusion actuels et futurs dans les tâches bénéficiant d'une recherche de solutions diversifiée. Nous mettons notre code à disposition à l'adresse https://github.com/sean-lamont/odd.
L'apprentissage par imitation (IL) permet aux robots d'acquérir des compétences de manipulation à partir de démonstrations expertes. La politique de diffusion (DP) modélise les comportements experts multimodaux mais subit une dégradation des performances à mesure que les horizons d'observation s'allongent, limitant ainsi la manipulation à long terme. Nous proposons le module temporel SEGA (Self-Evolving Gated Attention), qui maintient un état latent évolutif via une attention à porte, permettant des mises à jour récurrentes efficaces. Ce mécanisme comprime les observations à long horizon en une représentation de taille fixe tout en filtrant les informations temporelles non pertinentes. L'intégration de SEGA dans DP donne naissance à la SeedPolicy (Self-Evolving Diffusion Policy), qui résout le goulot d'étranglement de la modélisation temporelle et permet une extension scalable de l'horizon avec une surcharge modérée. Sur le benchmark RoboTwin 2.0 comprenant 50 tâches de manipulation, SeedPolicy surpasse DP et autres méthodes d'IL de référence. En moyenne sur les architectures CNN et Transformer, SeedPolicy obtient une amélioration relative de 36,8 % dans des conditions standards et de 169 % dans des conditions randomisées difficiles par rapport à DP. Comparée aux modèles vision-langage-action tels que RDT (1,2 milliard de paramètres), SeedPolicy atteint des performances compétitives avec un à deux ordres de grandeur de paramètres en moins, démontrant une forte efficacité et scalabilité. Ces résultats établissent SeedPolicy comme une méthode d'apprentissage par imitation de pointe pour la manipulation robotique à long terme. Le code est disponible à l'adresse : https://github.com/Youqiang-Gui/SeedPolicy.
Les modèles du monde permettent la planification dans un espace prédictif imaginé, offrant un cadre prometteur pour la navigation incarnée. Cependant, les modèles du monde existants pour la navigation manquent souvent de cohérence conditionnée par l'action, de sorte que des prédictions visuellement plausibles peuvent dériver lors du déploiement multi-étapes et dégrader la planification. De plus, un déploiement efficace nécessite une inférence par diffusion en peu d'étapes, mais les méthodes de distillation existantes ne préservent pas explicitement la cohérence du déploiement, créant un décalage entre l'entraînement et l'inférence. Pour relever ces défis, nous proposons MWM, un modèle du monde mobile pour la navigation par objectif visuel basée sur la planification. Plus précisément, nous introduisons un cadre d'entraînement en deux étapes combinant un pré-entraînement structurel avec un post-entraînement par Cohérence Conditionnée par l'Action (ACC) pour améliorer la cohérence du déploiement conditionné par l'action. Nous introduisons en outre la Distillation d'État Cohérente à l'Inférence (ICSD) pour une distillation par diffusion en peu d'étapes avec une meilleure cohérence du déploiement. Nos expériences sur des benchmarks et des tâches en conditions réelles démontrent des gains constants en fidélité visuelle, précision de trajectoire, succès de la planification et efficacité de l'inférence. Code : https://github.com/AIGeeksGroup/MWM. Site web : https://aigeeksgroup.github.io/MWM.