papers.description
Les modèles à mélange d'experts (MoE) manquent de contraintes explicites pour garantir que les décisions du routeur s'alignent correctement sur les capacités des experts, ce qui limite in fine les performances du modèle. Pour remédier à cela, nous proposons la perte de couplage expert-routeur (ERC), une fonction de perte auxiliaire légère qui couple étroitement les décisions du routeur aux capacités des experts. Notre approche traite l'embedding du routeur de chaque expert comme un token proxy pour les tokens assignés à cet expert, et fait passer ces embeddings perturbés à travers les experts pour obtenir leurs activations internes. La perte ERC impose deux contraintes sur ces activations : (1) Chaque expert doit présenter une activation plus élevée pour son propre token proxy que pour les tokens proxy des autres experts. (2) Chaque token proxy doit provoquer une activation plus forte de son expert correspondant que de tout autre expert. Ces contraintes garantissent conjointement que chaque embedding du routeur représente fidèlement la capacité de son expert correspondant, tandis que chaque expert se spécialise dans le traitement des tokens qui lui sont effectivement routés. La perte ERC est efficace sur le plan computationnel, opérant uniquement sur n² activations, où n est le nombre d'experts. Cela représente un coût fixe indépendant de la taille du lot, contrairement aux méthodes de couplage antérieures qui évoluent avec le nombre de tokens (souvent des millions par lot). Grâce au pré-entraînement de MoE-LLMs allant de 3B à 15B de paramètres et à une analyse approfondie sur des milliers de milliards de tokens, nous démontrons l'efficacité de la perte ERC. De plus, la perte ERC offre un contrôle flexible et un suivi quantitatif des niveaux de spécialisation des experts pendant l'entraînement, fournissant des insights précieux sur les modèles MoE.
La génération vidéo en temps réel par diffusion est essentielle pour construire des systèmes d'IA interactifs multimodaux généralistes. Cependant, le débruitage simultané de toutes les images vidéo via une attention bidirectionnelle dans un processus itératif, propre aux modèles de diffusion, empêche l'interaction en temps réel. Bien que les méthodes de distillation existantes puissent rendre le modèle autorégressif et réduire les étapes d'échantillonnage pour atténuer ce problème, elles se concentrent principalement sur la génération texte-à-vidéo, rendant l'interaction humain-IA peu naturelle et inefficace. Cet article vise une diffusion vidéo interactive en temps réel conditionnée par un contexte multimodal (texte, image et audio) pour combler cet écart. Partant du constat que l'approche de distillation *on-policy* leader, Self Forcing, rencontre des difficultés (artefacts visuels tels que scintillement, images noires et dégradation de la qualité) avec un conditionnement multimodal, nous étudions une recette de distillation améliorée mettant l'accent sur la qualité des entrées de conditionnement ainsi que sur l'initialisation et la planification de l'optimisation *on-policy*. Sur des benchmarks de génération vidéo d'avatar conditionnée multimodalement (audio, image et texte), incluant HDTF, AVSpeech et CelebV-HQ, notre modèle distillé atteint la qualité visuelle des modèles de référence bidirectionnels à nombre complet d'étapes, de taille similaire ou supérieure, avec un coût et une latence d'inférence 20 fois moindres. De plus, nous intégrons notre modèle avec des modèles de langage audio et la technique d'inférence vidéo long-forme *Anchor-Heavy Identity Sinks* pour construire LiveTalk, un système interactif multimodal d'avatar en temps réel. Une évaluation au niveau du système sur notre benchmark d'interaction multi-tours organisé montre que LiveTalk surpasse les modèles de l'état de l'art (Sora2, Veo3) en termes de cohérence vidéo multi-tours et de qualité de contenu, tout en réduisant la latence de réponse de 1-2 minutes à une génération en temps réel, permettant une interaction multimodale humain-IA fluide.
Les approches récentes ont démontré le potentiel des modèles de diffusion pour générer des mondes interactifs et explorables. Cependant, la plupart de ces méthodes rencontrent des défis critiques tels que des tailles de paramètres excessivement importantes, une dépendance à de longues étapes d'inférence et une croissance rapide du contexte historique, ce qui limite sévèrement les performances en temps réel et fait défaut en capacités de génération contrôlée par texte. Pour relever ces défis, nous proposons \method, un nouveau cadre conçu pour générer des mondes réalistes, interactifs et continus à partir d'une seule image ou d'une invite textuelle. \method y parvient grâce à une architecture soigneusement conçue qui prend en charge l'exploration au clavier des mondes générés. Le cadre comprend trois composants principaux : (1) un système de génération de vidéos longues intégrant une compression unifiée du contexte avec une attention linéaire ; (2) une stratégie d'accélération en flux temps réel alimentée par une distillation attentionnelle bidirectionnelle et un schéma amélioré d'incorporation de texte ; (3) une méthode contrôlée par texte pour générer des événements mondiaux. Nous avons fourni le code source dans le matériel supplémentaire.
L'apprentissage par renforcement agentique (RL) présente un potentiel considérable pour le développement d'agents autonomes dans des tâches complexes sur interface graphique, mais son extensibilité reste sévèrement limitée par la vérification de l'achèvement des tâches. La vérification existante est traitée comme un processus passif et a posteriori : un vérificateur (par exemple, un script de notation basé sur des règles, un modèle de récompense ou critique, ou un LLM-comme-Juge) analyse la trajectoire d'interaction complète de l'agent pour déterminer son succès. Ce traitement d'un contexte verbeux contenant un historique parasite et non pertinent pose des défis aux protocoles de vérification, entraînant ainsi un coût prohibitif et une faible fiabilité. Pour surmonter ce goulot d'étranglement, nous proposons SmartSnap, un changement de paradigme passant d'une vérification passive et a posteriori à une auto-vérification proactive et in situ par l'agent lui-même. Nous introduisons l'Agent Auto-Vérificateur, un nouveau type d'agent conçu avec une double mission : non seulement accomplir une tâche, mais aussi prouver sa réalisation avec des preuves ciblées sous forme d'instantanés. Guidé par nos principes 3C proposés (Complétude, Concision et Créativité), l'agent utilise son accès à l'environnement en ligne pour effectuer une auto-vérification sur un ensemble minimal et décisif d'instantanés. Ces preuves sont fournies comme seuls éléments à un vérificateur général de type LLM-comme-Juge pour déterminer leur validité et leur pertinence. Les expériences sur des tâches mobiles, menées sur différentes familles et échelles de modèles, démontrent que notre paradigme SmartSnap permet d'entraîner des agents pilotés par LLM de manière extensible, apportant des gains de performance allant jusqu'à 26,08 % et 16,66 % respectivement pour des modèles de 8B et 30B. La synergie entre la recherche de solution et la quête de preuves facilite le développement d'agents auto-vérificateurs efficaces, affichant des performances compétitives face à DeepSeek V3.1 et Qwen3-235B-A22B.
Les objets transparents restent notoirement difficiles pour les systèmes de perception : la réfraction, la réflexion et la transmission brisent les hypothèses sous-jacentes à la stéréo, au temps de vol (ToF) et aux méthodes de profondeur monoculaire purement discriminatives, entraînant des trous et des estimations temporellement instables. Notre observation clé est que les modèles de diffusion vidéo modernes synthétisent déjà des phénomènes transparents convaincants, suggérant qu'ils ont internalisé les règles optiques. Nous construisons TransPhy3D, un corpus vidéo synthétique de scènes transparentes/réfléchissantes : 11 000 séquences rendues avec Blender/Cycles. Les scènes sont assemblées à partir d'une banque organisée d'assets statiques riches en catégories et d'assets procéduraux riches en formes, associés à des matériaux verre/plastique/métal. Nous rendons RVB + profondeur + normales par lancer de rayons physique et par débruiteur OptiX. En partant d'un grand modèle de diffusion vidéo, nous apprenons un traducteur vidéo-à-vidéo pour la profondeur (et les normales) via des adaptateurs LoRA légers. Pendant l'entraînement, nous concaténons les latentes RVB et de profondeur (bruitée) dans le backbone DiT et co-entraînons sur TransPhy3D et des ensembles de données synthétiques image par image existants, produisant des prédictions temporellement cohérentes pour des vidéos d'entrée de longueur arbitraire. Le modèle résultant, DKT, atteint l'état de l'art en zero-shot sur des benchmarks vidéo réels et synthétiques impliquant la transparence : ClearPose, DREDS (CatKnown/CatNovel) et TransPhy3D-Test. Il améliore la précision et la cohérence temporelle par rapport à des bases de référence solides pour l'image/la vidéo, et une variante pour les normales établit les meilleurs résultats pour l'estimation vidéo de normales sur ClearPose. Une version compacte de 1,3 Md de paramètres s'exécute en ~0,17 s/image. Intégré dans une pile de préhension, la profondeur de DKT augmente les taux de réussite sur des surfaces translucides, réfléchissantes et diffuses, surpassant les estimateurs antérieurs. Ensemble, ces résultats étayent une affirmation plus large : « La diffusion connaît la transparence. » Les préalables génératifs vidéo peuvent être réutilisés, efficacement et sans étiquettes, pour une perception robuste et temporellement cohérente destinée à la manipulation en monde réel difficile.
Les méthodes de super-résolution vidéo basées sur la diffusion (VSR) obtiennent une qualité perceptuelle élevée mais restent peu pratiques pour les applications sensibles à la latence en raison de leur dépendance aux images futures et à un débruîtage multi-étapes coûteux. Nous proposons Stream-DiffVSR, un cadre de diffusion à conditionnement causal pour la VSR en ligne efficace. Fonctionnant strictement sur les images passées, il combine un débruitiseur distillé à quatre étapes pour une inférence rapide, un module de guidage temporel autorégressif (ARTG) qui injecte des indices alignés sur le mouvement durant le débruîtage latent, et un décodeur temporel léger avec un module de traitement temporel (TPM) qui améliore les détails et la cohérence temporelle. Stream-DiffVSR traite des images 720p en 0,328 seconde sur une GPU RTX4090 et surpasse significativement les méthodes précédentes basées sur la diffusion. Comparé à l'état de l'art en ligne TMP, il améliore la qualité perceptuelle (LPIPS +0,095) tout en réduisant la latence de plus de 130 fois. Stream-DiffVSR atteint la latence la plus faible rapportée pour la VSR par diffusion, réduisant le délai initial de plus de 4600 secondes à 0,328 seconde, ce qui en fait la première méthode de VSR par diffusion adaptée à un déploiement en ligne à faible latence. Page du projet : https://jamichss.github.io/stream-diffvsr-project-page/
Bien que les grands modèles vision-langage (VLM) autorégressifs aient connu un succès remarquable, leur génération séquentielle limite souvent leur efficacité dans la planification visuelle complexe et le contrôle robotique dynamique. Dans ce travail, nous étudions le potentiel de construction de modèles vision-langage sur des grands modèles de langage basés sur la diffusion (dLLM) pour surmonter ces limitations. Nous présentons Dream-VL, un VLM ouvert basé sur la diffusion (dVLM) qui atteint des performances de pointe parmi les dVLM précédents. Dream-VL est comparable aux meilleurs VLM basés sur l'autorégression entraînés sur des données ouvertes selon divers benchmarks, mais montre un potentiel supérieur lorsqu'il est appliqué à des tâches de planification visuelle. Sur la base de Dream-VL, nous présentons Dream-VLA, un modèle vision-langage-action (dVLA) basé sur les dLLM, développé grâce à un pré-entraînement continu sur des ensembles de données robotiques ouverts. Nous démontrons que la nature intrinsèquement bidirectionnelle de cette architecture de diffusion constitue une fondation supérieure pour les tâches VLA, naturellement adaptée au découpage des actions et à la génération parallèle, conduisant à une convergence significativement plus rapide lors du fine-tuning en aval. Dream-VL atteint des performances de premier plan avec un taux de réussite moyen de 97,2% sur LIBERO, 71,4% de moyenne globale sur SimplerEnv-Bridge et 60,5% de moyenne globale sur SimplerEnv-Fractal, surpassant des modèles leaders tels que π_0 et GR00T-N1. Nous validons également que les dVLM surpassent les modèles de référence autorégressifs sur les tâches en aval, quel que soit l'objectif d'entraînement. Nous publions à la fois Dream-VL et Dream-VLA pour faciliter les recherches futures au sein de la communauté.
Les modèles de diffusion par transformateurs ont considérablement fait progresser l'édition d'images en encodant des images conditionnelles et en les intégrant dans les couches du transformateur. Cependant, la plupart des modifications concernent de petites régions, tandis que les méthodes actuelles traitent et débruîtent uniformément tous les tokens à chaque pas de temps, entraînant des calculs redondants et une dégradation potentielle des zones inchangées. Cela soulève une question fondamentale : est-il vraiment nécessaire de régénérer chaque région lors de l'édition ? Pour y répondre, nous proposons SpotEdit, un framework d'édition par diffusion sans apprentissage qui met à jour sélectivement uniquement les régions modifiées. SpotEdit comprend deux composants clés : SpotSelector identifie les régions stables via une similarité perceptuelle et ignore leur calcul en réutilisant les caractéristiques de l'image conditionnelle ; SpotFusion fusionne adaptativement ces caractéristiques avec les tokens édités grâce à un mécanisme de fusion dynamique, préservant la cohérence contextuelle et la qualité de l'édition. En réduisant les calculs inutiles et en maintenant une haute fidélité dans les zones non modifiées, SpotEdit permet une édition d'image efficace et précise.
L'encodeur de texte est un composant essentiel des modèles de diffusion texte-image et texte-vidéo, déterminant fondamentalement la fidélité sémantique du contenu généré. Cependant, son développement a été entravé par deux défis majeurs : l'absence d'un cadre d'évaluation efficace permettant de prédire de manière fiable les performances de génération en aval, et la difficulté d'adapter efficacement des modèles de langage pré-entraînés pour la synthèse visuelle. Pour résoudre ces problèmes, nous présentons GRAN-TED, un paradigme pour Générer des Représentations Textuelles Robuste, Alignées et Nuancées pour les modèles de Diffusion. Notre contribution est double. Premièrement, nous proposons TED-6K, un nouveau benchmark textuel uniquement qui permet une évaluation efficace et robuste de la qualité représentationnelle d'un encodeur sans nécessiter un coûteux entraînement de modèle de bout en bout. Nous démontrons que les performances sur TED-6K, standardisées via un adaptateur unifié léger, sont fortement corrélées à l'efficacité d'un encodeur dans les tâches de génération en aval. Notamment, dans notre configuration expérimentale, par rapport à l'entraînement d'un modèle de diffusion à partir de zéro, l'évaluation avec TED-6K est environ 750 fois plus rapide. Deuxièmement, guidés par ce cadre validé, nous développons un encodeur de texte supérieur en utilisant un nouveau paradigme d'entraînement en deux étapes. Ce processus implique une étape initiale de micro-ajustage sur un Grand Modèle de Langage Multimodal pour une meilleure représentation visuelle, suivie d'une méthode de pondération couche par couche pour extraire des caractéristiques textuelles plus nuancées et puissantes. Nos expériences montrent que l'encodeur GRAN-TED résultant non seulement obtient des performances de pointe sur TED-6K, mais conduit également à des gains de performance démontrables dans la génération texte-image et texte-vidéo. Notre jeu de données TED-6K et notre code d'évaluation sont disponibles à l'adresse suivante : https://anonymous.4open.science/r/GRAN-TED-4FCC/.
La spécification de tâches de manipulation robotique d'une manière à la fois expressive et précise reste un défi central. Bien que les objectifs visuels fournissent une spécification de tâche compacte et non ambiguë, les politiques conditionnées par objectif existantes peinent souvent avec la manipulation à long horizon en raison de leur dépendance à la prédiction d'actions en une seule étape sans modélisation explicite de la progression de la tâche. Nous proposons Act2Goal, une politique de manipulation générale conditionnée par objectif qui intègre un modèle visuel du monde conditionné par objectif avec un contrôle temporel multi-échelle. Étant donné une observation actuelle et un objectif visuel cible, le modèle du monde génère une séquence plausible d'états visuels intermédiaires qui capture la structure à long horizon. Pour traduire ce plan visuel en une exécution robuste, nous introduisons le Hachage Temporel Multi-Échelle (MSTH), qui décompose la trajectoire imaginée en images proximales denses pour un contrôle en boucle fermée à grain fin et en images distales éparses qui ancrent la cohérence globale de la tâche. La politique couple ces représentations avec le contrôle moteur par attention croisée de bout en bout, permettant un comportement cohérent à long horizon tout en restant réactive aux perturbations locales. Act2Goal atteint une forte généralisation zero-shot à de nouveaux objets, agencements spatiaux et environnements. Nous permettons en outre une adaptation en ligne sans récompense par re-étiquetage rétrospectif d'objectifs avec un affinage basé sur LoRA, permettant une amélioration autonome rapide sans supervision externe. Les expériences sur robot réel démontrent qu'Act2Goal améliore les taux de réussite de 30% à 90% sur des tâches hors distribution difficiles en quelques minutes d'interaction autonome, validant que les modèles du monde conditionnés par objectif avec contrôle temporel multi-échelle fournissent le guidage structuré nécessaire pour une manipulation robuste à long horizon. Page du projet : https://act2goal.github.io/
Les agents linguistiques nécessitent de plus en plus des mondes persistants dans lesquels ils peuvent agir, mémoriser et apprendre. Les approches existantes se situent à deux extrêmes : les frameworks web conventionnels fournissent des contextes fiables mais figés soutenus par des bases de données, tandis que les modèles de monde entièrement génératifs visent des environnements illimités au détriment de la contrôlabilité et de l'ingénierie pratique. Dans ce travail, nous présentons le Web World Model (WWM), un juste milieu où l'état du monde et la « physique » sont implémentés dans du code web ordinaire pour garantir la cohérence logique, tandis que les grands modèles linguistiques génèrent le contexte, les récits et les décisions de haut niveau sur la base de cet état latent structuré. Nous construisons une suite de WWM sur une stack web réaliste, comprenant un atlas de voyage infini ancré dans la géographie réelle, des explorateurs de galaxies fictives, des mondes encyclopédiques et narratifs à l'échelle du web, ainsi que des environnements de type simulation et jeu. À travers ces systèmes, nous identifions des principes de conception pratiques pour les WWM : séparer les règles définies par code de l'imagination pilotée par modèle, représenter l'état latent sous forme d'interfaces web typées, et utiliser la génération déterministe pour réaliser une exploration illimitée mais structurée. Nos résultats suggèrent que les stacks web elles-mêmes peuvent servir de substrat évolutif pour les modèles de monde, permettant des environnents contrôlables mais ouverts. Page du projet : https://github.com/Princeton-AI2-Lab/Web-World-Models.
Les modèles de langage par diffusion (dLLMs) émergent comme des alternatives prometteuses aux modèles auto-régressifs (AR). Si des travaux récents ont validé leur potentiel en pré-entraînement et accéléré leurs vitesses d'inférence, le paysage du post-entraînement pour les dLLMs reste sous-développé. Les méthodes existantes souffrent d'inefficacité computationnelle et de décalages d'objectifs entre l'entraînement et l'inférence, limitant gravement les performances sur des tâches de raisonnement complexes comme les mathématiques. Pour y remédier, nous présentons DiRL, un cadre de post-entraînement efficace qui intègre étroitement un entraînement par blocs accéléré par FlexAttention avec une inférence optimisée par LMDeploy. Cette architecture permet une boucle de mise à jour du modèle en ligne rationalisée, facilitant un post-entraînement efficace en deux étapes (Fine-Tuning Supervisé suivi d'un Apprentissage par Renforcement). Sur la base de ce cadre, nous proposons DiPO, la première implémentation non biaisée de l'Optimisation de Politique Relative par Groupe (GRPO) conçue pour les dLLMs. Nous validons notre approche en entraînant DiRL-8B-Instruct sur des données mathématiques de haute qualité. Notre modèle atteint des performances mathématiques de pointe parmi les dLLMs et surpasse des modèles comparables de la série Qwen2.5 sur plusieurs benchmarks.
Les co-scientifiques IA émergent comme un outil pour assister les chercheurs humains dans l'atteinte de leurs objectifs de recherche. Une caractéristique cruciale de ces co-scientifiques IA est la capacité de générer un plan de recherche à partir d'un ensemble d'objectifs et de contraintes. Ce plan peut être utilisé par les chercheurs pour le brainstorming, ou même être mis en œuvre après un raffinement supplémentaire. Cependant, les modèles de langage peinent actuellement à générer des plans de recherche qui respectent toutes les contraintes et exigences implicites. Dans ce travail, nous étudions comment exploiter le vaste corpus d'articles de recherche existants pour entraîner des modèles de langage qui génèrent de meilleurs plans de recherche. Nous construisons un corpus d'entraînement diversifié et évolutif en extrayant automatiquement les objectifs de recherche et des grilles d'évaluation spécifiques aux objectifs à partir d'articles couvrant plusieurs domaines. Nous entraînons ensuite des modèles pour la génération de plans de recherche via l'apprentissage par renforcement avec auto-évaluation. Une copie figée de la politique initiale agit comme évaluateur pendant l'entraînement, les grilles créant un écart générateur-vérificateur qui permet des améliorations sans supervision humaine externe. Pour valider cette approche, nous menons une étude avec des experts humains sur des objectifs de recherche en apprentissage automatique, totalisant 225 heures. Les experts préfèrent les plans générés par notre modèle Qwen3-30B-A3B affiné à ceux du modèle initial pour 70 % des objectifs de recherche, et approuvent 84 % des grilles d'évaluation spécifiques aux objectifs extraites automatiquement. Pour évaluer la généralité, nous étendons également notre approche à des objectifs de recherche issus d'articles médicaux et de nouvelles prépublications arXiv, en évaluant avec un jury de modèles frontaliers. Notre affinage produit des améliorations relatives de 12 à 22 % et une généralisation inter-domaines significative, s'avérant efficace même dans des contextes problématiques comme la recherche médicale où la rétroaction d'exécution est impossible. Ensemble, ces résultats démontrent le potentiel d'une méthode d'entraînement automatisée et évolutive comme une étape vers l'amélioration des co-scientifiques IA généraux.
L'évolution des agents autonomes redéfinit la recherche d'information, opérant une transition d'une récupération passive vers une recherche web proactive et ouverte. Cependant, si les agents textuels et multimodaux statiques ont connu des progrès rapides, un écart modal significatif persiste dans le traitement de la modalité la plus dynamique du web : la vidéo. Les benchmarks vidéo existants se concentrent principalement sur la perception passive, fournissant des clips présélectionnés aux modèles sans nécessiter de recherche externe. Ils n'évaluent pas la recherche vidéo agentique, qui nécessite d'interroger activement les chronologies vidéo, de recouper des preuves dispersées et de vérifier les affirmations par rapport au web ouvert. Pour combler cette lacune, nous présentons Video-BrowseComp, un benchmark exigeant comprenant 210 questions conçues pour le raisonnement vidéo agentique sur le web ouvert. Contrairement aux benchmarks antérieurs, Video-BrowseComp impose une dépendance obligatoire aux preuves visuelles temporelles, garantissant que les réponses ne peuvent pas être obtenues uniquement par une recherche texte mais nécessitent de naviguer dans les chronologies vidéo pour vérifier des affirmations externes. Notre évaluation des modèles de pointe révèle un goulot d'étranglement critique : même des modèles augmentés par la recherche avancés comme GPT-5.1 (avec recherche) n'atteignent qu'une précision de 15,24 %. Notre analyse montre que ces modèles s'appuient largement sur des proxys textuels, excellant dans les domaines riches en métadonnées (par exemple, les émissions de télévision avec des résumés d'intrigue) mais échouant dans les environnements dynamiques pauvres en métadonnées (par exemple, le sport, le gameplay) où l'ancrage visuel est essentiel. En tant que premier benchmark de recherche vidéo sur le web ouvert, Video-BrowseComp fait progresser le domaine au-delà de la perception passive vers un raisonnement vidéo proactif.
Dans la plupart des tâches de navigation incarnée existantes, les instructions sont bien définies et non ambiguës, comme le suivi d'instructions ou la recherche d'objets. Dans ce cadre idéalisé, les agents doivent uniquement produire des actions de navigation efficaces en fonction des entrées visuelles et linguistiques. Cependant, les instructions de navigation dans le monde réel sont souvent vagues et ambiguës, nécessitant que l'agent résolve les incertitudes et infère l'intention de l'utilisateur via un dialogue actif. Pour combler cette lacune, nous proposons la Navigation Interactive par Instance d'Objet (IION), une tâche qui exige des agents non seulement de générer des actions de navigation, mais aussi de produire des sorties linguistiques via un dialogue actif, se rapprochant ainsi davantage des situations pratiques. IION étend la Navigation par Instance d'Objet (ION) en permettant aux agents de consulter librement un oracle en langage naturel lors de la navigation. Sur la base de cette tâche, nous présentons le benchmark Vision-Langage pour la Navigation (VL-LN), qui fournit un jeu de données à grande échelle généré automatiquement et un protocole d'évaluation complet pour entraîner et évaluer les modèles de navigation avec capacités dialogiques. VL-LN comprend plus de 41 000 trajectoires augmentées par un dialogue à long horizon pour l'entraînement, ainsi qu'un protocole d'évaluation automatique avec un oracle capable de répondre aux requêtes de l'agent. En utilisant ce benchmark, nous entraînons un modèle de navigation doté de capacités dialogiques et montrons qu'il obtient des améliorations significatives par rapport aux lignes de base. Des expériences et analyses approfondies démontrent en outre l'efficacité et la fiabilité de VL-LN pour faire progresser la recherche sur la navigation incarnée avec dialogue. Code et jeu de données : https://0309hws.github.io/VL-LN.github.io/
Les grands modèles linguistiques omnimodaux ont réalisé des progrès significatifs dans l'unification des modalités audio et visuelles ; cependant, ils manquent souvent de compréhension fine intermodale et éprouvent des difficultés avec l'alignement multimodal. Pour résoudre ces limitations, nous présentons OmniAgent, un agent de perception active entièrement guidé par l'audio qui orchestre dynamiquement des outils spécialisés pour obtenir un raisonnement audio-visuel plus granulaire. Contrairement aux travaux antérieurs qui reposent sur des flux de travail rigides et statiques avec un étiquetage dense d'images, cet article démontre un changement de paradigme passant d'une génération de réponses passive à une investigation multimodale active. OmniAgent utilise une planification dynamique pour orchestrer de manière autonome l'invocation d'outils à la demande, en concentrant stratégiquement l'attention perceptive sur les indices pertinents pour la tâche. Au cœur de notre approche se trouve un nouveau paradigme de perception guidée par l'audio allant du grossier au fin, qui exploite les indices audio pour localiser les événements temporels et orienter le raisonnement ultérieur. Des évaluations empiriques approfondies sur trois benchmarks de compréhension audio-vidéo démontrent qu'OmniAgent atteint des performances à la pointe de l'état de l'art, surpassant les principaux modèles open-source et propriétaires par des marges substantielles de 10% à 20% en précision.
Les agents de recherche d'information (IS) ont démontré des performances solides sur une gamme étendue de tâches de recherche large et profonde. Cependant, leur utilisation d'outils reste largement limitée à la récupération d'extraits via des API et à l'obtention de pages via des URL, ce qui restreint l'accès aux informations plus riches disponibles via une navigation réelle. Bien que l'interaction complète avec un navigateur pourrait débloquer des capacités plus approfondies, son contrôle fin et les retours verbeux du contenu des pages introduisent une complexité substantielle pour les agents à appels de fonction de type ReAct. Pour combler cette lacune, nous proposons l'Apprentissage d'Utilisation de Navigateur Imbriqué (NestBrowse), qui introduit un cadre d'actions navigateur minimal et complet, découplant le contrôle de l'interaction de l'exploration des pages grâce à une structure imbriquée. Cette conception simplifie le raisonnement agent tout en permettant une acquisition efficace d'information du web profond. Les résultats empiriques sur des benchmarks exigeants de recherche approfondie démontrent que NestBrowse offre des avantages nets en pratique. Des analyses plus approfondies soulignent son efficacité et sa flexibilité.
Les méthodes existantes de détection d'objets en temps réel (RTOD) adoptent généralement des architectures de type YOLO pour leur compromis favorable entre précision et vitesse. Cependant, ces modèles reposent sur un calcul dense statique qui applique un traitement uniforme à toutes les entrées, ce qui entraîne une mauvaise allocation des capacités de représentation et des ressources computationnelles, comme une sur-allocation sur les scènes triviales et une sous-allocation sur les scènes complexes. Cette inadéquation se traduit à la fois par une redondance computationnelle et des performances de détection sous-optimales. Pour surmonter cette limite, nous proposons YOLO-Master, un nouveau cadre de type YOLO qui introduit un calcul adaptatif conditionnel aux instances pour la RTOD. Ceci est réalisé grâce à un bloc Efficient Sparse Mixture-of-Experts (ES-MoE) qui alloue dynamiquement les ressources computationnelles à chaque entrée en fonction de sa complexité scénique. Au cœur du système, un réseau de routage dynamique léger guide la spécialisation des experts pendant l'entraînement via un objectif d'amélioration de la diversité, encourageant une expertise complémentaire entre les experts. De plus, le réseau de routage apprend de manière adaptive à n'activer que les experts les plus pertinents, améliorant ainsi les performances de détection tout en minimisant la surcharge computationnelle lors de l'inférence. Des expériences complètes sur cinq benchmarks à grande échelle démontrent la supériorité de YOLO-Master. Sur MS COCO, notre modèle atteint 42,4% de AP avec une latence de 1,62 ms, surpassant YOLOv13-N de +0,8% mAP tout en étant 17,8% plus rapide en inférence. Notamment, les gains sont plus prononcés sur les scènes denses complexes, tandis que le modèle préserve son efficacité sur les entrées typiques et maintient une vitesse d'inférence en temps réel. Le code sera rendu public.
La rareté des données demeure un frein fondamental à la réalisation de robots chirurgicaux entièrement autonomes. Bien que les modèles vision-langage-action (VLA) à grande échelle aient démontré une impressionnante capacité de généralisation dans la manipulation domestique et industrielle en exploitant des données vidéo-action appariées provenant de domaines variés, la robotique chirurgicale souffre du manque de jeux de données incluant à la fois des observations visuelles et une cinématique robotique précise. En revanche, il existe de vastes corpus de vidéos chirurgicales, mais ceux-ci ne disposent pas d'étiquettes d'action correspondantes, empêchant une application directe de l'apprentissage par imitation ou de l'entraînement VLA. Dans ce travail, nous visons à atténuer ce problème en apprenant des modèles de politique à partir de SurgWorld, un modèle de monde conçu pour l'intelligence artificielle physique chirurgicale. Nous avons constitué le jeu de données SATA (Surgical Action Text Alignment) avec des descriptions d'action détaillées spécifiquement pour les robots chirurgicaux. Nous avons ensuite construit SurgeWorld sur la base du modèle de monde d'IA physique le plus avancé et de SATA. Il est capable de générer des vidéos chirurgicales diversifiées, généralisables et réalistes. Nous sommes également les premiers à utiliser un modèle de dynamique inverse pour inférer une pseudocinématique à partir de vidéos chirurgicales synthétiques, produisant ainsi des données vidéo-action appariées synthétiques. Nous démontrons qu'une politique VLA chirurgicale entraînée avec ces données augmentées surpasse significativement les modèles entraînés uniquement sur des démonstrations réelles sur une plateforme robotique chirurgicale réelle. Notre approche offre une voie évolutive vers l'acquisition autonome de compétences chirurgicales en exploitant l'abondance de vidéos chirurgicales non étiquetées et la modélisation générative de monde, ouvrant ainsi la porte à des politiques de robot chirurgical généralisables et efficaces en termes de données.
La prolifération des modèles de langage à grande échelle (LLM) a catalysé une transition vers des agents autonomes capables de raisonnement complexe et d'utilisation d'outils. Cependant, les architectures d'agents actuelles sont souvent construites selon des modèles impératifs et ad hoc. Il en résulte des systèmes fragiles, entravés par des difficultés de gestion d'état, de traitement des erreurs et de concurrence. Cet article présente l'Ingénierie de Contexte Monadique (MCE), un nouveau paradigme architectural qui exploite les structures algébriques des Foncteurs, des Foncteurs Applicatifs et des Monades pour fournir une base formelle à la conception d'agents. L'approche MCE traite les flux de travail des agents comme des contextes computationnels où les préoccupations transversales, telles que la propagation d'état, la gestion d'erreurs avec court-circuit et l'exécution asynchrone, sont gérées intrinsèquement par les propriétés algébriques de l'abstraction. Nous démontrons comment les Monades permettent une composition séquentielle robuste, comment les Foncteurs Applicatifs fournissent une structure principielle pour l'exécution parallèle, et, de manière cruciale, comment les Transformateurs de Monades permettent la composition systématique de ces capacités. Cette approche stratifiée permet aux développeurs de construire des agents IA complexes, résilients et efficaces à partir de composants simples et vérifiables indépendamment. Nous étendons en outre ce cadre pour décrire les Méta-Agents, qui exploitent MCE pour l'orchestration générative, créant et gérant dynamiquement des flux de travail de sous-agents via la métaprogrammation. Page du projet : https://github.com/yifanzhang-pro/monadic-context-engineering.
Les systèmes d'agents à base de modèles de langage (LM) alimentent des applications modernes comme "Deep Research" et "Claude Code", et exploitent des architectures multi-LM pour surmonter les limitations de contexte. Sous leur diversité apparente se cache un schéma récurrent : des LM "compresseurs" plus petits (pouvant même s'exécuter localement) distillent le contexte brut en un texte compact ensuite consommé par des LM "prédicteurs" plus grands. Malgré leur popularité, la conception des systèmes compresseur-prédicteur reste largement ad hoc, avec peu de directives sur la manière dont les choix du compresseur et du prédicteur influencent les performances en aval. En pratique, attribuer les gains à la compression plutôt qu'à la prédiction nécessite des balayages par paires coûteux et spécifiques à chaque tâche. Nous soutenons que ces questions de conception de systèmes agentiques sont fondamentalement informationnelles. En considérant le LM compresseur comme un canal bruité, nous introduisons un estimateur simple de l'information mutuelle entre le contexte et sa compression pour quantifier la qualité de la compression de manière indépendante de la tâche. Nous montrons que l'information mutuelle prédit fortement les performances en aval, indépendamment de toute tâche spécifique. Via un cadre informationnel, nous menons une analyse empirique exhaustive sur cinq jeux de données et trois familles de modèles. Les résultats révèlent que les compresseurs plus grands sont non seulement plus précis, mais aussi plus efficaces en tokens, transmettant plus de bits d'information par token. Un compresseur Qwen-2.5 7B, par exemple, est 1,6 fois plus précis, 4,6 fois plus concis et transmet 5,5 fois plus de bits d'information mutuelle par token que son homologue 1,5B. Sur l'ensemble des jeux de données, augmenter l'échelle des compresseurs est nettement plus efficace qu'augmenter celle des prédicteurs, permettant à des compresseurs locaux plus grands de s'associer à des prédicteurs cloud plus petits. Appliqués à un système Deep Research, ces principes permettent à des compresseurs locaux d'à peine 3B de paramètres de retrouver 99% de la précision des LM de pointe pour 26% des coûts d'API.
Les récentes avancées en vision par ordinateur ont étendu avec succès la segmentation à vocabulaire ouvert (OVS) au domaine 3D en exploitant la méthode de splatting par gaussiennes 3D (3D-GS). Malgré ces progrès, le rendu efficace des caractéristiques de haute dimension requises pour les requêtes à vocabulaire ouvert représente un défi majeur. Les méthodes existantes utilisent des codebooks ou une compression des caractéristiques, entraînant une perte d'information qui dégrade la qualité de la segmentation. Pour remédier à cette limitation, nous présentons le Quantile Rendering (Q-Render), une nouvelle stratégie de rendu pour les gaussiennes 3D qui traite efficacement les caractéristiques de haute dimension tout en maintenant une haute fidélité. Contrairement au rendu volumique conventionnel qui échantillonne densément toutes les gaussiennes 3D intersectant chaque rayon, Q-Render échantillonne de manière éparse uniquement celles ayant une influence dominante le long du rayon. En intégrant Q-Render dans un réseau neuronal 3D généralisable, nous proposons également le Gaussian Splatting Network (GS-Net), qui prédit les caractéristiques des gaussiennes de manière généralisable. Des expériences approfondies sur ScanNet et LeRF démontrent que notre framework surpasse les méthodes state-of-the-art, tout en permettant un rendu en temps réel avec une accélération d'environ ~43,7x sur des cartes de caractéristiques de 512 dimensions. Le code sera rendu public.
Le principal obstacle à l'application de l'apprentissage par renforcement (RL) à la robotique en conditions réelles est la conception de fonctions de récompense efficaces. Bien que les modèles de récompense basés sur l'apprentissage (PRM) constituent récemment une direction prometteuse, ils sont souvent entravés par deux limitations fondamentales : leurs modèles de récompense manquent d'une compréhension pas-à-pas et reposent sur une perception monoculaire, conduisant à des évaluations peu fiables des progrès dans les manipulations fines ; et leurs procédures de façonnage de la récompense sont théoriquement infondées, induisant souvent un piège sémantique qui égare l'optimisation de la politique. Pour y remédier, nous présentons Dopamine-Reward, une nouvelle méthode de modélisation de la récompense pour apprendre un modèle de récompense de processus généraliste et conscient des étapes à partir de données multi-vues. Son cœur est notre Modèle de Récompense Général (GRM), entraîné sur un vaste jeu de données de plus de 3 400 heures, qui exploite la Discrétisation Pas-à-pas des Récompenses pour une compréhension structurelle et la Fusion de Récompenses Multi-Perspectives pour surmonter les limitations perceptives. Sur la base de Dopamine-Reward, nous proposons Dopamine-RL, un cadre robuste d'apprentissage de politiques qui utilise une méthode de Façonnage de Récompense Invariante à la Politique, théoriquement solide. Cette méthode permet à l'agent d'utiliser des récompenses denses pour une auto-amélioration efficace sans altérer la politique optimale, évitant ainsi fondamentalement le piège sémantique. Des expériences approfondies sur diverses tâches simulées et réelles valident notre approche. Le GRM atteint une précision de pointe dans l'évaluation des récompenses, et Dopamine-RL, construit sur le GRM, améliore significativement l'efficacité de l'apprentissage des politiques. Par exemple, après que le GRM a été adapté à une nouvelle tâche en one-shot à partir d'une seule trajectoire experte, le modèle de récompense résultant permet à Dopamine-RL d'améliorer la politique d'un succès proche de zéro à 95 % avec seulement 150 déploiements en ligne (environ 1 heure d'interaction réelle avec le robot), tout en conservant une forte généralisation entre les tâches. Site web du projet : https://robo-dopamine.github.io
L'évolution rapide des modèles génératifs a entraîné l'émergence continue de risques de sécurité multimodaux, exposant les limites des méthodes de défense existantes. Pour relever ces défis, nous proposons ProGuard, un garde-proactif vision-langage qui identifie et décrit les risques de sécurité hors distribution (OOD) sans nécessiter les ajustements de modèle requis par les approches réactives traditionnelles. Nous construisons d'abord un jeu de données équilibré de 87 000 échantillons, chacun annoté avec des étiquettes de sécurité binaires et des catégories de risque selon une taxonomie de sécurité multimodale hiérarchique, atténuant efficacement le biais de modalité et garantissant une modération cohérente pour les entrées texte, image et texte-image. Sur la base de ce jeu de données, nous entraînons notre modèle de base vision-langage uniquement par apprentissage par renforcement (RL) pour obtenir un raisonnement efficace et concis. Pour approximer les scénarios de sécurité proactive dans un cadre contrôlé, nous introduisons en outre une tâche d'inférence de catégorie de sécurité OOD et enrichissons l'objectif RL par une récompense de similarité basée sur une banque de synonymes qui encourage le modèle à générer des descriptions concises pour des catégories non sécurisées non vues. Les résultats expérimentaux montrent que ProGuard atteint des performances comparables aux grands modèles propriétaires pour la classification binaire de sécurité, et surpasse substantiellement les modèles gardes open-source existants pour la catégorisation du contenu non sécurisé. Plus notablement, ProGuard démontre une forte capacité de modération proactive, améliorant la détection des risques OOD de 52,6 % et la description des risques OOD de 64,8 %.
Les systèmes existants de création vidéo pilotés par l'IA traitent généralement la rédaction de scénarios et la conception des plans-clés comme deux tâches disjointes : la première repose sur les grands modèles de langage, tandis que la seconde dépend des modèles de génération d'images. Nous soutenons que ces deux tâches devraient être unifiées dans un cadre unique, car le raisonnement logique et la pensée imaginative sont toutes deux des qualités fondamentales d'un réalisateur de film. Dans ce travail, nous proposons UniMAGE, un modèle de réalisateur unifié qui fait le lien entre les instructions utilisateur et des scénarios bien structurés, permettant ainsi aux non-experts de produire des films à contexte long et multi-plans en tirant parti des modèles existants de génération audio-vidéo. Pour y parvenir, nous utilisons l'architecture Mixture-of-Transformers qui unifie la génération de texte et d'image. Pour renforcer davantage la logique narrative et la cohérence des images-clés, nous introduisons un paradigme d'apprentissage « d'abord entrelacé, puis désentrelacé ». Plus précisément, nous effectuons d'abord un Apprentissage de Concepts Entrelacés, qui utilise des données texte-image entrelacées pour favoriser une compréhension plus profonde et une interprétation imaginative des scénarios par le modèle. Nous conduisons ensuite un Apprentissage Expert Désentrelacé, qui découple l'écriture du scénario de la génération des images-clés, permettant une plus grande flexibilité et créativité dans la narration. Des expériences approfondies démontrent qu'UniMAGE obtient des performances de pointe parmi les modèles open-source, générant des scripts vidéo logiquement cohérents et des images-clés visuellement consistantes.
L'animation de portraits en temps réel est essentielle pour les applications interactives telles que les assistants virtuels et les avatars en direct, nécessitant une haute fidélité visuelle, une cohérence temporelle, une latence ultra-faible et un contrôle réactif à partir d'entrées dynamiques comme les images de référence et les signaux pilotes. Si les modèles basés sur la diffusion atteignent une qualité élevée, leur nature non causale entrave leur déploiement en flux continu. Les approches causales de génération de vidéos autorégressives permettent une génération efficace image par image mais souffrent d'une accumulation d'erreurs, de discontinuités de mouvement aux limites des segments et d'une dégradation de la cohérence à long terme. Dans ce travail, nous présentons une nouvelle architecture de streaming nommée Knot Forcing pour l'animation de portraits en temps réel, qui relève ces défis grâce à trois conceptions clés : (1) une stratégie de génération par segments avec préservation globale de l'identité via la mise en cache des états KV de l'image de référence et une modélisation temporelle locale utilisant une attention par fenêtre glissante ; (2) un module de nœud temporel qui chevauche les segments adjacents et propage des indices spatio-temporels via un conditionnement image-à-vidéo pour lisser les transitions de mouvement entre les segments ; et (3) un mécanisme de « devancement » qui met à jour dynamiquement la coordonnée temporelle de l'image de référence pendant l'inférence, maintenant son contexte sémantique en avance sur l'image courante du déroulement pour assurer une cohérence à long terme. Knot Forcing permet une animation de portraits de haute fidélité, temporellement cohérente et interactive sur des séquences infinies, atteignant des performances en temps réel avec une grande stabilité visuelle sur des GPU grand public.
L'évaluation des performances de diverses architectures de modèles, telles que les transformers, les grands modèles de langage (LLM) et autres systèmes de TAL, nécessite des benchmarks complets qui mesurent les performances selon de multiples dimensions. Parmi celles-ci, l'évaluation de la compréhension du langage naturel (NLU) est particulièrement cruciale car elle sert de critère fondamental pour évaluer les capacités des modèles. Il est donc essentiel d'établir des benchmarks permettant une évaluation et une analyse approfondies des capacités de NLU sous divers angles. Si le benchmark GLUE a établi une norme pour l'évaluation de la NLU anglaise, des benchmarks similaires ont été développés pour d'autres langues, tels que CLUE pour le chinois, FLUE pour le français et JGLUE pour le japonais. Cependant, aucun benchmark comparable n'existe actuellement pour la langue turque. Pour combler cette lacune, nous présentons TrGLUE, un benchmark complet englobant une variété de tâches de NLU pour le turc. De plus, nous présentons SentiTurca, un benchmark spécialisé dans l'analyse des sentiments. Pour soutenir les chercheurs, nous fournissons également un code de fine-tuning et d'évaluation pour les modèles basés sur les transformers, facilitant ainsi l'utilisation efficace de ces benchmarks. TrGLUE comprend des corpus natifs turcs conçus pour refléter les domaines et les formulations de tâches des évaluations de type GLUE, avec des étiquettes obtenues via un pipeline semi-automatisé combinant une annotation robuste basée sur les LLM, des vérifications de concordance inter-modèles et une validation humaine ultérieure. Cette conception privilégie le naturel linguistique, minimise les artéfacts de traduction directe et produit un workflow reproductible et évolutif. Avec TrGLUE, notre objectif est d'établir un cadre d'évaluation robuste pour la NLU turque, de doter les chercheurs de ressources précieuses et de fournir des insights sur la génération d'ensembles de données semi-automatisés de haute qualité.
Rendre l'apprentissage et l'inférence des modèles de recommandation par apprentissage profond (DLRM) rapides et efficaces est crucial. Cependant, cela pose trois défis systémiques majeurs : la diversité des architectures de modèles, la diversité des primitives de noyaux, et l'hétérogénéité des générations de matériel et des architectures. Cet article présente KernelEvolve, un framework agentiel de codage de noyaux, pour relever le défi de l'hétérogénéité à grande échelle pour les DLRM. KernelEvolve est conçu pour prendre des spécifications de noyaux en entrée et automatiser le processus de génération et d'optimisation de noyaux pour les modèles de recommandation sur des architectures matérielles hétérogènes. Pour ce faire, KernelEvolve opère à plusieurs niveaux d'abstraction de programmation, des DSL Triton et CuTe aux langages de bas niveau indépendants du matériel, couvrant ainsi toute la pile d'optimisation matérielle-logicielle. Le processus d'optimisation des noyaux est décrit comme une recherche basée sur des graphes avec une politique de sélection, un opérateur universel, une fonction d'aptitude et une règle de terminaison, s'adaptant dynamiquement au contexte d'exécution grâce à une synthèse d'invites augmentée par retrieval. Nous avons conçu, implémenté et déployé KernelEvolve pour optimiser une grande variété de modèles de recommandation en production sur plusieurs générations de GPU NVIDIA et AMD, ainsi que sur les accélérateurs IA de Meta. Nous validons KernelEvolve sur la suite KernelBench, accessible publiquement, en atteignant un taux de réussite de 100% sur les 250 problèmes de trois niveaux de difficulté, et sur 160 opérateurs ATen de PyTorch sur trois plates-formes matérielles hétérogènes, démontrant une exactitude de 100%. KernelEvolve réduit le temps de développement de plusieurs semaines à quelques heures et permet des améliorations substantielles des performances par rapport aux lignes de base PyTorch dans divers cas d'usage en production et pour des systèmes IA hétérogènes à grande échelle. Au-delà des gains d'efficacité des performances, KernelEvolve atténue significativement la barrière de la programmabilité pour les nouveaux matériels IA en permettant la génération automatisée de noyaux pour les matériels IA développés en interne.
Nous présentons le Self-Evaluating Model (Self-E), une nouvelle approche d'entraînement *from-scratch* pour la génération d'images à partir de texte qui prend en charge l'inférence en un nombre quelconque d'étapes. Self-E apprend à partir des données de manière similaire à un modèle de Flow Matching, tout en utilisant simultanément un nouveau mécanisme d'auto-évaluation : il évalue ses propres échantillons générés en utilisant ses estimations de score actuelles, servant ainsi efficacement de professeur dynamique pour lui-même. Contrairement aux modèles de diffusion ou de flux traditionnels, il ne repose pas uniquement sur une supervision locale, qui nécessite typiquement de nombreuses étapes d'inférence. Contrairement aux approches basées sur la distillation, il ne nécessite pas de modèle enseignant préentraîné. Cette combinaison d'un apprentissage local instantané et d'un appariement global auto-piloté comble le fossé entre les deux paradigmes, permettant l'entraînement d'un modèle de génération texte-image de haute qualité à partir de zéro qui excelle même avec un très faible nombre d'étapes. Des expériences approfondies sur des benchmarks de génération texte-image à grande échelle montrent que Self-E excelle non seulement en génération en peu d'étapes, mais est également compétitif avec les modèles de Flow Matching de pointe à 50 étapes. Nous constatons en outre que ses performances s'améliorent de manière monotone à mesure que le nombre d'étapes d'inférence augmente, permettant à la fois une génération ultra-rapide en peu d'étapes et un échantillonnage de haute qualité sur de longues trajectoires au sein d'un seul modèle unifié. À notre connaissance, Self-E est le premier modèle texte-image *from-scratch* et à nombre d'étapes variable, offrant un cadre unifié pour une génération efficace et évolutive.
Nous présentons la découverte surprenante que les capacités de raisonnement d'un modèle linguistique peuvent être améliorées en l'entraînant sur des ensembles de données synthétiques de traces de raisonnement en chaîne (chain-of-thought, CoT) provenant de modèles plus performants, même lorsque toutes ces traces conduisent à une réponse finale incorrecte. Nos expériences montrent que cette approche peut donner de meilleures performances sur des tâches de raisonnement qu'un entraînement sur des ensembles de données annotées par des humains. Nous émettons l'hypothèse que deux facteurs clés expliquent ce phénomène : premièrement, la distribution des données synthétiques est intrinsèquement plus proche de la distribution propre du modèle linguistique, ce qui les rend plus faciles à apprendre. Deuxièmement, ces traces « incorrectes » ne sont souvent que partiellement erronées et contiennent des étapes de raisonnement valides dont le modèle peut s'inspirer. Pour tester davantage la première hypothèse, nous utilisons un modèle linguistique pour paraphraser des traces annotées par des humains – en rapprochant leur distribution de celle du modèle – et nous montrons que cela améliore les performances. Pour la seconde hypothèse, nous introduisons des traces CoT de plus en plus imparfaites et nous étudions dans quelle mesure les modèles tolèrent ces défauts. Nous démontrons nos résultats dans divers domaines du raisonnement tels que les mathématiques, le raisonnement algorithmique et la génération de code en utilisant les ensembles de données MATH, GSM8K, Countdown et MBPP sur différents modèles linguistiques, allant de 1,5B à 9B paramètres, incluant les modèles Qwen, Llama et Gemma. Notre étude montre que la curation d'ensembles de données plus proches de la distribution du modèle est un aspect crucial à prendre en compte. Nous montrons également qu'une réponse finale correcte n'est pas toujours un indicateur fiable d'un processus de raisonnement fidèle.
Les modèles de diffusion récents de génération d'images à partir de texte ont démontré une capacité remarquable à produire des images faciales réalistes conditionnées par des invites textuelles et des identités humaines, permettant la création d'imagerie faciale personnalisée. Cependant, les méthodes existantes basées sur des invites pour supprimer ou modifier les caractéristiques spécifiques à une identité reposent soit sur une bonne représentation du sujet dans le modèle pré-entraîné, soit nécessitent un ajustement du modèle pour des identités spécifiques. Dans ce travail, nous analysons le processus de génération d'identité et introduisons un cadre de personnalisation inverse pour l'anonymisation des visages. Notre approche exploite l'inversion de diffusion conditionnelle, permettant une manipulation directe des images sans utiliser d'invites textuelles. Pour généraliser au-delà des sujets présents dans les données d'entraînement du modèle, nous intégrons une branche de conditionnement guidée par l'identité. Contrairement aux méthodes d'anonymisation antérieures, qui manquent de contrôle sur les attributs faciaux, notre cadre prend en charge une anonymisation contrôlable par attributs. Nous démontrons que notre méthode atteint un équilibre de pointe entre la suppression de l'identité, la préservation des attributs et la qualité de l'image. Le code source et les données sont disponibles à l'adresse https://github.com/hanweikung/reverse-personalization.