papers.description
Les récentes avancées des modèles de langage multimodaux ouvrent des perspectives inédites pour l'automatisation des interfaces graphiques. Cependant, un défi fondamental persiste : comment acquérir efficacement des données d'entraînement de haute qualité tout en garantissant la fiabilité des annotations ? Nous présentons un pipeline d'entraînement auto-évolutif propulsé par le Système de Récompense Étalonné par Étapes, qui transforme les trajectoires générées par le modèle en signaux d'entraînement fiables grâce à un étalonnage au niveau trajectoire, atteignant une précision d'annotation >90 % pour un coût 10 à 100 fois inférieur. En capitalisant sur ce pipeline, nous présentons Step-GUI, une famille de modèles (4B/8B) qui obtient des performances de pointe sur les interfaces graphiques (8B : 80,2 % AndroidWorld, 48,5 % OSWorld, 62,6 % ScreenShot-Pro) tout en conservant des capacités générales robustes. Alors que les capacités des agents d'interface graphique s'améliorent, leur déploiement pratique exige des interfaces standardisées sur des appareils hétérogènes tout en protégeant la vie privée des utilisateurs. À cette fin, nous proposons GUI-MCP, le premier Protocole de Contexte de Modèle dédié à l'automatisation des interfaces graphiques, doté d'une architecture hiérarchique combinant des opérations atomiques de bas niveau et une délégation de tâches de haut niveau à des modèles spécialisés locaux, permettant une exécution à haute confidentialité où les données sensibles restent sur l'appareil. Enfin, pour évaluer si les agents peuvent gérer des usages quotidiens authentiques, nous introduisons AndroidDaily, un benchmark ancré dans des schémas d'utilisation mobiles réels comprenant 3146 actions statiques et 235 tâches de bout en bout couvrant des scénarios quotidiens à haute fréquence (8B : statique 89,91 %, bout en bout 52,50 %). Notre travail fait progresser le développement d'agents d'interface graphique pratiques et démontre un fort potentiel de déploiement réel dans les interactions numériques quotidiennes.
L'efficacité, en tant que défi pratique crucial pour les systèmes agentiels et de raisonnement pilotés par les LLM, est de plus en plus contrainte par la latence inhérente au décodage autorégressif (AR). Le décodage spéculatif atténue ce coût grâce à un schéma de brouillon-vérification, mais les approches existantes reposent sur des modèles de brouillon AR (ou « drafters »), qui introduisent deux problèmes fondamentaux : (1) l'accumulation pas à pas de l'incertitude conduit à un effondrement progressif de la confiance entre le modèle cible et le drafter, et (2) le décodage séquentiel inhérent des drafters AR. Ensemble, ces facteurs entraînent des accélérations limitées. Dans cet article, nous montrons qu'un drafter basé sur un modèle de langage de grande taille à diffusion (dLLM) peut naturellement surmonter ces problèmes grâce à sa modélisation probabiliste fondamentalement différente et à sa stratégie de décodage parallèle efficace. En nous appuyant sur cette idée, nous présentons DEER, un cadre de décodage spéculatif efficace qui élabore des brouillons par diffusion et les vérifie avec des modèles AR. Pour permettre une génération de brouillons de haute qualité, DEER utilise un pipeline d'entraînement en deux étapes pour aligner les drafters basés sur dLLM avec le modèle AR cible, et adopte en outre un décodage en une seule étape pour générer de longs segments de brouillon. Les expériences montrent que DEER atteint des longueurs d'acceptation de brouillon allant jusqu'à 32 jetons, dépassant largement les 10 jetons atteints par EAGLE-3. De plus, sur HumanEval avec Qwen3-30B-A3B, DEER atteint une accélération de 5,54x, tandis qu'EAGLE-3 n'atteint que 2,41x. Le code, les modèles, les démos, etc., seront disponibles à l'adresse https://czc726.github.io/DEER/
La génération multi-jetons est apparue comme un paradigme prometteur pour accélérer l'inférence des grands modèles basés sur les transformers. Les travaux récents explorent principalement les modèles de langage de grande taille à diffusion (dLLM) pour le décodage parallèle afin de réduire la latence d'inférence. Pour atteindre une qualité de génération équivalente aux modèles autorégressifs (AR), de nombreuses techniques adaptent les modèles AR en dLLM pour permettre le décodage parallèle. Cependant, ils souffrent d'une accélération limitée par rapport aux modèles AR en raison d'une inadéquation entre le pré-entraînement et le post-entraînement. Concrètement, la distribution de données masquées lors du post-entraînement s'écarte significativement de la distribution de données réelles observée pendant le pré-entraînement, et les dLLM s'appuient sur une attention bidirectionnelle, ce qui entre en conflit avec l'a priori causal appris lors du pré-entraînement et entrave l'intégration de la réutilisation exacte du cache KV. Pour résoudre ce problème, nous introduisons Jacobi Forcing, un paradigme de distillation progressive où les modèles sont entraînés sur leurs propres trajectoires de décodage parallèle générées, transformant progressivement les modèles AR en décodeurs parallèles efficaces tout en préservant leur propriété d'inférence causale pré-entraînée. Les modèles entraînés selon ce paradigme, Jacobi Forcing Model, atteignent une accélération en temps réel de 3,8x sur des benchmarks de codage et de mathématiques avec une perte de performance minimale. Sur la base des caractéristiques de trajectoire des modèles Jacobi Forcing, nous introduisons le décodage multi-bloc avec recyclage par rejet, qui permet jusqu'à 4,5x plus de jetons acceptés par itération et une accélération en temps réel de près de 4,0x, échangeant efficacement un calcul supplémentaire contre une latence d'inférence réduite. Notre code est disponible à l'adresse https://github.com/hao-ai-lab/JacobiForcing.
Les modèles multimodaux de grande taille actuels possèdent d'excellentes capacités perceptives et de raisonnement, mais leurs exigences élevées en calcul et en mémoire rendent leur déploiement direct sur des environnements embarqués difficile. Bien que les modèles à petit nombre de paramètres acquièrent progressivement de solides capacités générales, les encodeurs Vision Transformer (ViT) standard restent un goulot d'étranglement critique, souffrant d'une latence excessive et d'une consommation mémoire élevée lors du traitement d'entrées haute résolution. Pour relever ces défis, nous présentons HyperVL, un modèle multimodal de grande langue efficace spécialement conçu pour l'inférence embarquée. HyperVL adopte une stratégie de découpage d'image pour plafonner l'utilisation mémoire maximale et intègre deux techniques novatrices : (1) un Compresseur de Résolution Visuelle (VRC) qui prédit adaptativement les résolutions d'encodage optimales pour éliminer les calculs redondants, et (2) l'Apprentissage de Double Cohérence (DCL), qui aligne les encodeurs ViT multi-échelles dans un cadre unifié, permettant une commutation dynamique entre les branches visuelles sous un même LLM partagé. Des expériences approfondies démontrent qu'HyperVL atteint des performances à la pointe parmi les modèles de taille comparable sur plusieurs benchmarks. De plus, il réduit significativement la latence et la consommation énergétique sur des appareils mobiles réels, démontrant son utilité pratique pour l'inférence multimodale embarquée.
Les approches récentes d'apprentissage par renforcement (RL) comme le GRPO supervisé par les résultats ont fait progresser le raisonnement par enchaînement de pensées dans les modèles de vision et de langage (VLM), mais des problèmes clés persistent : (i) la dépendance à des annotations manuelles coûteuses et bruitées ou à des vérificateurs externes ; (ii) les schémas de récompense plats et clairsemés dans le GRPO ; et (iii) l'incohérence logique entre le raisonnement d'une chaîne et sa réponse finale. Nous présentons Puzzle Curriculum GRPO (PC-GRPO), une méthode sans supervision pour le RL avec Récompenses Vérifiables (RLVR) qui renforce le raisonnement visuel dans les VLM sans annotations ni vérificateurs externes. PC-GRPO remplace les étiquettes par trois environnements d'énigmes auto-supervisés : PatchFit, Rotation (avec récompenses binaires) et Jigsaw (avec un crédit partiel gradué atténuant la parcimonie des récompenses). Pour contrer les récompenses plates et la disparition des avantages relatifs au groupe, nous introduisons un curriculum adaptatif à la difficulté qui pondère dynamiquement les échantillons et culmine à une difficulté moyenne. Nous surveillons en outre la Cohérence Raisonnement-Réponse (RAC) pendant le post-entraînement : conformément aux rapports sur le GRPO standard dans les LLM, la RAC augmente généralement tôt puis se dégrade ; notre curriculum retarde ce déclin, et les schémas de récompense renforçant la cohérence améliorent encore la RAC. La RAC est corrélée avec la précision en aval. Sur divers benchmarks et avec des architectures Qwen-7B et Qwen-3B, PC-GRPO améliore la qualité du raisonnement, la stabilité de l'entraînement et la précision sur la tâche finale, offrant une voie pratique vers un post-entraînement par RL scalable, vérifiable et interprétable pour les VLM.
Les transformateurs universels (UT) sont largement utilisés pour des tâches de raisonnement complexe comme ARC-AGI et le Sudoku, mais les sources spécifiques de leurs gains de performance restent peu explorées. Dans ce travail, nous analysons systématiquement les variantes d'UT et montrons que les améliorations sur ARC-AGI proviennent principalement du biais inductif récurrent et des fortes composantes non linéaires du Transformer, plutôt que de conceptions architecturales élaborées. Motivés par cette observation, nous proposons le Modèle de Raisonnement Universel (URM), qui améliore l'UT en y intégrant des convolutions courtes et une rétropropagation tronquée. Notre approche améliore considérablement les performances en raisonnement, atteignant un état de l'art de 53,8% pass@1 sur ARC-AGI 1 et 16,0% pass@1 sur ARC-AGI 2. Notre code est disponible à l'adresse https://github.com/zitian-gao/URM.
Les modèles génératifs visuels récents éprouvent souvent des difficultés à maintenir la cohérence lors de l'édition d'images en raison de la nature entrelacée des images matricielles, où tout le contenu visuel est fusionné en une seule toile. En revanche, les outils de conception professionnels utilisent des représentations en calques, permettant des modifications isolées tout en préservant la cohérence. Motivés par cela, nous proposons Qwen-Image-Layered, un modèle de diffusion de bout en bout qui décompose une image RVB unique en plusieurs calques RVBA sémantiquement désentrelacés, permettant une éditation inhérente, où chaque calque RVBA peut être manipulé indépendamment sans affecter les autres contenus. Pour prendre en charge la décomposition à longueur variable, nous introduisons trois composants clés : (1) un RVBA-VAE pour unifier les représentations latentes des images RVB et RVBA ; (2) une architecture VLD-MMDiT (Variable Layers Decomposition MMDiT) capable de décomposer un nombre variable de calques d'image ; et (3) une stratégie d'Entraînement Multi-étapes pour adapter un modèle préentraîné de génération d'image en un décomposeur d'images multicouches. De plus, pour pallier la rareté des images multicouches de haute qualité pour l'entraînement, nous avons construit un pipeline pour extraire et annoter des images multicouches à partir de documents Photoshop (PSD). Les expériences démontrent que notre méthode surpasse significativement les approches existantes en qualité de décomposition et établit un nouveau paradigme pour l'édition d'images cohérente. Notre code et nos modèles sont publiés sur https://github.com/QwenLM/Qwen-Image-Layered.
Nous proposons IC-Effect, un cadre basé sur DiT et guidé par des instructions pour l'édition vidéo d'effets visuels (VFX) en few-shot, qui synthétise des effets complexes (par exemple, des flammes, des particules et des personnages de dessin animé) tout en préservant strictement la cohérence spatiale et temporelle. L'édition vidéo VFX est très difficile car les effets injectés doivent s'intégrer parfaitement à l'arrière-plan, ce dernier doit rester entièrement inchangé, et les motifs des effets doivent être appris efficacement à partir de données appariées limitées. Cependant, les modèles d'édition vidéo existants ne satisfont pas à ces exigences. IC-Effect exploite la vidéo source comme condition contextuelle propre, en utilisant la capacité d'apprentissage contextuel des modèles DiT pour réaliser une préservation précise de l'arrière-plan et une injection naturelle des effets. Une stratégie d'entraînement en deux étapes, consistant en une adaptation générale à l'édition suivie d'un apprentissage spécifique aux effets via Effect-LoRA, garantit un suivi rigoureux des instructions et une modélisation robuste des effets. Pour améliorer encore l'efficacité, nous introduisons une tokenisation parcimonieuse spatio-temporelle, permettant une haute fidélité avec une réduction substantielle des calculs. Nous publions également un jeu de données apparié pour l'édition VFX couvrant 15 styles visuels de haute qualité. Des expériences approfondies montrent qu'IC-Effect offre une édition VFX de haute qualité, contrôlable et temporellement cohérente, ouvrant de nouvelles possibilités pour la création vidéo.
La compréhension spatiale à partir d'entrées visuelles continues est cruciale pour que les MLLM évoluent vers des assistants polyvalents dans les environnements physiques. Pourtant, il n'existe toujours pas de benchmark complet évaluant de manière holistique les progrès vers cet objectif. Dans ce travail, nous présentons MMSI-Video-Bench, un benchmark entièrement annoté manuellement pour l'intelligence spatiale basée sur la vidéo dans les MLLM. Il opérationnalise un cadre à quatre niveaux – Perception, Planification, Prédiction et Raisonnement Inter-Vidéos – au travers de 1 106 questions ancrées dans 1 278 clips issus de 25 jeux de données et de vidéos internes. Chaque élément est soigneusement conçu et relu par des experts en vision 3D, avec des justifications explicatives, pour garantir un ancrage précis et non ambigu. Tirant parti de la diversité de ses sources de données et de sa couverture holistique des tâches, MMSI-Video-Bench prend également en charge trois sous-benchmarks orientés domaine (Benchmark de Perception de Scènes Intérieures, Benchmark Robotique et Benchmark d'Ancrage) pour une évaluation ciblée des capacités. Nous évaluons 25 MLLM open-source et propriétaires performants, révélant un écart frappant entre l'homme et l'IA : de nombreux modèles obtiennent des résultats proches du hasard, et le meilleur modèle de raisonnement accuse un retard de près de 60 % par rapport aux humains. Nous constatons en outre que les modèles affinés spatialement échouent encore à généraliser efficacement sur notre benchmark. Une analyse fine des erreurs révèle des échecs systématiques dans le raisonnement géométrique, l'ancrage du mouvement, la prédiction à long terme et la correspondance inter-vidéos. Nous montrons également que les stratégies d'échantillonnage d'images typiques se transfèrent mal à notre benchmark intensif en raisonnement, et que ni les indices spatiaux 3D ni l'incitation par raisonnement en chaîne ne procurent d'améliorations significatives. Nous espérons que notre benchmark établira un banc d'essai solide pour faire progresser l'intelligence spatiale basée sur la vidéo.
L'utilisation abusive des technologies de génération vidéo pilotées par l'IA a soulevé de sérieuses préoccupations sociétales, soulignant le besoin urgent de détecteurs fiables de vidéos générées par l'IA. Cependant, la plupart des méthodes existantes se limitent à une classification binaire et manquent des explications nécessaires à l'interprétation humaine. Dans cet article, nous présentons Skyra, un modèle de langage multimodal (MLLM) spécialisé qui identifie les artefacts visuels perceptibles par l'homme dans les vidéos générées par l'IA et les utilise comme preuves tangibles pour la détection et l'explication. Pour soutenir cet objectif, nous avons constitué ViF-CoT-4K pour le réglage fin supervisé (SFT), qui représente la première base de données à grande échelle d'artefacts de vidéos générées par l'IA avec des annotations humaines granulaires. Nous avons ensuite développé une stratégie d'entraînement en deux étapes qui améliore systématiquement la perception spatio-temporelle des artefacts, la capacité d'explication et la précision de détection de notre modèle. Pour évaluer Skyra de manière exhaustive, nous introduisons ViF-Bench, un benchmark comprenant 3 000 échantillons de haute qualité générés par plus de dix générateurs vidéo de pointe. Des expériences approfondies démontrent que Skyra surpasse les méthodes existantes sur plusieurs benchmarks, tandis que notre évaluation fournit des insights précieux pour faire progresser la détection explicable des vidéos générées par l'IA.
Les modèles génératifs peuvent synthétiser des contenus très réalistes, appelés deepfakes, qui sont déjà utilisés abusivement à grande échelle pour compromettre l'authenticité des médias numériques. Les méthodes actuelles de détection des deepfakes sont peu fiables pour deux raisons : (i) distinguer a posteriori un contenu non authentique est souvent impossible (par exemple, avec des échantillons mémorisés), ce qui conduit à un taux de faux positifs (TFP) non borné ; et (ii) la détection manque de robustesse, car des adversaires peuvent s'adapter aux détecteurs connus avec une précision quasi parfaite en utilisant des ressources computationnelles minimales. Pour résoudre ces limitations, nous proposons un cadre de resynthèse permettant de déterminer si un échantillon est authentique ou si son authenticité peut être plausiblement niée. Nous apportons deux contributions principales en nous concentrant sur un régime à haute précision et faible rappel contre des adversaires efficaces (c'est-à-dire à capacité de calcul limitée). Premièrement, nous démontrons que notre méthode de resynthèse calibrée est l'approche la plus fiable pour vérifier les échantillons authentiques tout en maintenant des TFP faibles et contrôlables. Deuxièmement, nous montrons que notre méthode atteint une robustesse adversarial contre des adversaires efficaces, alors que les méthodes antérieures sont facilement contournées sous des budgets de calcul identiques. Notre approche prend en charge plusieurs modalités et s'appuie sur des techniques d'inversion de pointe.
En tant qu'êtres humains, nous raisonnons naturellement sur des horizons temporels variables, c'est-à-dire que nous pouvons décider de parcourir itérativement de longues vidéos ou de regarder des vidéos courtes en entier lorsque cela est nécessaire pour une tâche donnée. Dans cette optique, on s'attendrait à ce que les modèles de raisonnement vidéo raisonnent de manière flexible sur différentes durées. Cependant, les modèles de l'état de l'art sont toujours entraînés à prédire des réponses en un seul tour tout en traitant un grand nombre de trames, ce qui revient à regarder une longue vidéo en entier et nécessite des ressources importantes. Cela soulève la question : est-il possible de développer des systèmes de raisonnement vidéo performants sur tous horizons ? Inspirés par le comportement humain, nous proposons d'abord SAGE, un système d'agent effectuant un raisonnement en plusieurs tours sur de longues vidéos tout en traitant les problèmes plus simples en un seul tour. Deuxièmement, nous présentons un pipeline simple de génération de données synthétiques utilisant Gemini-2.5-Flash pour entraîner l'orchestrateur, SAGE-MM, qui est au cœur de SAGE. Nous proposons en outre une recette efficace de post-entraînement par apprentissage par renforcement essentielle pour inculquer la capacité de raisonnement multi-horizon à SAGE-MM. Troisièmement, nous constituons SAGE-Bench, dont la durée moyenne est supérieure à 700 secondes, pour évaluer la capacité de raisonnement vidéo dans des cas d'usage réels de divertissement. Enfin, nous validons empiriquement l'efficacité de notre système, de nos données et de notre recette d'apprentissage par renforcement, en observant des améliorations notables allant jusqu'à 6,1 % sur les tâches de raisonnement vidéo à réponse libre, ainsi qu'une amélioration impressionnante de 8,2 % sur les vidéos de plus de 10 minutes.
Dans les recherches multimodales récentes, le paradigme de diffusion s'est imposé comme une alternative prometteuse au paradigme autorégressif (AR), en raison de ses avantages uniques en décodage. Cependant, en raison des limitations capacitives du modèle de langage de diffusion de base, les performances du modèle de vision et langage par diffusion (dVLM) restent encore significativement inférieures à celles des modèles dominants. Cela soulève une question simple mais fondamentale : Est-il possible de construire des dVLMs à partir de modèles AR puissants existants ? En réponse, nous proposons DiffusionVL, une famille de dVLMs pouvant être traduite à partir de n'importe quel modèle AR performant. Par un simple fine-tuning, nous adaptons avec succès des modèles pré-entraînés AR au paradigme de diffusion. Cette approche révèle deux observations clés : (1) La transition du paradigme des modèles multimodaux basés sur l'AR vers la diffusion est remarquablement efficace. (2) La conversion directe d'un modèle de langage AR en un dVLM est également réalisable, atteignant des performances compétitives avec l'ajustement par instructions visuelles de type LLaVA. De plus, nous introduisons une conception de décodage par blocs dans les dVLMs qui prend en charge une génération de longueur arbitraire et la réutilisation du cache KV, permettant une accélération significative de l'inférence. Nous avons mené de nombreuses expériences. Bien qu'entraîné avec moins de 5 % des données requises par les méthodes antérieures, DiffusionVL obtient une amélioration complète des performances - un gain de 34,4 % sur le benchmark MMMU-Pro (vision) et de 37,5 % sur le benchmark MME (Cog.) - ainsi qu'une accélération de l'inférence par 2x. Le modèle et le code sont disponibles à l'adresse https://github.com/hustvl/DiffusionVL.
L'apprentissage par renforcement est devenu essentiel pour renforcer les capacités de raisonnement des grands modèles de langage, mais les mécanismes d'exploration actuels restent fondamentalement inadaptés à la manière dont ces modèles apprennent réellement. Les primes d'entropie et les comparateurs sémantiques externes encouragent une variation superficielle, mais n'offrent aucune garantie que les trajectoires échantillonnées diffèrent dans les directions de mise à jour qui façonnent l'optimisation. Nous proposons G2RL, un cadre d'apprentissage par renforcement à guidage par gradient dans lequel l'exploration est pilotée non pas par des heuristiques externes, mais par la géométrie de mise à jour du premier ordre du modèle lui-même. Pour chaque réponse, G2RL construit une caractéristique au niveau de la séquence à partir de la sensibilité de la couche finale du modèle, obtenable à un coût négligeable lors d'une passe avant standard, et mesure comment chaque trajectoire remodelerait la politique en comparant ces caractéristiques au sein d'un groupe échantillonné. Les trajectoires qui introduisent des directions de gradient nouvelles reçoivent un facteur de récompense multiplicatif borné, tandis que les mises à jour redondantes ou hors variété sont atténuées, produisant un signal d'exploration autoréférentiel naturellement aligné avec la stabilité de type PPO et le contrôle KL. Sur des benchmarks de raisonnement mathématique et général (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) avec les modèles de base Qwen3 1.7B et 4B, G2RL améliore constamment les métriques pass@1, maj@16 et pass@k par rapport aux méthodes GRPO basées sur l'entropie et celles utilisant des embeddings externes. En analysant la géométrie induite, nous constatons que G2RL étend l'exploration vers des directions de gradient substantiellement plus orthogonales et souvent opposées, tout en maintenant la cohérence sémantique, révélant que l'espace de mise à jour propre à une politique constitue une base bien plus fidèle et efficace pour guider l'exploration dans l'apprentissage par renforcement des grands modèles de langage.
Les travaux récents sur la reconnaissance d'entités nommées (NER) multilingue ont montré que les grands modèles de langage (LLM) peuvent fournir une supervision synthétique efficace, mais ces ensembles de données sont souvent apparus comme des sous-produits d'expériences plus larges plutôt que comme des ressources systématiques et réutilisables. Nous présentons FiNERweb, un pipeline de création d'ensembles de données qui étend le paradigme enseignant-élève à 91 langues et 25 systèmes d'écriture. S'appuyant sur FineWeb-Edu, notre approche entraîne des modèles de régression pour identifier les passages pertinents pour la NER et les annote avec des LLM multilingues, produisant environ 225 000 passages avec 235 000 étiquettes d'entités distinctes. Nos expériences montrent que le modèle de régression atteint un score F1 supérieur à 84, et que les modèles entraînés sur FiNERweb obtiennent des performances comparables ou améliorées en transfert zero shot sur l'anglais, le thaï et le swahili, malgré un entraînement sur 19 fois moins de données que les bases de référence solides. De plus, nous évaluons la qualité des annotations par LLM-comme-juge et observons des scores constamment élevés pour la fidélité (3,99 sur 5) et l'exhaustivité (4,05 sur 5), indiquant des annotations fiables et informatives. Nous publions également l'ensemble de données avec les étiquettes en anglais et leurs traductions dans les langues cibles, car nous observons que les performances des modèles state-of-the-art actuels chutent de 0,02 à 0,09 point F1 lorsqu'elles sont évaluées avec des étiquettes dans la langue cible plutôt qu'en anglais. Nous mettons FiNERweb et tous les artefacts associés à la disposition de la communauté scientifique pour faciliter un entraînement enseignant-élève plus efficace pour la reconnaissance d'entités nommées multilingues.
Les grands modèles de langage (LLM) sont de plus en plus utilisés pour générer des ensembles de données synthétiques destinés à l'évaluation et à l'entraînement de modèles en aval. Cependant, des travaux antérieurs ont constaté que ces données générées manquent de diversité. Dans cet article, nous proposons Voyager, une nouvelle approche fondée sur des principes pour générer des ensembles de données diversifiés. Notre approche est itérative et optimise directement une quantité mathématique qui maximise la diversité de l'ensemble de données en utilisant le formalisme des processus ponctuels déterminantaux. De plus, notre méthode ne nécessite pas d'entraînement, est applicable aux modèles propriétaires et est évolutive. Outre la justification théorique du fonctionnement de notre méthode, nous démontrons également par des expériences approfondies que Voyager surpasse significativement les approches de référence populaires en offrant une amélioration de la diversité d'un facteur 1,5 à 3.
Les modèles de diffusion vidéo autorégressifs offrent des perspectives prometteuses pour la simulation du monde, mais sont vulnérables au biais d'exposition découlant du décalage entraînement-test. Si des travaux récents abordent ce problème par un post-entraînement, ils reposent généralement sur un modèle enseignant bidirectionnel ou un discriminateur en ligne. Pour parvenir à une solution de bout en bout, nous introduisons le Forçage par Rééchantillonnage, un cadre sans enseignant permettant l'entraînement de modèles vidéo autorégressifs à partir de zéro et à grande échelle. Au cœur de notre approche se trouve un mécanisme d'auto-rééchantillonnage qui simule les erreurs du modèle en inférence sur les images d'historique durant l'entraînement. Conditionné par ces historiques dégradés, un masque causal parcimonieux impose la causalité temporelle tout en permettant un entraînement parallèle avec une perte de diffusion au niveau de l'image. Pour faciliter une génération efficace à long horizon, nous introduisons en outre le routage d'historique, un mécanisme non paramétrique qui récupère dynamiquement les k images d'historique les plus pertinentes pour chaque requête. Les expériences démontrent que notre approche atteint des performances comparables aux méthodes de référence par distillation, tout en présentant une cohérence temporelle supérieure sur les vidéos plus longues grâce à un entraînement à longueur native.
La conduite autonome a longtemps reposé sur des architectures modulaires de type « Perception-Décision-Action », où les interfaces conçues manuellement et les composants basés sur des règles échouent souvent dans des scénarios complexes ou à longue traîne. Leur conception en cascade propage en outre les erreurs de perception, dégradant la planification et le contrôle en aval. Les modèles Vision-Action (VA) abordent certaines limitations en apprenant des mappages directs des entrées visuelles aux actions, mais ils restent opaques, sensibles aux décalages de distribution et manquent de capacités de raisonnement structuré ou de suivi d'instructions. Les progrès récents des grands modèles de langage (LLM) et de l'apprentissage multimodal ont motivé l'émergence de cadres Vision-Langage-Action (VLA), qui intègrent la perception à une prise de décision ancrée dans le langage. En unifiant la compréhension visuelle, le raisonnement linguistique et les sorties actionnables, les VLA offrent une voie vers des politiques de conduite plus interprétables, généralisables et alignées avec l'humain. Ce travail propose une caractérisation structurée du paysage émergent des VLA pour la conduite autonome. Nous retraçons l'évolution des premières approches VA aux cadres VLA modernes et organisons les méthodes existantes en deux paradigmes principaux : les VLA de bout en bout, qui intègrent perception, raisonnement et planification dans un modèle unique, et les VLA à double système, qui séparent la délibération lente (via des modèles de langage visuel) de l'exécution rapide et critique pour la sécurité (via des planificateurs). Au sein de ces paradigmes, nous distinguons en outre des sous-classes telles que les générateurs d'actions textuels vs. numériques et les mécanismes de guidage explicites vs. implicites. Nous résumons également les ensembles de données et benchmarks représentatifs pour évaluer les systèmes de conduite basés sur les VLA, et soulignons les défis clés et les directions ouvertes, notamment la robustesse, l'interprétabilité et la fidélité aux instructions. Globalement, ce travail vise à établir une base cohérente pour faire progresser les systèmes de conduite autonome compatibles avec l'humain.
Les progrès récents en génération vidéo sont remarquables, permettant aux modèles de produire des vidéos visuellement convaincantes avec un audio synchronisé. Si les benchmarks existants en génération vidéo fournissent des métriques complètes sur la qualité visuelle, ils manquent d'évaluations convaincantes pour la génération audio-vidéo, particulièrement pour les modèles visant à produire des sorties synchronisées. Pour combler cette lacune, nous présentons VABench, un cadre de benchmark complet et multidimensionnel conçu pour évaluer systématiquement les capacités de génération audio-vidéo synchrone. VABench englobe trois types de tâches principales : texte-vers-audio-vidéo (T2AV), image-vers-audio-vidéo (I2AV) et génération audio-vidéo stéréo. Il établit en outre deux modules d'évaluation majeurs couvrant 15 dimensions. Ces dimensions évaluent spécifiquement les similarités par paires (texte-vidéo, texte-audio, vidéo-audio), la synchronisation audio-vidéo, la cohérence labiale-parole, ainsi que des paires de questions-réponses (QR) audio et vidéo soigneusement élaborées, entre autres. De plus, VABench couvre sept catégories de contenu principales : animaux, sons humains, musique, sons environnementaux, sons physiques synchrones, scènes complexes et mondes virtuels. Nous fournissons une analyse systématique et une visualisation des résultats d'évaluation, visant à établir un nouveau standard pour l'évaluation des modèles de génération vidéo dotés de capacités audio synchrones et à promouvoir l'avancement complet du domaine.
Au niveau le plus fondamental, les pixels constituent la source de l'information visuelle par laquelle nous percevons le monde. Les pixels contiennent des informations à tous les niveaux, allant des attributs de bas niveau aux concepts de haut niveau. Les autoencodeurs représentent un paradigme classique et de longue date pour l'apprentissage de représentations à partir de pixels ou d'autres entrées brutes. Dans ce travail, nous démontrons que l'apprentissage auto-supervisé basé sur les autoencodeurs reste compétitif aujourd'hui et peut produire des représentations solides pour des tâches en aval, tout en restant simple, stable et efficace. Notre modèle, nommé de code « Pixio », est un autoencodeur masqué amélioré (MAE) doté de tâches de pré-entraînement plus exigeantes et d'architectures plus performantes. Le modèle est entraîné sur 2 milliards d'images collectées sur le web avec une stratégie d'auto-curation nécessitant une curation humaine minimale. Pixio affiche des performances compétitives sur un large éventail de tâches en aval en conditions réelles, incluant l'estimation de profondeur monoculaire (par exemple, Depth Anything), la reconstruction 3D par propagation avant (c'est-à-dire, MapAnything), la segmentation sémantique et l'apprentissage par robot, surpassant ou égalant DINOv3 entraîné à des échelles similaires. Nos résultats suggèrent que l'apprentissage auto-supervisé dans l'espace pixel peut constituer une alternative prometteuse et un complément aux approches dans l'espace latent.
L'évolution rapide des modèles de génération texte-image a révolutionné la création de contenu visuel. Bien que des produits commerciaux comme le Nano Banana Pro aient retenu une attention considérable, leur potentiel en tant que solutions généralistes pour les défis traditionnels de la vision bas-niveau reste largement inexploré. Dans cette étude, nous investiguons la question cruciale : Le Nano Banana Pro est-il un couteau suisse de la vision bas-niveau ? Nous avons mené une évaluation zero-shot complète sur 14 tâches bas-niveau distinctes couvrant 40 jeux de données variés. En utilisant de simples invites textuelles sans affinage, nous avons comparé le Nano Banana Pro à des modèles spécialistes de pointe. Notre analyse approfondie révèle une dichotomie de performance nette : si le Nano Banana Pro démontre une qualité visuelle subjective supérieure, en hallucinant souvent des détails haute fréquence plausibles qui surpassent les modèles spécialistes, il accuse un retard dans les métriques quantitatives traditionnelles basées sur des références. Nous attribuons cet écart à la stochasticité inhérente des modèles génératifs, qui peinent à maintenir la cohérence pixelique stricte exigée par les métriques conventionnelles. Ce rapport identifie le Nano Banana Pro comme un candidat zero-shot compétent pour les tâches de vision bas-niveau, tout en soulignant qu'atteindre la haute fidélité des spécialistes de domaine reste un défi significatif.
Nous présentons FrontierCS, un benchmark de 156 problèmes ouverts couvrant divers domaines de l'informatique, conçu et examiné par des experts, incluant des doctorants en informatique ainsi que des participants et concepteurs de problèmes d'élite en programmation compétitive. Contrairement aux benchmarks existants qui se concentrent sur des tâches ayant des solutions optimales connues, FrontierCS cible des problèmes pour lesquels la solution optimale est inconnue, mais dont la qualité d'une solution peut être évaluée objectivement. Les modèles résolvent ces tâches en implémentant des programmes exécutables plutôt qu'en fournissant une réponse directe. FrontierCS inclut des problèmes algorithmiques, souvent des variantes NP-difficiles de problèmes de programmation compétitive avec un système de notation partielle objective, ainsi que des problèmes de recherche partageant la même propriété. Pour chaque problème, nous fournissons une solution de référence experte et un évaluateur automatique. Alliant conception ouverte, progrès mesurable et curation experte, FrontierCS offre un benchmark à la frontière de la difficulté en informatique. Empiriquement, nous constatons que les modèles de raisonnement de pointe restent très en deçà des experts humains sur les volets algorithmique et recherche, que l'augmentation seule des budgets de raisonnement ne comble pas cet écart, et que les modèles surestiment souvent la génération de code simplement fonctionnel au détriment de la découverte d'algorithmes et de conceptions système de haute qualité.
Les surcharges computationnelles et mémoire associées à l'extension de la fenêtre contextuelle des LLM limitent sévèrement leur extensibilité. Une solution notable est la compression visuo-textuelle (VTC), illustrée par des frameworks comme DeepSeek-OCR et Glyph, qui convertissent de longs textes en représentations visuelles 2D denses, permettant ainsi d'atteindre des taux de compression de 3x à 20x. Cependant, l'impact de cette haute densité informationnelle sur les capacités fondamentales de compréhension de contexte long des modèles vision-langage (VLM) reste insuffisamment étudié. Pour combler cette lacune, nous introduisons le premier benchmark dédié à la VTC et évaluons systématiquement les performances des VLM selon trois axes de compréhension contextuelle longue : VTC-Retrieval, qui évalue la capacité du modèle à récupérer et agréger l'information ; VTC-Reasoning, qui requiert des inférences sur des associations latentes pour localiser des faits avec un chevauchement lexical minimal ; et VTC-Memory, qui mesure la compréhension globale via des questions-réponses dans une mémoire dialogique étendue. Nous établissons également VTCBench-Wild pour simuler divers scénarios d'entrée. Une évaluation exhaustive des modèles open-source et propriétaires leaders sur nos benchmarks révèle que, bien que capables de décoder correctement l'information textuelle (ex: OCR), la plupart des VLM présentent une capacité étonnamment faible à comprendre les contextes longs compressés par VTC, échouant à capturer les associations ou dépendances distantes. Cette étude offre une compréhension approfondie de la VTC et jette les bases pour concevoir des VLM plus efficaces et évolutifs.
Les agents de modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des environnements générant des contextes massifs et dynamiques. Cependant, un goulot d'étranglement critique persiste : bien que les agents aient accès à ce contexte, leurs prompts statiques manquent des mécanismes nécessaires pour le gérer efficacement, entraînant des échecs récurrents de Correction et d'Amélioration. Pour combler cette lacune capacitaire, nous présentons SCOPE (Optimisation Autonome du Contexte par Évolution des Prompts). SCOPE formule la gestion du contexte comme un problème d'optimisation en ligne, synthétisant des directives à partir des traces d'exécution pour faire évoluer automatiquement le prompt de l'agent. Nous proposons un mécanisme à Double Flux qui équilibre la spécificité tactique (résoudre les erreurs immédiates) avec la généralité stratégique (faire évoluer les principes à long terme). De plus, nous introduisons l'Exploration Guidée par la Perspective pour maximiser la couverture stratégique, augmentant la probabilité que l'agent dispose de la bonne stratégie pour toute tâche donnée. Les expériences sur le benchmark HLE montrent que SCOPE améliore les taux de réussite des tâches de 14,23 % à 38,64 % sans intervention humaine. Nous rendons notre code public à l'adresse https://github.com/JarvisPei/SCOPE.
Le système d'identification automatique (AIS) permet une surveillance maritime fondée sur les données mais souffre de problèmes de fiabilité et d'intervalles irréguliers. Nous abordons l'estimation de la destination des navires à l'aide de données AIS à l'échelle mondiale en proposant une approche différenciée qui reformule les longues trajectoires port-à-port comme une structure de séquence imbriquée. En utilisant des grilles spatiales, cette méthode atténue le biais spatio-temporel tout en préservant une résolution détaillée. Nous introduisons une nouvelle architecture d'apprentissage profond, WAY, conçue pour traiter ces trajectoires reformulées afin d'estimer la destination à long terme plusieurs jours, voire semaines, à l'avance. WAY comprend une couche de représentation de trajectoire et des blocs de traitement séquentiel par agrégation de canaux (CASP). La couche de représentation génère des séquences vectorielles multi-canaux à partir de caractéristiques cinématiques et non cinématiques. Les blocs CASP utilisent une attention multi-têtes par canal et une auto-attention pour l'agrégation et le traitement de l'information séquentielle. De plus, nous proposons une technique spécialisée d'abandon de gradient (GD) permettant un entraînement many-to-many sur des étiquettes uniques, empêchant les pics de rétroaction biaisés en bloquant stochastiquement le flux de gradient en fonction de la longueur de l'échantillon. Les expériences sur des données AIS couvrant 5 ans démontrent la supériorité de WAY par rapport aux approches conventionnelles basées sur des grilles spatiales, quel que soit le stade de la trajectoire. Les résultats confirment en outre que l'adoption de GD entraîne des gains de performance. Enfin, nous explorons le potentiel d'application en conditions réelles de WAY via un apprentissage multitâche pour l'estimation de l'heure d'arrivée prévue (ETA).
La performance des agents d'apprentissage par renforcement (RL) dépend de manière cruciale de la qualité des représentations de caractéristiques sous-jacentes. Les espaces de caractéristiques hyperboliques sont bien adaptés à cet effet, car ils capturent naturellement la structure hiérarchique et relationnelle souvent présente dans les environnements RL complexes. Cependant, leur exploitation se heurte généralement à des défis d'optimisation dus à la non-stationnarité du RL. Dans ce travail, nous identifions les facteurs clés qui déterminent le succès et l'échec de l'entraînement d'agents RL profonds hyperboliques. En analysant les gradients des opérations fondamentales dans les modèles de la boule de Poincaré et de l'hyperboloïde en géométrie hyperbolique, nous montrons que les plongements de grande norme déstabilisent l'entraînement par gradient, conduisant à des violations de la région de confiance dans l'optimisation de politique proximale (PPO). Sur la base de ces observations, nous présentons Hyper++, un nouvel agent PPO hyperbolique qui comporte trois composantes : (i) un entraînement stable du critique via une perte de valeur catégorielle au lieu d'une régression ; (ii) une régularisation des caractéristiques garantissant des normes bornées tout en évitant la malédiction de la dimension liée à l'écrêtage ; et (iii) l'utilisation d'une formulation plus adaptée à l'optimisation des couches de réseaux hyperboliques. Dans les expériences sur ProcGen, nous montrons qu'Hyper++ garantit un apprentissage stable, surpasse les agents hyperboliques antérieurs et réduit le temps d'exécution d'environ 30 %. Sur Atari-5 avec Double DQN, Hyper++ surpasse largement les lignes de base euclidiennes et hyperboliques. Nous publions notre code à l'adresse https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.
Les petits modèles de langage (SLM) sont largement utilisés dans les tâches nécessitant une faible latence et un déploiement léger, particulièrement pour la classification. Alors que l'interprétabilité et la robustesse gagnent en importance, l'apprentissage guidé par les explications est apparu comme un cadre efficace en introduisant une supervision basée sur l'attribution durant l'entraînement ; cependant, dériver des préalables d'attribution généraux et fiables reste un défi significatif. Par une analyse des méthodes d'attribution représentatives en contexte de classification, nous constatons que bien que ces méthodes puissent mettre en évidence de manière fiable les tokens pertinents pour la classe, elles se concentrent souvent sur des mots-clés communs partagés par des classes sémantiquement similaires. Parce que ces classes sont déjà difficiles à distinguer avec un entraînement standard, ces attributions fournissent des indices discriminatifs insuffisants, limitant leur capacité à améliorer la différenciation des modèles. Pour surmonter cette limitation, nous proposons Class-Aware Attribution Prior (CAP), un nouveau cadre d'extraction de préalable d'attribution qui guide les modèles de langage vers la capture de distinctions fines entre les classes et produit des préalables d'attribution plus saillants et discriminatifs. Sur cette base, nous introduisons ensuite CAP Hybrid, qui combine les préalables de CAP avec ceux des techniques d'attribution existantes pour former un signal de supervision plus complet et équilibré. En alignant l'auto-attribution d'un modèle avec ces préalables enrichis, notre approche encourage l'apprentissage de caractéristiques diverses et pertinentes pour la décision. Des expériences approfondies dans des scénarios avec données complètes, few-shot et adversariaux démontrent que notre méthode améliore constamment à la fois l'interprétabilité et la robustesse.
Les modèles Mixture of Experts (MoE) sont devenus l'architecture de facto pour augmenter l'échelle des modèles de langage sans accroître significativement le coût computationnel. Les modèles MoE récents montrent une tendance nette vers une granularité d'experts élevée (dimension intermédiaire des experts plus réduite) et une plus grande parcimonie (nombre constant d'experts activés avec un nombre total d'experts plus important), ce qui améliore la qualité du modèle par FLOP. Cependant, les MoE à granularité fine souffrent d'une empreinte mémoire d'activation accrue et d'une efficacité matérielle réduite en raison de coûts d'E/S plus élevés, tandis que les MoE plus parcimonieux souffrent de calculs gaspillés dus au remplissage (padding) dans les noyaux Grouped GEMM. En réponse, nous proposons un algorithme efficace en mémoire pour calculer les passes avant et arrière des MoE avec une mise en cache minimale des activations pour la passe arrière. Nous concevons également des noyaux GPU qui chevauchent les E/S mémoire avec le calcul, profitant à toutes les architectures MoE. Enfin, nous proposons une nouvelle méthode d'« arrondi des tokens » (token rounding) qui minimise le calcul gaspillé dû au remplissage dans les noyaux Grouped GEMM. En conséquence, notre méthode SonicMoE réduit la mémoire d'activation de 45 % et atteint une amélioration du débit de calcul de 1,86x sur les GPU Hopper par rapport au noyau MoE BF16 de ScatterMoE pour un MoE à granularité fine de 7B. Concrètement, SonicMoE sur 64 H100 atteint un débit d'entraînement de 213 milliards de tokens par jour, comparable aux 225 milliards de tokens par jour de ScatterMoE sur 96 H100 pour l'entraînement d'un modèle MoE 7B avec FSDP-2 en utilisant la base de code lm-engine. Dans des configurations de haute parcimonie MoE, notre algorithme d'arrondi des tokens tenant compte des tuiles (tile-aware) procure une accélération supplémentaire de 1,16x sur le temps d'exécution du noyau par rapport au routage top-K classique, tout en maintenant des performances en aval similaires. Nous ouvrons en libre accès tous nos noyaux pour permettre un entraînement plus rapide des modèles MoE.
Un LLM personnalisé doit mémoriser les informations utilisateur, les appliquer correctement et s'adapter dans le temps pour fournir des réponses correspondant aux préférences de l'utilisateur. Les benchmarks existants pour la personnalisation des LLM se concentrent principalement sur deux axes : le rappel précis des informations utilisateur et l'application correcte des informations mémorisées dans des tâches en aval. Nous soutenons qu'un troisième axe, l'agrément (likability), à la fois subjectif et central pour l'expérience utilisateur, est sous-mesuré par les benchmarks actuels. Pour mesurer l'agrément de manière holistique, nous présentons LikeBench, un cadre d'évaluation dynamique et multi-sessions qui mesure l'agrément selon plusieurs dimensions en évaluant dans quelle mesure un LLM peut s'adapter au fil du temps aux préférences d'un utilisateur pour fournir des réponses plus appréciables. Dans LikeBench, les LLM conversent avec un utilisateur simulé et n'apprennent les préférences qu'à partir du dialogue en cours. Au fur et à mesure que l'interaction progresse, les modèles tentent de s'adapter, et après chaque tour de parole, leur niveau d'agrément est évalué par le même utilisateur simulé selon sept dimensions. À notre connaissance, nous sommes les premiers à décomposer l'agrément en plusieurs métriques diagnostiques : l'adaptation émotionnelle, l'ajustement du niveau de formalité, l'adaptation des connaissances, la compréhension des références, l'adéquation de la longueur des réponses, l'adéquation de l'humour et l'utilisation de rappels (callbacks), ce qui facilite l'identification des points faibles d'un modèle. Pour rendre l'utilisateur simulé plus réaliste et discriminant, LikeBench utilise des personas descriptifs, fins et fondés sur des principes psychologiques, plutôt que les personas basés sur des évaluations de traits grossiers (élevé/faible) utilisés dans les travaux antérieurs. Notre benchmark montre qu'une forte performance mnésique ne garantit pas un haut niveau d'agrément : DeepSeek R1, avec une précision de mémorisation inférieure (86%, 17 faits/profil), a surpassé Qwen3 de 28% sur le score d'agrément, bien que Qwen3 ait une meilleure précision mnésique (93%, 43 faits/profil). Même les modèles à la pointe (SOTA) comme GPT-5 s'adaptent bien dans de courts échanges mais ne montrent qu'une robustesse limitée dans des interactions plus longues et bruitées.
La manipulation robotique nécessite à la fois une perception multimodale riche et des cadres d'apprentissage efficaces pour gérer des tâches complexes du monde réel. Les capteurs "see-through-skin" (STS), qui combinent la perception tactile et visuelle, offrent des capacités de détection prometteuses, tandis que l'apprentissage par imitation moderne fournit des outils puissants pour l'acquisition de politiques. Cependant, les conceptions STS existantes manquent de perception multimodale simultanée et souffrent d'un suivi tactile peu fiable. De plus, l'intégration de ces signaux multimodaux riches dans des pipelines de manipulation basés sur l'apprentissage reste un défi ouvert. Nous présentons TacThru, un capteur STS permettant une perception visuelle simultanée et une extraction robuste de signaux tactiles, et TacThru-UMI, un cadre d'apprentissage par imitation qui exploite ces signaux multimodaux pour la manipulation. Notre capteur intègre un élastomère entièrement transparent, un éclairage persistant, des marqueurs à lignes clés novateurs et un suivi efficace, tandis que notre système d'apprentissage intègre ces signaux via une politique de diffusion basée sur un Transformer. Des expériences sur cinq tâches réelles complexes montrent que TacThru-UMI atteint un taux de réussite moyen de 85,5 %, surpassant significativement les bases de référence que sont l'alternance tactile-visuel (66,3 %) et la vision seule (55,4 %). Le système excelle dans des scénarios critiques, incluant la détection de contact avec des objets fins et mous et la manipulation de précision nécessitant une coordination multimodale. Ce travail démontre que la combinaison d'une perception multimodale simultanée avec des cadres d'apprentissage modernes permet une manipulation robotique plus précise et adaptable.
La conversation humaine implique des échanges continus de parole et de signes non verbaux tels que les hochements de tête, les changements de regard et les expressions faciales qui transmettent l'attention et l'émotion. Modéliser ces dynamiques bidirectionnelles en 3D est essentiel pour créer des avatars expressifs et des robots interactifs. Cependant, les cadres existants traitent souvent la parole et l'écoute comme des processus indépendants ou reposent sur une modélisation non causale de séquences complètes, ce qui nuit à la cohérence temporelle entre les tours de parole. Nous présentons TIMAR (Régression AutoMasquée Entrelacée au Niveau du Tour), un cadre causal pour la génération de têtes conversationnelles 3D qui modélise le dialogue comme des contextes audiovisuels entrelacés. Il fusionne les informations multimodales au sein de chaque tour et applique une attention causale au niveau du tour pour accumuler l'historique conversationnel, tandis qu'une tête de diffusion légère prédit une dynamique continue de la tête en 3D qui capture à la fois la coordination et la variabilité expressive. Les expériences sur le benchmark DualTalk montrent que TIMAR réduit la Distance de Fréchet et l'erreur quadratique moyenne de 15 à 30 % sur l'ensemble de test, et obtient des gains similaires sur des données hors distribution. Le code source sera publié dans le dépôt GitHub https://github.com/CoderChen01/towards-seamleass-interaction.