papers.description
Nous présentons DeepSeek-V3.2, un modèle qui allie haute efficacité computationnelle et performances supérieures en raisonnement et capacités agentiques. Les avancées techniques clés de DeepSeek-V3.2 sont les suivantes : (1) DeepSeek Sparse Attention (DSA) : Nous introduisons DSA, un mécanisme d'attention efficace qui réduit considérablement la complexité computationnelle tout en préservant les performances du modèle dans des scénarios à contexte long. (2) Cadre d'apprentissage par renforcement scalable : En mettant en œuvre un protocole robuste d'apprentissage par renforcement et en augmentant la puissance de calcul post-entraînement, DeepSeek-V3.2 obtient des performances comparables à GPT-5. Particulièrement, notre variante haute performance, DeepSeek-V3.2-Speciale, surpasse GPT-5 et démontre des capacités de raisonnement équivalentes à Gemini-3.0-Pro, obtenant des performances médaillées d'or aux Olympiades Internationales de Mathématiques (OIM) et aux Olympiades Internationales d'Informatique (OII) 2025. (3) Pipeline de synthèse à grande échelle pour tâches agentiques : Pour intégrer le raisonnement dans des scénarios d'utilisation d'outils, nous avons développé un nouveau pipeline de synthèse générant systématiquement des données d'entraînement à grande échelle. Cette méthodologie facilite un post-entraînement agentique scalable, conduisant à des améliorations substantielles en généralisation et en robustesse au suivi d'instructions dans des environnements complexes et interactifs.
Les grands modèles de langage sont des généralistes puissants, mais la résolution de problèmes profonds et complexes tels que ceux de l'Examen Final de l'Humanité (HLE) reste à la fois conceptuellement difficile et coûteuse en calcul. Nous montrons que de petits orchestrateurs gérant d'autres modèles et une variété d'outils peuvent à la fois repousser les limites supérieures de l'intelligence et améliorer l'efficacité dans la résolution de tâches agentiques difficiles. Nous présentons ToolOrchestra, une méthode pour entraîner de petits orchestrateurs qui coordonnent des outils intelligents. ToolOrchestra utilise explicitement l'apprentissage par renforcement avec des récompenses tenant compte des résultats, de l'efficacité et des préférences utilisateur. En utilisant ToolOrchestra, nous produisons Orchestrator, un modèle de 8B qui atteint une précision supérieure à un coût inférieur par rapport aux agents précédents utilisant des outils, tout en s'alignant sur les préférences des utilisateurs concernant les outils à utiliser pour une requête donnée. Sur HLE, Orchestrator obtient un score de 37,1 %, surpassant GPT-5 (35,1 %) tout en étant 2,5 fois plus efficace. Sur tau2-Bench et FRAMES, Orchestrator dépasse GPT-5 de manière significative tout en n'utilisant qu'environ 30 % du coût. Une analyse approfondie montre qu'Orchestrator atteint le meilleur compromis entre performance et coût selon plusieurs métriques, et généralise robustement à des outils non vus. Ces résultats démontrent que composer des outils diversifiés avec un modèle d'orchestration léger est à la fois plus efficace et plus efficient que les méthodes existantes, ouvrant la voie à des systèmes de raisonnement augmentés par outils pratiques et évolutifs.
Les techniques actuelles de génération vidéo excellent dans la production de plans uniques mais peinent à créer des vidéos narratives multi-plans, qui nécessitent un agencement flexible des plans, une cohérence narrative et une contrôlabilité dépassant les invites textuelles. Pour relever ces défis, nous proposons MultiShotMaster, un cadre pour la génération hautement contrôlable de vidéos multi-plans. Nous étendons un modèle préentraîné mono-plan en intégrant deux nouvelles variantes de RoPE. Premièrement, nous introduisons le RoPE Narratif Multi-Plans, qui applique un déphasage explicite aux transitions entre plans, permettant un agencement flexible tout en préservant l'ordre temporel narratif. Deuxièmement, nous concevons un RoPE Sensible aux Positions Spatiotemporelles pour incorporer des jetons de référence et des signaux d'ancrage, permettant l'injection de références ancrées spatiotemporellement. De plus, pour pallier la pénurie de données, nous établissons un pipeline d'annotation automatique pour extraire des vidéos multi-plans, des légendes, des signaux d'ancrage inter-plans et des images de référence. Notre cadre exploite les propriétés architecturales intrinsèques pour supporter la génération de vidéos multi-plans, avec une cohérence inter-plans pilotée par le texte, des sujets personnalisés avec contrôle du mouvement, et des scènes personnalisées pilotées par l'arrière-plan. Le nombre de plans et la durée sont flexibles. Des expériences approfondies démontrent les performances supérieures et la contrôlabilité exceptionnelle de notre cadre.
Nous présentons MG-Nav (Navigation Guidée par la Mémoire), un cadre à double échelle pour la navigation visuelle zero-shot qui unifie une planification globale guidée par la mémoire avec un contrôle local amélioré par la géométrie. Son cœur est le Graphe de Mémoire Spatiale Éparse (SMG), une mémoire compacte et centrée sur les régions où chaque nœud agrège des keyframes multi-vues et une sémantique d'objets, capturant à la fois l'apparence et la structure spatiale tout en préservant la diversité des points de vue. Au niveau global, l'agent est localisé sur le SMG et un chemin de nœuds conditionné par l'objectif est planifié via une récupération hybride image-instance, produisant une séquence de points de passage atteignables pour un guidé à long terme. Au niveau local, une politique de fondation de navigation exécute ces points de passage en mode point-cible avec un contrôle prenant en compte les obstacles, et passe en mode image-cible lors de la navigation du nœud final vers la cible visuelle. Pour améliorer davantage l'alignement des points de vue et la reconnaissance des objectifs, nous introduisons le VGGT-adapter, un module géométrique léger construit sur le modèle VGGT pré-entraîné, qui aligne les caractéristiques de l'observation et de l'objectif dans un espace partagé conscient de la 3D. MG-Nav opère la planification globale et le contrôle local à différentes fréquences, en utilisant une re-localisation périodique pour corriger les erreurs. Les expériences sur les benchmarks HM3D Instance-Image-Goal et MP3D Image-Goal démontrent que MG-Nav atteint des performances zero-shot de pointe et reste robuste sous des réaménagements dynamiques et des conditions de scène non vues.
Ce papier présente DualCamCtrl, un nouveau modèle de diffusion de bout en bout pour la génération de vidéos contrôlée par caméra. Les travaux récents ont fait progresser ce domaine en représentant les poses de caméra comme des conditions basées sur des rayons, mais ils manquent souvent d'une compréhension suffisante de la scène et d'une conscience géométrique. DualCamCtrl cible spécifiquement cette limitation en introduisant un cadre à double branche qui génère mutuellement des séquences RVB et de profondeur cohérentes avec la caméra. Pour harmoniser ces deux modalités, nous proposons en outre le mécanisme d'Alignement Mutuel Guidé par la Sémantique (SIGMA), qui effectue la fusion RVB-profondeur de manière guidée par la sémantique et mutuellement renforcée. Ces conceptions permettent collectivement à DualCamCtrl de mieux dissocier la modélisation de l'apparence et de la géométrie, générant des vidéos qui adhèrent plus fidèlement aux trajectoires de caméra spécifiées. De plus, nous analysons et révélons l'influence distincte de la profondeur et des poses de caméra à travers les étapes de débruitage et démontrons en outre que les étapes précoces et tardives jouent des rôles complémentaires dans la formation de la structure globale et l'affinement des détails locaux. Des expériences approfondies démontrent que DualCamCtrl permet une génération de vidéos contrôlée par caméra plus cohérente, avec une réduction de plus de 40 % des erreurs de mouvement de caméra par rapport aux méthodes antérieures. Notre page projet : https://soyouthinkyoucantell.github.io/dualcamctrl-page/
L'auto-évolution de l'IA a longtemps été envisagée comme une voie vers la superintelligence, où les modèles acquièrent, améliorent et internalisent de manière autonome des connaissances à partir de leurs propres expériences d'apprentissage. Pourtant, en pratique, les systèmes d'auto-évolution non guidés atteignent souvent rapidement un plateau ou se dégradent même au fil de l'entraînement. Ces échecs proviennent de problèmes tels que la dérive conceptuelle, l'effondrement de la diversité et la mauvaise évolution, les modèles renforçant leurs propres biais et convergeant vers des comportements à faible entropie. Pour permettre aux modèles d'évoluer de manière stable et contrôlable tout en minimisant la dépendance à la supervision humaine, nous présentons R-Few, un cadre Challenger-Solver en jeu auto-supervisé guidé qui intègre une supervision humaine légère via un ancrage contextuel et un entraînement mixte. À chaque itération, le Challenger échantillonne un petit ensemble d'exemples étiquetés par des humains pour guider la génération de questions synthétiques, tandis que le Solver s'entraîne conjointement sur des exemples humains et synthétiques selon un curriculum en ligne basé sur la difficulté. Sur des benchmarks de mathématiques et de raisonnement général, R-Few réalise des améliorations constantes et itératives. Par exemple, Qwen3-8B-Base s'améliore de +3,0 points par rapport à R-Zero sur les tâches mathématiques et atteint des performances équivalentes à General-Reasoner, bien que ce dernier ait été entraîné sur 20 fois plus de données humaines. Les études d'ablation confirment les contributions complémentaires de l'entraînement ancré du Challenger et de l'entraînement curriculaire du Solver, et une analyse plus poussée montre que R-Few atténue la dérive, produisant des dynamiques co-évolutives plus stables et contrôlables.
Malgré les progrès récents dans les systèmes agentiques multimodaux, les approches existantes traitent souvent la manipulation d'images et la recherche web comme des capacités disjointes, reposent fortement sur l'apprentissage par renforcement coûteux et manquent de planification fondée sur des traces réelles d'exécution d'outils. Pour remédier à ces limitations, nous présentons Skywork-R1V4, un modèle agentique multimodal de 30 milliards de paramètres (A3B) qui unifie la planification multimodale, la manipulation active d'images (« raisonner avec les images »), la recherche multimodale approfondie et, plus crucialement, un raisonnement entrelacé qui alterne dynamiquement entre les opérations visuelles et la récupération de connaissances externes. Entraîné uniquement par apprentissage supervisé sur moins de 30 000 trajectoires de haute qualité, cohérentes entre planification et exécution, et validé par un filtrage pas-à-pas de cohérence, Skywork-R1V4 obtient des résultats state-of-the-art sur divers benchmarks de perception et de recherche multimodale : il atteint un score de 66,1 sur MMSearch et 67,2 sur FVQA, surpassant Gemini 2.5 Flash sur les 11 métriques. Skywork-R1V4 présente un raisonnement émergent à long terme lors de l'inférence, orchestrant avec succès plus de 10 appels d'outils pour résoudre des tâches complexes multi-étapes. Nos résultats démontrent qu'une intelligence agentique multimodale sophistiquée peut être atteinte par le seul biais d'un apprentissage supervisé soigneusement construit, sans aucun recours à l'apprentissage par renforcement.
L'atteinte de systèmes de conduite entièrement autonomes nécessite l'apprentissage de décisions rationnelles dans un large éventail de scénarios, incluant ceux critiques pour la sécurité ou hors distribution. Cependant, ces cas sont sous-représentés dans les corpus du monde réel collectés par des experts humains. Pour pallier le manque de diversité des données, nous introduisons un nouveau cadre de simulation évolutif capable de synthétiser un nombre massif d'états inédits à partir de journaux de conduite existants. Notre pipeline utilise un rendu neuronal avancé avec un environnement réactif pour générer des observations multi-vues de haute fidélité, contrôlées par la trajectoire de l'ego perturbée. De plus, nous développons un mécanisme de génération de trajectoires pseudo-expertes pour ces nouveaux états simulés, afin de fournir une supervision des actions. Sur les données synthétisées, nous constatons qu'une simple stratégie de co-apprentissage sur des échantillons réels et simulés peut conduire à des améliorations significatives de la robustesse et de la généralisation pour diverses méthodes de planification sur des benchmarks réels difficiles, jusqu'à +6,8 EPDMS sur navhard et +2,9 sur navtest. Plus important encore, cette amélioration de la politique évolue de manière fluide en augmentant uniquement les données de simulation, même sans flux supplémentaire de données réelles. Nous révélons également plusieurs résultats cruciaux d'un tel système d'apprentissage sim-réel, que nous nommons SimScale, incluant la conception des pseudo-experts et les propriétés de mise à l'échelle pour différentes architectures de politiques. Nos données de simulation et notre code seront publiés.
Les modèles de langage étendus (LLMs) et les agents ont réalisé des progrès remarquables en génération de code, raisonnement mathématique et découverte scientifique. Cependant, les benchmarks existants mesurent principalement l'exactitude, négligeant la diversité des méthodes sous-jacentes aux solutions. La véritable innovation dépend non seulement de la production de réponses correctes, mais aussi de l'originalité de l'approche. Nous présentons InnoGym, le premier benchmark et cadre conçu pour évaluer systématiquement le potentiel d'innovation des agents IA. InnoGym introduit deux métriques complémentaires : le gain de performance, qui mesure l'amélioration par rapport aux solutions les plus connues, et la nouveauté, qui capture les différences méthodologiques par rapport aux approches antérieures. Le benchmark comprend 18 tâches soigneusement sélectionnées dans des domaines scientifiques et d'ingénierie réels, chacune standardisée via un filtrage des ressources, une validation par évaluateurs et une collecte de solutions. De plus, nous fournissons iGym, un environnement d'exécution unifié pour des évaluations reproductibles et à long terme. Des expériences approfondies montrent que si certains agents produisent des approches novatrices, leur manque de robustesse limite les gains de performance. Ces résultats mettent en lumière un écart crucial entre créativité et efficacité, soulignant la nécessité de benchmarks évaluant ces deux aspects.
Les modèles de diffusion ont obtenu un succès remarquable en génération d'images, mais leur déploiement reste limité par leur coût computationnel élevé et le besoin de nombreuses étapes d'inférence. Les travaux antérieurs sur la distillation en moins d'étapes tentent de sauter les étapes redondantes en entraînant des modèles étudiants compacts, mais ils souffrent souvent de coûts de réentraînement importants et d'une généralisation dégradée. Dans ce travail, nous adoptons une perspective différente : nous accélérons de manière intelligente, non uniforme, en appliquant des accélérations plus faibles aux premières étapes sémantiques et plus importantes aux phases redondantes ultérieures. Nous concrétisons cette stratégie sensible aux phases avec deux experts spécialisés dans les phases de débruitage lentes et rapides. De manière surprenante, au lieu d'investir un effort massif dans le réentraînement de modèles étudiants, nous constatons que le simple équipement du modèle de base avec des adaptateurs LoRA légers permet à la fois une accélération efficace et une forte généralisation. Nous nommons ces deux adaptateurs Slow-LoRA et Fast-LoRA. Grâce à des expériences approfondies, notre méthode atteint une accélération jusqu'à 5 fois supérieure au modèle de base tout en maintenant une qualité visuelle comparable sur divers benchmarks. Remarquablement, les experts LoRA sont entraînés avec seulement 1 échantillon sur un seul V100 en moins d'une heure, pourtant les modèles résultants généralisent fortement sur des prompts non vus.
Malgré les progrès réalisés en matière de génération audio à partir de vidéo, ce domaine se concentre principalement sur une sortie monophonique, manquant ainsi d'immersion spatiale. Les approches binaurales existantes restent limitées par un pipeline en deux étapes qui génère d'abord un audio mono avant d'effectuer une spatialisation, entraînant souvent une accumulation d'erreurs et des incohérences spatio-temporelles. Pour remédier à cette limitation, nous introduisons la tâche de génération binaurale d'audio spatial de bout en bout directement à partir d'une vidéo silencieuse. Pour soutenir cette tâche, nous présentons le jeu de données BiAudio, comprenant environ 97 000 paires vidéo-audio binaurales couvrant diverses scènes du monde réel et trajectoires de rotation de caméra, construit grâce à un pipeline semi-automatisé. De plus, nous proposons ViSAudio, un framework de bout en bout qui utilise un appariement de flux conditionnel avec une architecture de génération audio à double branche, où deux branches dédiées modélisent les flux latents audio. Intégré à un module conditionnel espace-temps, il équilibre la cohérence entre les canaux tout en préservant les caractéristiques spatiales distinctives, garantissant un alignement spatio-temporel précis entre l'audio et la vidéo d'entrée. Des expériences approfondies démontrent que ViSAudio surpasse les méthodes état de l'art existantes à la fois sur les métriques objectives et les évaluations subjectives, générant un audio binaural de haute qualité avec une immersion spatiale qui s'adapte efficacement aux changements de point de vue, au mouvement des sources sonores et aux divers environnements acoustiques. Site web du projet : https://kszpxxzmc.github.io/ViSAudio-project.
Les progrès récents des grands modèles linguistiques vidéo ont démontré d'importantes capacités de compréhension de clips courts. Cependant, leur passage à l'échelle pour traiter des vidéos de plusieurs heures ou jours reste très difficile en raison de la capacité contextuelle limitée et de la perte de détails visuels critiques lors de l'abstraction. Les méthodes existantes augmentées par mémoire atténuent ce problème en utilisant des résumés textuels de segments vidéo, mais elles reposent fortement sur le texte et ne parviennent pas à exploiter les preuves visuelles lors du raisonnement sur des scènes complexes. De plus, l'interrogation à partir d'échelles temporelles fixes limite davantage leur flexibilité pour capturer des événements de durées variables. Pour résoudre cela, nous présentons WorldMM, un nouvel agent de mémoire multimodale qui construit et interroge plusieurs mémoires complémentaires, incluant à la fois des représentations textuelles et visuelles. WorldMM comprend trois types de mémoire : la mémoire épisodique indexe les événements factuels à travers plusieurs échelles temporelles, la mémoire sémantique met continuellement à jour les connaissances conceptuelles de haut niveau, et la mémoire visuelle conserve les informations détaillées sur les scènes. Lors de l'inférence, un agent d'interrogation adaptative sélectionne itérativement la source mémorielle la plus pertinente et exploite de multiples granularités temporelles en fonction de la requête, jusqu'à ce qu'il estime avoir recueilli suffisamment d'informations. WorldMM surpasse significativement les méthodes de référence sur cinq benchmarks de question-réponse sur vidéos longues, obtenant un gain de performance moyen de 8,4 % par rapport aux méthodes état de l'art précédentes, démontrant son efficacité pour le raisonnement sur vidéos longues.
Les modèles vision-langage-action (VLA) ont démontré des capacités remarquables en manipulation robotique, mais leurs performances sont sensibles à la longueur des segments d'action utilisés lors de l'entraînement, appelée horizon. Notre étude empirique révèle un compromis inhérent : des horizons plus longs offrent une meilleure anticipation globale mais dégradent la précision fine, tandis que des horizons plus courts améliorent le contrôle local mais peinent sur les tâches à long terme, ce qui implique que le choix fixe d'un horizon unique est sous-optimal. Pour atténuer ce compromis, nous proposons une stratégie de mélange d'horizons (MoH). MoH réorganise le segment d'action en plusieurs parties avec différents horizons, les traite en parallèle avec un transformeur d'action partagé et fusionne les sorties avec une porte linéaire légère. Elle présente trois avantages majeurs. 1) MoH exploite conjointement l'anticipation à long terme et la précision à court terme dans un seul modèle, améliorant à la fois les performances et la généralisabilité aux tâches complexes. 2) MoH est plug-and-play pour les modules d'action à attention complète avec une surcharge d'entraînement ou d'inférence minimale. 3) MoH permet une inférence dynamique avec des horizons adaptatifs, qui sélectionne des actions stables par consensus inter-horizons, atteignant un débit 2,5 fois supérieur aux méthodes de référence tout en conservant des performances supérieures. Des expériences approfondies sur les politiques basées sur le flux π₀, π₀,₅ et la politique de régression en une étape π_reg démontrent que MoH produit des gains constants et significatifs tant en simulation que sur des tâches réelles. Notamment, dans un cadre multitâche, π₀,₅ avec MoH établit un nouvel état de l'art avec un taux de réussite moyen de 99% sur LIBERO après seulement 30 000 itérations d'entraînement. Page du projet : https://github.com/Timsty1/MixtureOfHorizons
La quantification en faible précision est une approche standard pour le déploiement des grands modèles de langage. Cependant, quelques poids et activations extrêmes étendent la plage dynamique et réduisent la résolution effective du quantificateur. Une approche d'atténuation courante consiste à appliquer des transformations orthogonales fixes, telles que les matrices de Hadamard, avant la quantification, ce qui réduit généralement la plage dynamique. Pourtant, ces transformations ignorent les statistiques des données, et leur optimalité n'est actuellement pas comprise. Dans ce travail, nous dérivons, pour la première fois, des transformations linéaires optimales en bloc sous forme fermée pour la quantification conjointe poids-activation en utilisant des quantificateurs standard sans données pour les formats numériques courants. Plus précisément, nous fournissons les dérivées des transformations adaptatives optimales (sensibles aux données) pour les quantificateurs par bloc à arrondi au plus près (RTN) et à mise à l'échelle AbsMax, pour les formats entiers et virgule flottante. La construction résultante, que nous appelons WUSH, combine une structure de base de Hadamard avec une composante dépendante des données basée sur les moments du second ordre, produisant une transformation non orthogonale qui est prouvée optimale sous des hypothèses légères et qui reste structurée pour une implémentation efficace. Les résultats expérimentaux préliminaires montrent que notre approche améliore systématiquement la transformation de Hadamard pour les formats courants.
La modélisation en espace latent a été la norme pour les Transformers de Diffusion (DiTs). Cependant, elle repose sur un pipeline à deux étapes où l'autoencodeur préentraîné introduit une reconstruction avec pertes, conduisant à une accumulation d'erreurs tout en entravant l'optimisation conjointe. Pour résoudre ces problèmes, nous proposons PixelDiT, un modèle monophasé et de bout en bout qui élimine le besoin de l'autoencodeur et apprend le processus de diffusion directement dans l'espace pixel. PixelDiT adopte une architecture entièrement basée sur des transformers structurée par une conception à double niveau : un DiT au niveau des patchs qui capture la sémantique globale et un DiT au niveau des pixels qui affine les détails texturaux, permettant l'entraînement efficace d'un modèle de diffusion en espace pixel tout en préservant les détails fins. Notre analyse révèle qu'une modélisation efficace des tokens au niveau pixel est essentielle au succès de la diffusion en espace pixel. PixelDiT atteint un FID de 1,61 sur ImageNet 256x256, surpassant largement les modèles génératifs en espace pixel existants. Nous étendons ensuite PixelDiT à la génération texte-image et le préentraînons à la résolution 1024x1024 en espace pixel. Il atteint 0,74 sur GenEval et 83,5 sur DPG-bench, approchant ainsi les meilleurs modèles de diffusion en espace latent.
Les systèmes génératifs audio-vidéo récents suggèrent que le couplage des modalités bénéficie non seulement à la synchronisation audio-vidéo, mais aussi à la modalité vidéo elle-même. Nous posons une question fondamentale : L'apprentissage conjoint par débruitage audio-vidéo améliore-t-il la génération vidéo, même lorsque seule la qualité vidéo nous importe ? Pour étudier cela, nous introduisons une architecture Audio-Video Full DiT (AVFullDiT) à paramètres efficaces qui exploite des modules texte-à-vidéo (T2V) et texte-à-audio (T2A) pré-entraînés pour un débruitage conjoint. Nous entraînons (i) un modèle T2AV avec AVFullDiT et (ii) une contrepartie T2V uniquement dans des conditions identiques. Nos résultats fournissent les premières preuves systématiques que le débruitage conjoint audio-vidéo peut offrir plus que la synchronisation. Nous observons des améliorations constantes sur des sous-ensembles difficiles comportant des mouvements importants et des contacts d'objets. Nous émettons l'hypothèse que la prédiction audio agit comme un signal privilégié, encourageant le modèle à internaliser les relations causales entre les événements visuels et leurs conséquences acoustiques (par exemple, les instants de collision influencent le son), ce qui régularise à son tour la dynamique vidéo. Nos résultats suggèrent que l'apprentissage conjoint multimodal est une approche prometteuse pour développer des modèles du monde plus performants et physiquement plus fondés. Le code et le jeu de données seront rendus publics.
Le raisonnement analogique est au cœur de la cognition humaine, constituant un fondement important pour diverses activités intellectuelles. Si les travaux antérieurs ont montré que les grands modèles de langage peuvent représenter des schémas de tâches et des concepts de surface, on ignore encore si ces modèles peuvent encoder des concepts relationnels de haut niveau et les appliquer à des situations nouvelles via des comparaisons structurées. Dans cette étude, nous explorons cet aspect fondamental à l'aide d'analogies proportionnelles et narratives, et identifions trois résultats clés. Premièrement, les LLM encodent efficacement les relations sous-jacentes entre entités analogues ; les informations attributionnelles et relationnelles se propagent à travers les couches médianes-supérieures dans les cas corrects, tandis que les échecs de raisonnement reflètent l'absence d'information relationnelle dans ces couches. Deuxièmement, contrairement aux humains, les LLM éprouvent souvent des difficultés non seulement lorsque l'information relationnelle est absente, mais aussi lorsqu'ils tentent de l'appliquer à de nouvelles entités. Dans de tels cas, la correction stratégique des représentations cachées aux positions token critiques peut faciliter le transfert d'information dans une certaine mesure. Enfin, un raisonnement analogique réussi chez les LLM se caractérise par un fort alignement structurel entre situations analogues, tandis que les échecs reflètent souvent un alignement dégradé ou inadéquat. Globalement, nos résultats révèlent que les LLM présentent des capacités émergentes mais limitées dans l'encodage et l'application de concepts relationnels de haut niveau, mettant en lumière à la fois des parallèles et des écarts avec la cognition humaine.
Les grands modèles de langage (LLM) ont rapidement évolué, passant de générateurs de texte à de puissants solveurs de problèmes. Pourtant, de nombreuses tâches ouvertes exigent une pensée critique, des sources multiples et des résultats vérifiables, ce qui dépasse les capacités de l'incitation unique ou de la génération augmentée par récupération standard. Récemment, de nombreuses études ont exploré la Recherche Approfondie (Deep Research, DR), qui vise à combiner les capacités de raisonnement des LLM avec des outils externes, tels que les moteurs de recherche, permettant ainsi aux LLM d'agir comme des agents de recherche capables de réaliser des tâches complexes et ouvertes. Cette étude présente une vue d'ensemble complète et systématique des systèmes de recherche approfondie, incluant une feuille de route claire, des composants fondamentaux, des techniques de mise en œuvre pratiques, d'importants défis et des orientations futures. Plus précisément, nos principales contributions sont les suivantes : (i) nous formalisons une feuille de route en trois étapes et distinguons la recherche approfondie des paradigmes connexes ; (ii) nous présentons quatre composants clés : la planification des requêtes, l'acquisition d'informations, la gestion de la mémoire et la génération de réponses, chacun étant associé à des sous-taxonomies fines ; (iii) nous résumons les techniques d'optimisation, incluant l'incitation (prompting), le réglage fin supervisé et l'apprentissage par renforcement agentique ; et (iv) nous consolidons les critères d'évaluation et les défis ouverts, visant à guider et faciliter le développement futur. Alors que le domaine de la recherche approfondie continue d'évoluer rapidement, nous nous engageons à mettre à jour continuellement cette étude pour refléter les derniers progrès dans ce domaine.
Dans cet article, nous proposons CUDA-L2, un système qui combine les grands modèles de langage (LLM) et l'apprentissage par renforcement (RL) pour optimiser automatiquement les noyaux CUDA de multiplication matricielle générale en demi-précision (HGEMM). En utilisant la vitesse d'exécution CUDA comme récompense RL, CUDA-L2 optimise automatiquement les noyaux HGEMM sur 1 000 configurations. CUDA-L2 surpasse systématiquement les principaux benchmarks matmul actuels, du {\it torch.matmul} largement utilisé aux bibliothèques propriétaires de pointe de Nvidia, à savoir {\it cuBLAS} et {\it cuBLASLt}. En mode hors ligne, où les noyaux sont exécutés consécutivement sans intervalle de temps, CUDA-L2 offre un gain de performance moyen de +22,0 % par rapport à {\it torch.matmul} ; +19,2 % par rapport à {\it cuBLAS} utilisant la configuration de disposition optimale (normal-normal NN et transposé-normal TN) ; +16,8 % par rapport à {\it cuBLASLt-heuristic}, qui interroge la bibliothèque {\it cuBLASLt} et sélectionne l'algorithme basé sur la suggestion heuristique ; et +11,4 % par rapport au modèle {\it cuBLASLt-AutoTuning} le plus compétitif, qui sélectionne l'algorithme le plus rapide parmi jusqu'à 100 candidats suggérés par {\it cuBLASLt}. En mode serveur, où les noyaux sont exécutés à des intervalles aléatoires simulant l'inférence en temps réel, les accélérations augmentent encore pour atteindre respectivement +28,7 %, +26,0 %, +22,4 % et +15,9 % par rapport à {\it torch.matmul}, {\it cuBLAS}, {\it cuBLASLt-heuristic} et {\it cuBLASLt-AutoTuning}. CUDA-L2 démontre que même les noyaux les plus critiques en termes de performances et fortement optimisés comme HGEMM peuvent être améliorés grâce à l'automatisation RL guidée par LLM, en explorant systématiquement des espaces de configuration à des échelles impraticables pour les humains. Le projet et le code sont disponibles sur github.com/deepreinforce-ai/CUDA-L2.
Les modèles Vision-Langage-Action (VLA) entraînés par appariement de flux ont démontré des capacités impressionnantes sur les tâches de manipulation robotique. Cependant, leurs performances se dégradent souvent face à un décalage de distribution et sur des tâches multi-étapes complexes, suggérant que les représentations apprises ne capturent pas de manière robuste la sémantique pertinente à la tâche. Nous présentons DiG-Flow, un cadre méthodologique qui améliore la robustesse des modèles VLA par une régularisation géométrique. Notre idée clé est que l'écart distributionnel entre les plongements d'observation et d'action fournit un signal géométrique significatif : un coût de transport faible indique des représentations compatibles, tandis qu'un coût élevé suggère un désalignement potentiel. DiG-Flow calcule une mesure de divergence entre les distributions empiriques des plongements d'observation et d'action, la transforme en un poids de modulation via une fonction monotone, et applique des mises à jour résiduelles aux plongements d'observation avant l'appariement de flux. Cette intervention opère crucialement au niveau représentationnel sans modifier le chemin d'appariement de flux ou le champ vectoriel cible. Nous fournissons des garanties théoriques montrant que l'entraînement guidé par la divergence réduit de manière prouvable la fonction objectif d'entraînement, et que le raffinement d'inférence guidé converge avec contraction. Empiriquement, DiG-Flow s'intègre aux architectures VLA existantes avec une surcharge négligeable et améliore constamment les performances, avec des gains particulièrement prononcés sur les tâches multi-étapes complexes et dans des conditions de données d'entraînement limitées.
Les progrès récents en génération vidéo ont permis la synthèse de vidéos présentant une forte cohérence temporelle et une qualité visuelle impressionnante, marquant une étape cruciale vers les modèles de fondation visuelle. Pour évaluer ces modèles de génération vidéo, les benchmarks existants se concentrent principalement sur des facteurs liés à la perception et à la compréhension visuelles, tels que l'esthétique visuelle, l'adhésion aux instructions et la cohérence temporelle. Cependant, les capacités de raisonnement basées sur des règles des modèles de génération vidéo restent largement inexplorées. Bien que des études récentes aient mené des explorations préliminaires sur la capacité des modèles vidéo à agir comme apprenants zero-shot, elles manquent encore d'une décomposition fine des capacités de raisonnement et d'un protocole d'évaluation complet. Pour combler cette lacune, nous présentons RULER-Bench, un benchmark conçu pour évaluer la capacité de raisonnement des modèles de génération vidéo sous l'angle des règles cognitives. Construit sur deux paradigmes fondamentaux - texte-à-vidéo et image-à-vidéo - RULER-Bench couvre 40 tâches représentatives réparties en six catégories de règles avec 622 instances annotées de haute qualité. Pour l'évaluation de chaque vidéo générée, nous construisons une checklist couvrant quatre métriques et exploitons GPT-4 pour attribuer des scores à chaque question, atteignant 85% d'alignement avec les jugements humains. Des expériences approfondies montrent que le modèle state-of-the-art n'atteint que 48,87% sur la métrique de cohérence des règles, soulignant une marge d'amélioration significative dans la capacité de raisonnement des modèles vidéo de niveau supérieur. Nous espérons que les insights obtenus grâce à RULER-Bench faciliteront le développement ultérieur de la génération vidéo consciente du raisonnement, faisant progresser les modèles de génération vidéo vers une intelligence de fondation visuelle.
La reconnaissance de tableaux (TR) vise à transformer des images de tableaux en représentations semi-structurées telles que HTML ou Markdown. En tant que composant central de l'analyse documentaire, la TR a longtemps reposé sur l'apprentissage supervisé, les récents efforts étant dominés par le fine-tuning de modèles vision-langage (VLM) utilisant des données étiquetées. Bien que les VLM aient fait passer la TR au niveau supérieur, repousser les performances nécessite des données étiquetées à grande échelle dont l'obtention est coûteuse. Par conséquent, bien que les modèles propriétaires aient continuellement repoussé les limites de performance, les modèles open-source, souvent entraînés avec des ressources limitées et, en pratique, la seule option viable pour beaucoup en raison des réglementations sur la confidentialité, accusent encore un retard considérable. Pour combler cet écart, nous présentons TRivia, une méthode de fine-tuning auto-supervisée qui permet à des VLM pré-entraînés d'apprendre la TR directement à partir d'images de tableaux non étiquetées issues de sources variées. Fondée sur l'optimisation de politique relative par groupe, TRivia identifie automatiquement les échantillons non étiquetés qui facilitent le plus efficacement l'apprentissage et élimine le besoin d'annotations humaines grâce à un mécanisme de récompense basé sur le question-réponse. Un module guidé par l'attention génère des questions diverses pour chaque image de tableau, et la capacité à interpréter les résultats de reconnaissance et à y répondre correctement fournit un retour pour optimiser le modèle de TR. Ce processus en boucle fermée permet au modèle de TR d'apprendre de manière autonome à reconnaître, structurer et raisonner sur les tableaux sans données étiquetées. En tirant parti de cette pipeline, nous présentons TRivia-3B, un modèle de TR open-source, compact et à la pointe de la technologie, qui surpasse les systèmes existants (par exemple, Gemini 2.5 Pro, MinerU2.5) sur trois benchmarks populaires. Le modèle et le code sont disponibles à l'adresse : https://github.com/opendatalab/TRivia
Nous proposons MagicQuill V2, un système novateur qui introduit un paradigme de composition en couches pour l'édition générative d'images, comblant le fossé entre la puissance sémantique des modèles de diffusion et le contrôle granulaire des logiciels graphiques traditionnels. Bien que les transformeurs de diffusion excellent dans la génération holistique, leur utilisation d'invites uniques et monolithiques ne permet pas de dissocier les intentions distinctes de l'utilisateur concernant le contenu, la position et l'apparence. Pour surmonter cette limite, notre méthode décompose l'intention créative en une pile d'indices visuels contrôlables : une couche de contenu pour définir quoi créer, une couche spatiale pour déterminer où le placer, une couche structurelle pour spécifier sa forme et une couche de couleur pour sa palette. Nos contributions techniques incluent un pipeline spécialisé de génération de données pour l'intégration contextuelle du contenu, un module de contrôle unifié pour traiter tous les indices visuels, et une branche spatiale fine-tunée pour un édition locale précise, incluant la suppression d'objets. Des expériences approfondies valident le fait que cette approche en couches résout efficacement l'écart d'intention utilisateur, offrant aux créateurs un contrôle direct et intuitif sur le processus génératif.
Nous étudions comment différentes conceptions de la Chaîne de Pensée (CoT) affectent l'acquisition de capacités de raisonnement visuel généralisables dans les modèles vision-langage (VLM). Bien que les données CoT, particulièrement les CoT longues ou visuelles comme « penser avec l'image », soient largement utilisées pour superviser le raisonnement intermédiaire, il reste incertain pourquoi certains designs de CoT aident et lesquels soutiennent véritablement un raisonnement généralisable. Pour évaluer ceci systématiquement, nous nous concentrons sur un benchmark contrôlé de résolution de labyrinthes où les règles de raisonnement sont entièrement visuelles, la difficulté peut être ajustée via la taille de la grille, et toutes les étapes intermédiaires peuvent être générées automatiquement. En utilisant Qwen2.5-VL-7B dans un pipeline standard SFT-puis-RL, nous comparons trois formats de CoT représentatifs : la CoT Langagière, la CoT d'Ancrage (avec des trajectoires de coordonnées spatiales) et la CoT Visuelle (avec manipulations d'image). Nos expériences révèlent que les CoT visuelles et longues accélèrent principalement la convergence mais n'élèvent pas le plafond de performance final ; une CoT concise contenant uniquement les étapes d'ancrage essentielles surpasse les traces plus longues ; et, fait marquant, la CoT ne conservant que les résultats d'ancrage minimaux généralise le mieux sur différentes tailles de labyrinthe. Nous validons ensuite ces observations sur d'autres tâches centrées sur la vision. Ces résultats mettent en évidence un effet « le court est long » et fournissent des conseils pratiques pour construire des ensembles de données SFT plus généralisables pour le raisonnement visuel.
L'IA physique vise à développer des modèles capables de percevoir et de prédire les dynamiques du monde réel ; pourtant, la mesure dans laquelle les modèles de langage multimodaux et les modèles génératifs vidéo actuels soutiennent ces capacités reste insuffisamment comprise. Nous présentons Physical AI Bench (PAI-Bench), un benchmark unifié et complet qui évalue les capacités de perception et de prédiction à travers la génération vidéo, la génération vidéo conditionnelle et la compréhension vidéo, comprenant 2 808 cas du monde réel avec des métriques alignées sur les tâches conçues pour capturer la plausibilité physique et le raisonnement spécifique au domaine. Notre étude fournit une évaluation systématique des modèles récents et montre que les modèles génératifs vidéo, malgré une forte fidélité visuelle, peinent souvent à maintenir des dynamiques physiquement cohérentes, tandis que les modèles de langage multimodaux présentent des performances limitées en prévision et en interprétation causale. Ces observations suggèrent que les systèmes actuels en sont encore à un stade précoce dans la gestion des exigences perceptives et prédictives de l'IA physique. En résumé, PAI-Bench établit une base réaliste pour évaluer l'IA physique et met en lumière les lacunes clés que les futurs systèmes devront combler.
Nous examinons si les modèles génératifs vidéo peuvent manifester une intelligence visuospatiale, capacité centrale de la cognition humaine, en utilisant uniquement des données visuelles. Pour cela, nous présentons Video4Spatial, un cadre démontrant que des modèles de diffusion vidéo conditionnés uniquement par un contexte scénique basé sur la vidéo peuvent réaliser des tâches spatiales complexes. Nous validons cette approche sur deux tâches : la navigation scénique - suivre des instructions de pose caméra tout en restant cohérent avec la géométrie 3D de la scène - et l'ancrage d'objets - qui nécessite une localisation sémantique, le suivi d'instructions et la planification. Les deux tâches utilisent des entrées purement vidéo, sans modalités auxiliaires comme la profondeur ou les poses. Grâce à des choix de conception simples mais efficaces dans l'architecture et la curation des données, Video4Spatial démontre une compréhension spatiale robuste à partir du contexte vidéo : il planifie la navigation et ancre les objets cibles de bout en bout, suit les instructions de pose caméra tout en maintenant la cohérence spatiale, et généralise à des contextes longs et à des environnements hors domaine. Collectivement, ces résultats font progresser les modèles génératifs vidéo vers le raisonnement visuospatial général.
Si les agents d'IA basés sur les LLM/VLM ont progressé rapidement dans les domaines des mathématiques, du codage et de l'utilisation informatique, leurs applications dans des environnements physiques et sociaux complexes restent difficiles. La construction d'agents capables de survivre et de prospérer dans le monde réel (par exemple, en gagnant un revenu de manière autonome ou en gérant une entreprise) nécessite une interaction, un raisonnement, un entraînement et une évaluation à grande échelle dans divers scénarios incarnés. Cependant, les simulateurs mondiaux existants pour un tel développement sont insuffisants : ils reposent souvent sur des environnements artisanaux limités, simulent une physique et des règles sociales simplifiées de type jeu vidéo, et manquent de support natif pour les agents LLM/VLM. Nous présentons SimWorld, un nouveau simulateur construit sur Unreal Engine 5, conçu pour développer et évaluer les agents LLM/VLM dans des environnements riches et proches du monde réel. SimWorld offre trois capacités fondamentales : (1) une simulation mondiale réaliste et ouverte, incluant une dynamique physique et sociale précise et une génération procédurale d'environnements pilotée par le langage ; (2) une interface riche pour les agents LLM/VLM, avec des entrées mondiales multimodales et des actions à vocabulaire ouvert à différents niveaux d'abstraction ; et (3) des scénarios de raisonnement physique et social diversifiés et extensibles, facilement personnalisables par les utilisateurs. Nous démontrons SimWorld en déployant des agents LLM de pointe (par exemple, GPT-4o, Gemini-2.5-Flash, Claude-3.5 et DeepSeek-Prover-V2) sur des tâches de livraison multi-agents à long terme impliquant une coopération et une compétition stratégiques. Les résultats révèlent des schémas de raisonnement et des limitations distincts selon les modèles. Nous ouvrons le code de SimWorld et espérons qu'il devienne une plateforme fondamentale pour faire progresser l'intelligence des agents dans le monde réel à travers les disciplines : https://simworld.org.
Les modèles Vision-Langage-Action (VLA) construits sur des modèles de vision et langage (VLM) pré-entraînés montrent un fort potentiel mais leur utilité pratique est limitée par leur grand nombre de paramètres. Pour atténuer ce problème, l'utilisation d'un VLM léger a été explorée, mais cela se fait au détriment du raisonnement spatio-temporel. Bien que certaines méthodes suggèrent que l'incorporation d'entrées 3D supplémentaires puisse aider, elles reposent généralement sur de grands VLM pour fusionner les entrées 3D et 2D et manquent encore de compréhension temporelle. Par conséquent, nous proposons SwiftVLA, une architecture qui améliore un modèle compact avec une compréhension 4D tout en préservant l'efficacité de conception. Concrètement, notre approche intègre un transformateur de géométrie visuelle 4D pré-entraîné avec un cache temporel qui extrait des caractéristiques 4D à partir d'images 2D. Ensuite, pour améliorer la capacité du VLM à exploiter à la fois les images 2D et les caractéristiques 4D, nous introduisons les « Fusion Tokens », un ensemble de tokens entraînables formés avec un objectif de prédiction future pour générer des représentations unifiées pour la génération d'actions. Enfin, nous introduisons une stratégie de masquage et reconstruction qui masque les entrées 4D du VLM et entraîne le VLA à les reconstruire, permettant au VLM d'apprendre des représentations 4D efficaces et autorisant l'abandon du branchement 4D lors de l'inférence avec une perte de performance minime. Les expériences en environnements réels et simulés montrent que SwiftVLA surpasse les modèles de référence légers et rivalise avec des VLA jusqu'à 7 fois plus grands, atteignant des performances comparables sur les appareils embarqués tout en étant 18 fois plus rapide et en réduisant l'empreinte mémoire par un facteur 12.
Bien que les modèles de diffusion pour la génération de vidéos d'avatars pilotées par l'audio aient réalisé des progrès notables dans la synthèse de longues séquences avec une synchronisation audio-visuelle naturelle et une cohérence d'identité, la génération de vidéos de performances musicales avec mouvements de caméra reste largement inexplorée. Nous présentons YingVideo-MV, le premier framework en cascade pour la génération de longues vidéos musicales. Notre approche intègre une analyse sémantique de l'audio, un module de planification de plans interprétable (MV-Director), des architectures Transformer à diffusion sensibles à la temporalité et une modélisation de la cohérence des longues séquences pour permettre la synthèse automatique de vidéos de performances musicales de haute qualité à partir de signaux audio. Nous avons constitué un jeu de données à grande échelle "Music-in-the-Wild" en collectant des données web pour soutenir l'obtention de résultats diversifiés et de haute qualité. Constatant que les méthodes existantes de génération de longues vidéos manquent de contrôle explicite des mouvements de caméra, nous introduisons un module adaptateur de caméra qui intègre les poses de caméra dans le bruit latent. Pour améliorer la continuité entre les clips lors de l'inférence de longues séquences, nous proposons en outre une stratégie de plage dynamique temporelle qui ajuste adaptativement les plages de débruitage basées sur l'embedding audio. Des tests de référence complets démontrent que YingVideo-MV obtient des performances exceptionnelles dans la génération de vidéos musicales cohérentes et expressives, et permet une synchronisation précise musique-mouvement-caméra. Plus de vidéos sont disponibles sur notre page de projet : https://giantailab.github.io/YingVideo-MV/.
Nous présentons Ovis-Image, un modèle de génération d'images à partir de texte de 7 milliards de paramètres, spécifiquement optimisé pour un rendu de texte de haute qualité et conçu pour fonctionner efficacement sous de strictes contraintes de calcul. Bâti sur notre précédent cadre Ovis-U1, Ovis-Image intègre un décodeur visuel basé sur la diffusion avec le backbone multimodal plus puissant Ovis 2.5, en tirant parti d'un pipeline d'entraînement centré sur le texte qui combine un pré-entraînement à grande échelle avec des affinages post-entraînement soigneusement adaptés. Malgré son architecture compacte, Ovis-Image atteint des performances de rendu de texte comparables à des modèles ouverts bien plus grands comme Qwen-Image et s'approche de systèmes propriétaires tels que Seedream et GPT4o. Fait crucial, le modèle reste déployable sur un seul GPU haut de gamme avec une mémoire modérée, réduisant ainsi l'écart entre un rendu de texte de niveau avancé et un déploiement pratique. Nos résultats indiquent que la combinaison d'un backbone multimodal performant avec une méthode d'entraînement soigneusement conçue et axée sur le texte suffit à obtenir un rendu de texte bilingue fiable sans recourir à des modèles surdimensionnés ou propriétaires.
La génération de vidéos d'une minute constitue une étape cruciale vers le développement de modèles du monde, offrant une base pour la création de scènes étendues réalistes et de simulateurs d'IA avancés. Le paradigme semi-autorégressif émergent (diffusion par blocs) intègre les atouts des modèles de diffusion et autorégressifs, permettant une génération vidéo de longueur arbitraire et améliorant l'efficacité de l'inférence via la mise en cache KV et l'échantillonnage parallèle. Cependant, il reste confronté à deux défis persistants : (i) l'accumulation d'erreurs à long terme induite par le cache KV, et (ii) l'absence de benchmarks granulaires pour les longues vidéos et de métriques évaluant la cohérence temporelle. Pour surmonter ces limitations, nous proposons BlockVid, une nouvelle architecture de diffusion par blocs dotée d'un cache KV parcimonieux sémantiquement conscient, d'une stratégie d'apprentissage efficace appelée Block Forcing, et d'une planification ainsi qu'un brassage du bruit dédiés par tronçons pour réduire la propagation des erreurs et renforcer la cohérence temporelle. Nous introduisons également LV-Bench, un benchmark granulaire pour les vidéos d'une minute, complété par de nouvelles métriques évaluant la cohérence à long terme. Des expériences approfondies sur VBench et LV-Bench démontrent que BlockVid surpasse constamment les méthodes existantes dans la génération de vidéos d'une minute de haute qualité et cohérentes. En particulier, il obtient une amélioration de 22,2 % sur VDE Subject et de 19,4 % sur VDE Clarity dans LV-Bench par rapport aux approches de l'état de l'art. Site du projet : https://ziplab.co/BlockVid. Inferix (Code) : https://github.com/alibaba-damo-academy/Inferix.
Aujourd'hui, il est facile pour les gens d'enregistrer des moments mémorables, qu'il s'agisse de concerts, d'événements sportifs, de conférences, de réunions familiales ou de fêtes d'anniversaire, à l'aide de multiples caméras grand public. Cependant, la synchronisation de ces flux multicaméras reste un défi. Les méthodes existantes supposent des conditions contrôlées, des cibles spécifiques, une correction manuelle ou du matériel coûteux. Nous présentons VisualSync, un cadre d'optimisation basé sur la dynamique multi-vues qui aligne des vidéos non mises en scène et non synchronisées avec une précision de l'ordre de la milliseconde. Notre idée clé est que tout point 3D en mouvement, lorsqu'il est co-visible dans deux caméras, obéit aux contraintes épipolaires une fois correctement synchronisé. Pour exploiter cela, VisualSync utilise des techniques standard de reconstruction 3D, d'appariement de caractéristiques et de suivi dense pour extraire des séquences de traces (tracklets), les poses relatives et les correspondances inter-vues. Il minimise ensuite conjointement l'erreur épipolaire pour estimer le décalage temporel de chaque caméra. Les expériences menées sur quatre ensembles de données variés et complexes montrent que VisualSync surpasse les méthodes de référence, atteignant une erreur médiane de synchronisation inférieure à 50 ms.
La reconstruction 3D à partir d'images multi-vues est un défi fondamental en vision par ordinateur. Récemment, les méthodes feed-forward sont apparues comme des alternatives efficaces et robustes aux techniques traditionnelles d'optimisation par scène. Parmi elles, les modèles de pointe comme le Visual Geometry Grounding Transformer (VGGT) exploitent l'auto-attention complète sur tous les tokens d'image pour capturer les relations globales. Cependant, cette approche souffre d'une mauvaise évolutivité due à la complexité quadratique de l'auto-attention et au grand nombre de tokens générés dans les longues séquences d'images. Dans ce travail, nous présentons FlashVGGT, une alternative efficace qui résout ce goulot d'étranglement grâce à un mécanisme d'attention basé sur des descripteurs. Au lieu d'appliquer une attention globale dense sur tous les tokens, FlashVGGT compresse l'information spatiale de chaque image en un ensemble compact de tokens descripteurs. L'attention globale est ensuite calculée comme une attention croisée entre l'ensemble complet des tokens d'image et cet ensemble de descripteurs réduit, diminuant significativement la surcharge computationnelle. De plus, la compacité des descripteurs permet une inférence en ligne sur de longues séquences via un mécanisme chunk-recursif qui réutilise les descripteurs mis en cache des segments précédents. Les résultats expérimentaux montrent que FlashVGGT atteint une précision de reconstruction comparable à VGGT tout en réduisant le temps d'inférence à seulement 9,3 % de celui de VGGT pour 1 000 images, et en s'adaptant efficacement à des séquences dépassant 3 000 images. Notre page projet est disponible à l'adresse https://wzpscott.github.io/flashvggt_page/.
Les modèles de langage autorégressifs (AR) et les modèles de langage par diffusion (DLM) constituent les deux paradigmes principaux des grands modèles de langage. Cependant, ces deux paradigmes souffrent de capacités de raisonnement insuffisantes. Le raisonnement humain repose intrinsèquement sur des connaissances et une pensée causales, qui se reflètent dans le langage naturel. Mais dans le paradigme AR, le langage est modélisé comme une prédiction du token suivant (un ordre strictement séquentiel de gauche à droite, token par token), tandis que le langage naturel présente lui-même des structures causales plus flexibles. Dans le paradigme DLM, le mécanisme d'attention est entièrement connecté, ce qui ignore totalement l'ordre causal. Pour combler cette lacune, nous proposons un **M**odèle de **L**angage par **D**iffusion guidé par des **C**oncepts **C**ausaux (C²DLM). En partant de l'attention entièrement connectée des DLM, C²DLM obtient d'abord un graphe causal au niveau conceptuel à partir du modèle enseignant, puis guide explicitement l'attention pour apprendre les relations causales entre les concepts. En se concentrant sur les relations causales et en évitant les interférences des sous-objectifs difficiles impliquant une inversion causale, C²DLM améliore les performances de 12 % avec une accélération de l'entraînement d'environ 3,2 fois dans la tâche COT-OrderPerturb, et obtient un gain moyen de 1,31 % sur six tâches de raisonnement en aval. Plus de détails dans le dépôt ~https://github.com/Kairong-Han/C-2-DLM{ici}.
Les modèles de langage à diffusion masquée (MDLM) sont récemment apparus comme une alternative prometteuse aux modèles de langage autorégressifs (ARLM), exploitant un objectif de débruitage qui, en principe, devrait permettre une utilisation plus uniforme du contexte. Dans ce travail, nous examinons les capacités de compréhension contextuelle des MDLM et mettons en lumière deux limitations majeures. Premièrement, malgré leur objectif d'entraînement plus global et leur mécanisme d'attention bidirectionnelle, les MDLM présentent, à l'instar des ARLM, un biais de localité prononcé : leurs performances sont très sensibles à la position des informations pertinentes dans l'entrée, favorisant le contexte local au détriment du contexte distant. Deuxièmement, nous montrons que l'ajout d'un grand nombre de tokens de masque—nécessaires à la génération—peut considérablement dégrader la compréhension contextuelle. Par des ablations systématiques, nous constatons que ces masques agissent comme des distracteurs, réduisant la capacité du modèle à traiter les informations pertinentes. Pour remédier à cela, nous introduisons une fonction de perte agnostique aux masques qui encourage les prédictions à rester invariantes au nombre de masques ajoutés. Le fine-tuning avec cet objectif atténue substantiellement l'effet distracteur des masques, améliorant la robustesse des MDLM. Globalement, nos résultats révèlent des limitations critiques du paradigme d'entraînement actuel des MDLM et fournissent des pistes concrètes pour développer des modèles de langage basés sur la diffusion ayant une meilleure compréhension contextuelle.
Les modèles vision-langage agentiques sont de plus en plus entraînés à « penser avec des images » en invoquant des opérations visuelles. Cependant, nous démontrons qu’une précision élevée sur la réponse finale masque souvent un raisonnement visuel peu fidèle : les modèles peuvent appeler des outils sur des régions non pertinentes ou ignorer complètement leurs sorties, tout en devinant la bonne réponse. Dans ce travail, nous proposons d’abord un protocole d’évaluation de la fidélité qui mesure si les sorties intermédiaires des outils visuels (par exemple, des recadrages) contiennent réellement les preuves demandées. Celui-ci révèle que les agents visuels récents atteignent une haute précision finale mais présentent de faibles taux d’utilisation fidèle des outils sur des benchmarks de recherche visuelle. Nous introduisons ensuite CodeV, un agent visuel basé sur du code, entraîné avec l’Optimisation de Politique Sensible aux Outils (TAPO). TAPO est un cadre d’apprentissage par renforcement au niveau processus qui enrichit GRPO avec des récompenses denses définies directement sur les entrées et sorties des outils visuels, plutôt que sur des tokens de raisonnement en chaîne, rendant la supervision plus facile à vérifier et moins sujette au détournement de récompense. CodeV représente les outils visuels sous forme de code Python exécutable, et TAPO attribue des récompenses pas-à-pas basées uniquement sur la question et la sortie de l’outil, encourageant une utilisation à la fois nécessaire et cohérente avec les preuves. Dans un pipeline en deux étapes (SFT + RL), CodeV atteint une précision compétitive ou supérieure tout en augmentant substantiellement les taux d’utilisation fidèle des outils sur des benchmarks de recherche visuelle connexes. Au-delà de la recherche visuelle, CodeV obtient de solides performances sur une série de benchmarks de raisonnement multimodal et mathématique, suggérant que superviser explicitement le comportement intermédiaire des outils est crucial pour construire des systèmes de raisonnement visuel agentiques dignes de confiance.
La démonstration automatisée de théorèmes en géométrie euclidienne, particulièrement pour les problèmes de niveau Olympiade Internationale de Mathématiques (OIM), reste un défi majeur et un axe de recherche important en intelligence artificielle. Dans cet article, nous présentons une méthode hautement efficace pour la démonstration de théorèmes géométriques qui s'exécute entièrement sur des processeurs sans recours à l'inférence par réseaux neuronaux. Notre étude préliminaire montre qu'une simple stratégie aléatoire d'ajout de points auxiliaires peut atteindre des performances humaines de niveau médaille d'argent aux OIM. Sur cette base, nous proposons HAGeo, une méthode heuristique pour l'ajout de constructions auxiliaires dans la déduction géométrique, qui résout 28 des 30 problèmes du benchmark IMO-30, atteignant des performances de niveau médaille d'or et surpassant notablement AlphaGeometry, une approche compétitive basée sur les réseaux neuronaux. Pour évaluer plus complètement notre méthode et les approches existantes, nous construisons ensuite HAGeo-409, un benchmark comprenant 409 problèmes de géométrie avec des niveaux de difficulté évalués par des humains. Comparé au largement utilisé IMO-30, notre benchmark présente des défis plus importants et fournit une évaluation plus précise, établissant une barre plus haute pour la démonstration de théorèmes géométriques.
La prochaine frontière pour la génération vidéo réside dans le développement de modèles capables de raisonnement en zero-shot, où la compréhension des lois scientifiques du monde réel est cruciale pour une modélisation précise des résultats physiques dans des conditions variées. Cependant, les benchmarks vidéo existants sont basés sur le bon sens physique et offrent une vision limitée des capacités de raisonnement scientifique des modèles vidéo. Nous présentons VideoScience-Bench, un benchmark conçu pour évaluer la compréhension scientifique de niveau universitaire dans les modèles vidéo. Chaque prompt encode un scénario scientifique composite qui nécessite de comprendre et de raisonner sur plusieurs concepts scientifiques pour générer le phénomène correct. Le benchmark comprend 200 prompts soigneusement sélectionnés couvrant 14 sujets et 103 concepts en physique et chimie. Nous menons des évaluations annotées par des experts sur sept modèles vidéo de pointe dans des configurations T2V et I2V selon cinq dimensions : la cohérence avec le prompt, la congruence du phénomène, le dynamisme correct, l'immuabilité et la continuité spatio-temporelle. En utilisant un VLM-comme-juge pour évaluer les générations vidéo, nous observons une forte corrélation avec les évaluations humaines. À notre connaissance, VideoScience-Bench est le premier benchmark à évaluer les modèles vidéo non seulement en tant que générateurs, mais aussi en tant que raisonneurs, exigeant que leurs générations démontrent une compréhension scientifique conforme aux phénomènes physiques et chimiques attendus. Nos données et notre code d'évaluation sont disponibles à l'adresse : https://github.com/hao-ai-lab/VideoScience.
L'édition de vidéos portrait est une tâche complexe qui nécessite un contrôle flexible mais précis sur un large éventail de modifications, telles que les changements d'apparence, les corrections d'expression ou l'ajout d'objets. La principale difficulté réside dans la préservation du comportement temporel original du sujet, exigeant que chaque image modifiée reste parfaitement synchronisée avec l'image source correspondante. Nous présentons Sync-LoRA, une méthode d'édition de vidéos portrait qui réalise des modifications visuelles de haute qualité tout en maintenant une synchronisation image par image et une cohérence d'identité. Notre approche utilise un modèle de diffusion image-à-vidéo, où la modification est définie en transformant la première image puis propagée à l'ensemble de la séquence. Pour permettre une synchronisation précise, nous entraînons un LoRA contextuel à l'aide de vidéos appariées décrivant des trajectoires de mouvement identiques mais différant par l'apparence. Ces paires sont générées et sélectionnées automatiquement via un processus de filtrage basé sur la synchronisation qui ne retient que les exemples les plus alignés temporellement pour l'entraînement. Cette configuration apprend au modèle à combiner les indices de mouvement de la vidéo source avec les modifications visuelles introduites dans la première image éditée. Entraîné sur un ensemble compact et soigneusement sélectionné de portraits humains synchronisés, Sync-LoRA généralise à des identités non vues et à des modifications diverses (par exemple, modifier l'apparence, ajouter des objets ou changer l'arrière-plan), gérant robustement les variations de pose et d'expression. Nos résultats démontrent une haute fidélité visuelle et une forte cohérence temporelle, atteignant un équilibre robuste entre la fidélité de l'édition et la préservation précise du mouvement.
Avec les progrès rapides de modèles multimodaux puissants tels que GPT-4o, Nano Banana et Seedream 4.0 en édition d'images, l'écart de performance entre les modèles propriétaires et open-source se creuse, principalement en raison de la rareté de données d'entraînement à grande échelle et de haute qualité, ainsi que de benchmarks exhaustifs capables de diagnostiquer les faiblesses des modèles sur divers comportements d'édition. Les méthodes existantes de construction de données sont confrontées à un compromis échelle-qualité : les annotations humaines sont de haute qualité mais non extensibles, tandis que les pipelines automatisés souffrent de propagation d'erreurs et de bruit. Pour résoudre ce problème, nous introduisons un pipeline de données léger qui remplace les chaînes d'outils multiples par un modèle de bout en bout et une étape unifiée de post-vérification. Pour un contrôle qualité extensible, nous entraînons un modèle expert à double tâche de 7B, Qwen-Verify, pour une détection efficace des échecs et un recaptioning des instructions. Ce pipeline produit UnicEdit-10M, un jeu de données à l'échelle de 10 millions couvrant diverses tâches d'édition basiques et complexes. Nous proposons également UnicBench, un benchmark général qui s'étend au-delà des éditions basiques pour évaluer explicitement le raisonnement spatial et axé sur les connaissances. Pour permettre un diagnostic granulaire, nous introduisons de nouvelles métriques, notamment la Cohérence des non-éditions et la Précision du raisonnement. Notre analyse des modèles grand public sur UnicBench révèle leurs limites et offre des orientations claires pour les recherches futures.
Avec le développement rapide des grands modèles de vision et de langage, l'accent des tâches des agents d'interface graphique (GUI) se déplace des opérations sur écran unique vers les défis complexes de navigation multi-écrans. Cependant, les environnements GUI réels, tels que les logiciels PC et les applications mobiles, sont souvent complexes et propriétaires, ce qui rend difficile l'obtention d'informations environnementales complètes nécessaires à l'entraînement et à l'évaluation des agents. Cette limitation entrave l'étude systématique et l'établissement de références pour les capacités de navigation des agents. Pour résoudre ce problème, nous présentons GUI Exploration Lab, un moteur d'environnement de simulation pour la recherche sur la navigation des agents GUI qui permet une définition et une composition flexibles des écrans, des icônes et des graphes de navigation, tout en fournissant un accès complet aux informations environnementales pour un entraînement et une évaluation complets des agents. À travers des expériences approfondies, nous constatons que le réglage fin supervisé permet une mémorisation efficace des connaissances fondamentales, servant de fondation cruciale pour l'entraînement ultérieur. Sur cette base, l'apprentissage par renforcement en tour unique améliore encore la généralisation à des scénarios non vus. Enfin, l'apprentissage par renforcement multi-tours encourage le développement de stratégies d'exploration par essais et erreurs interactifs, conduisant à des améliorations supplémentaires des performances de navigation à l'écran. Nous validons nos méthodes sur des références statiques et interactives, démontrant que nos résultats se généralisent efficacement aux scénarios réels. Ces résultats démontrent les avantages des approches d'apprentissage par renforcement dans la navigation GUI et offrent des conseils pratiques pour construire des agents GUI plus compétents et généralisables.
Les grands modèles multimodaux ont réalisé des progrès remarquables en compréhension et en génération. Les travaux récents visent à développer des modèles multimodaux unifiés intégrant des composants hétérogènes pour supporter ces deux capacités dans un cadre unique. Cependant, cette unification introduit des inefficacités lors de l'inférence ; par exemple, certaines tâches ou échantillons pourraient ne pas nécessiter l'intégralité des connaissances ou de la capacité du modèle unifié. Pourtant, une compréhension systématique de la manière dont ces inefficacités se manifestent selon les différents composants reste limitée. Dans ce travail, nous menons d'abord une analyse systématique des composants des modèles multimodaux unifiés en utilisant l'élagage sans entraînement comme méthode d'investigation, en considérant à la fois l'élagage en profondeur et la réduction de la largeur. Notre étude révèle que le composant de compréhension présente une compressibilité notable pour les tâches de compréhension et de génération, cette dernière étant plus prononcée. En revanche, les composants de génération sont très sensibles à la compression, avec une dégradation rapide des performances même sous des taux de compression modérés. Pour remédier à cette limitation, nous proposons l'Adaptation par Mélange d'Experts (MoE), inspirée par les patterns d'activation dynamiques observés pour différents échantillons. Cette approche partitionne le module de génération en plusieurs experts et permet une activation parcimonieuse pour restaurer la qualité de génération. Nous validons l'efficacité de l'activation parcimonieuse via un réglage avec experts gelés et démontrons ensuite qu'une adaptation entièrement entraînable procure des gains supplémentaires. En conséquence, le modèle BAGEL adapté atteint des performances comparables au modèle complet tout en n'activant qu'environ la moitié de ses paramètres. Le code est disponible à l'adresse https://github.com/Shwai-He/SparseUnifiedModel{ce lien}.
Les cadres récents d'apprentissage par renforcement pour les politiques de perception visuelle ont commencé à intégrer des chaînes de raisonnement intermédiaires exprimées en langage naturel. Les observations empiriques indiquent que ce type de raisonnement intermédiaire purement linguistique réduit souvent les performances sur les tâches de perception. Nous soutenons que le problème fondamental ne réside pas dans le raisonnement en soi, mais dans sa forme : alors que ces chaînes effectuent un raisonnement sémantique dans un espace linguistique non structuré, la perception visuelle nécessite un raisonnement dans un espace spatial et centré sur les objets. En réponse, nous présentons Artemis, un cadre d'apprentissage de politiques de perception qui effectue un raisonnement structuré basé sur des propositions, où chaque étape intermédiaire est représentée par une paire (étiquette, boîte englobante) capturant un état visuel vérifiable. Cette conception permet un suivi explicite des états intermédiaires, une supervision directe de la qualité des propositions, et évite l'ambiguïté introduite par le raisonnement basé sur le langage. Artemis est construit sur Qwen2.5-VL-3B, obtient de solides performances sur les tâches de localisation et de détection, et présente une généralisation substantielle aux tâches de comptage et de perception géométrique. Les améliorations constantes dans ces divers contextes confirment qu'aligner le raisonnement sur les représentations spatiales améliore l'apprentissage des politiques de perception. Grâce à son raisonnement visuel renforcé, Artemis obtient également des performances compétitives sur les benchmarks généraux de MLLM, illustrant qu'un raisonnement spatialement ancré offre une voie principielle vers des politiques de perception évolutives et généralistes.
La mondialisation de l'éducation et la croissance rapide de l'apprentissage en ligne ont fait de la localisation des contenus pédagogiques un défi majeur. Les supports de cours sont intrinsèquement multimodaux, combinant l'audio parlé avec des diapositives visuelles, ce qui nécessite des systèmes capables de traiter de multiples modalités d'entrée. Pour offrir une expérience d'apprentissage accessible et complète, les traductions doivent préserver toutes les modalités : le texte pour la lecture, les diapositives pour la compréhension visuelle et la parole pour l'apprentissage auditif. Nous présentons BOOM, un assistant de cours multilingue et multimodal qui traduit conjointement l'audio des cours et les diapositives pour produire des sorties synchronisées sur trois modalités : texte traduit, diapositives localisées avec préservation des éléments visuels, et parole synthétisée. Cette approche de bout en bout permet aux étudiants d'accéder aux cours dans leur langue maternelle tout en visant à préserver l'intégralité du contenu original. Nos expériences démontrent que les transcriptions intégrant les diapositives produisent également des bénéfices en cascade pour les tâches en aval telles que la synthèse et la réponse aux questions. Nous publions notre code de traduction de diapositives à l'adresse https://github.com/saikoneru/image-translator et l'intégrons dans Lecture Translator à l'adresse https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Tous les codes et modèles publiés sont sous licence MIT.}
Les systèmes actuels de génération de graphes de scènes vidéo (VSGG) offrent une compréhension visuelle structurée mais fonctionnent comme des pipelines fermés en feed-forward sans capacité à intégrer des guidages humains. En revanche, les modèles de segmentation guidable comme SAM2 permettent une interaction utilisateur précise mais manquent de raisonnement sémantique ou relationnel. Nous présentons Click2Graph, le premier cadre interactif pour la génération panoptique de graphes de scènes vidéo (PVSG) qui unifie le guidage visuel avec la compréhension spatiale, temporelle et sémantique. À partir d'une simple indication utilisateur, comme un clic ou une boîte englobante, Click2Graph segmente et suit le sujet dans le temps, découvre de manière autonome les objets en interaction, et prédit des triplets <sujet, objet, prédicat> pour former un graphe de scène temporellement cohérent. Notre cadre introduit deux composantes clés : un module de découverte d'interactions dynamiques qui génère des invites d'objets conditionnées au sujet, et une tête de classification sémantique qui effectue un raisonnement conjoint sur les entités et les prédicats. Les expériences sur le benchmark OpenPVSG démontrent que Click2Graph établit une base solide pour la PVSG guidée par l'utilisateur, montrant comment le guidage humain peut être combiné avec l'ancrage panoptique et l'inférence relationnelle pour permettre une compréhension vidéo contrôlable et interprétable des scènes.