papers.description
Le paysage des modèles de génération d'images haute performance est actuellement dominé par des systèmes propriétaires, tels que Nano Banana Pro et Seedream 4.0. Les principales alternatives open-source, incluant Qwen-Image, Hunyuan-Image-3.0 et FLUX.2, se caractérisent par des nombres de paramètres massifs (de 20 à 80 milliards), les rendant peu pratiques pour l'inférence et le fine-tuning sur du matériel grand public. Pour combler cette lacune, nous proposons Z-Image, un modèle génératif fondateur efficace de 6 milliards de paramètres, construit sur une architecture de Transformeur de Diffusion à Flux Unique et Évolutif (S3-DiT), qui remet en question le paradigme de la « mise à l'échelle à tout prix ». En optimisant systématiquement l'ensemble du cycle de vie du modèle – depuis une infrastructure de données soigneusement constituée jusqu'à un processus d'entraînement rationalisé – nous achevons le workflow d'entraînement complet en seulement 314 000 heures GPU H800 (environ 630 000 $). Notre schéma de distillation en peu d'étapes, combiné à un post-entraînement par récompense, donne également naissance à Z-Image-Turbo, offrant à la fois une latence d'inférence inférieure à la seconde sur un GPU H800 de niveau entreprise et une compatibilité avec le matériel grand public (<16 Go de VRAM). De plus, notre paradigme d'omni-pré-entraînement permet également l'entraînement efficace de Z-Image-Edit, un modèle d'édition aux capacités impressionnantes de suivi d'instructions. Des expériences qualitatives et quantitatives démontrent que notre modèle atteint des performances comparables ou supérieures à celles des principaux concurrents sur diverses dimensions. Plus notable encore, Z-Image présente des capacités exceptionnelles en génération d'images photoréalistes et en rendu de texte bilingue, produisant des résultats rivalisant avec les modèles commerciaux de premier plan, démontrant ainsi que des résultats à la pointe de l'état de l'art sont atteignables avec une empreinte computationnelle significativement réduite. Nous rendons publics notre code, nos poids et une démonstration en ligne pour favoriser le développement de modèles génératifs accessibles, économiques, mais néanmoins à la pointe de l'état de l'art.
Les progrès récents des modèles d'édition d'images ont montré des avancées remarquables. Une conception architecturale courante couple un encodeur de modèle de langage multimodal (MLLM) avec un décodeur à diffusion, comme on le voit dans des systèmes tels que Step1X-Edit et Qwen-Image-Edit, où le MLLM encode à la fois l'image de référence et l'instruction mais reste figé pendant l'entraînement. Dans ce travail, nous démontrons que déverrouiller les capacités de raisonnement du MLLM peut repousser encore les limites des modèles d'édition. Plus précisément, nous explorons deux mécanismes de raisonnement, la réflexion et l'auto-évaluation, qui améliorent la compréhension des instructions et la précision de l'édition. Sur cette base, notre cadre proposé permet l'édition d'images dans une boucle réflexion-édition-auto-évaluation : le mécanisme de réflexion exploite les connaissances mondiales du MLLM pour interpréter des instructions abstraites, tandis que l'auto-évaluation examine les résultats de l'édition, corrige automatiquement les manipulations non souhaitées et identifie le cycle d'arrêt. Des expériences approfondies démontrent que notre approche par raisonnement obtient des gains de performance significatifs, avec des améliorations de ImgEdit (+4,3 %), GEdit (+4,7 %) et Kris (+8,2 %) lors de l'initialisation de notre DiT à partir de Step1X-Edit (ReasonEdit-S), et surpasse également les méthodes open-source précédentes à la fois sur GEdit et Kris lorsqu'elle est intégrée à Qwen-Image-Edit (ReasonEdit-Q).
Récemment, la génération de vidéos multi-personnes a commencé à gagner en importance. Bien que quelques travaux préliminaires aient exploré la génération de vidéos de conversation multi-personnes pilotée par l'audio, ils se heurtent souvent à des difficultés liées au coût élevé de la collecte de données multi-personnes diversifiées et à la complexité d'animer plusieurs identités avec une interactivité cohérente. Pour relever ces défis, nous proposons AnyTalker, un cadre de génération multi-personnes doté d'une architecture de traitement multi-flux extensible. Plus précisément, nous étendons le bloc d'attention du Transformer à Diffusion avec un nouveau mécanisme d'attention sensible à l'identité qui traite itérativement des paires identité-audio, permettant une mise à l'échelle arbitraire des identités pilotables. Par ailleurs, l'entraînement de modèles génératifs multi-personnes nécessite d'énormes quantités de données multi-personnes. Notre pipeline d'entraînement proposé dépend uniquement de vidéos mono-personne pour apprendre les schémas de parole multi-personnes et affine l'interactivité avec seulement quelques clips réels multi-personnes. De plus, nous contribuons par une métrique et un jeu de données spécifiquement conçus pour évaluer le naturel et l'interactivité des vidéos multi-personnes générées. Des expériences approfondies démontrent qu'AnyTalker atteint une remarquable synchronisation labiale, une qualité visuelle élevée et une interactivité naturelle, offrant un équilibre favorable entre le coût des données et l'évolutivité des identités.
Nous présentons Vision Bridge Transformer (ViBT), une implémentation à grande échelle des modèles de pont brownien conçue pour la génération conditionnelle. Contrairement aux modèles de diffusion traditionnels qui transforment du bruit en données, les modèles de pont modélisent directement la trajectoire entre les entrées et les sorties, créant un paradigme efficace de traduction de données à données. En mettant ces modèles à l'échelle avec 20 et 1,3 milliard de paramètres, nous démontrons leur efficacité pour les tâches de traduction d'images et de vidéos. Pour supporter cette échelle, nous adoptons une architecture Transformer et proposons un objectif d'appariement de vitesse à variance stabilisée pour un apprentissage robuste. Ensemble, ces avancées soulignent la puissance de la mise à l'échelle des modèles de pont pour l'édition d'images basée sur des instructions et la traduction vidéo complexe.
Les modèles multimodaux unifiés pour la génération et la compréhension d'images représentent une avancée significative vers l'IA générale et ont suscité une large attention de la part des chercheurs. Le principal défi de cette tâche réside dans la difficulté à établir un paradigme d'entraînement optimal en raison des objectifs conflictuels inhérents aux tâches de compréhension et de génération. Pour atténuer ces conflits et viser de meilleures performances, de nombreux chercheurs adoptent différents degrés de découplage du modèle (par exemple, doubles encodeurs d'images, architectures MOE/MOT, ou MLLM figé). Cependant, un découplage excessif du modèle peut entraîner la perte de la capacité de génération entrelacée, compromettant l'intention originelle des modèles unifiés. Dans ce travail, nous visons à explorer comment atténuer les conflits de tâches sans recourir au découplage du modèle. Premièrement, nous analysons pourquoi le découplage atténue les conflits en étudiant le comportement attentionnel cross-modal des modèles. Nous observons que le découplage du modèle pousse essentiellement les modèles vers des schémas d'interaction multimodale spécifiques aux tâches, comme observé dans Qwen-VL et HunyuanImage, et que plus le découplage est approfondi, plus le comportement devient cohérent. Motivés par cette observation, nous proposons une fonction de perte d'Alignement de l'Interaction Attentionnelle (AIA), qui apprend explicitement des schémas d'interaction multimodale spécifiques aux tâches durant l'entraînement. Pour démontrer la généralisabilité de notre perte AIA, nous l'appliquons à Emu3 et Janus-Pro respectivement durant les phases de SFT et de post-entraînement. Sans artifices superflus, AIA affine non seulement les schémas attentionnels cross-modaux, mais améliore également les performances en génération et en compréhension.
Les grands modèles linguistiques ont réalisé des progrès significatifs en raisonnement mathématique, qui sert de banc d'essai important pour l'IA et pourrait impacter la recherche scientifique s'il est davantage perfectionné. En augmentant l'échelle du raisonnement grâce à l'apprentissage par renforcement qui récompense les réponses finales correctes, les LLM sont passés de faibles performances à une saturation des compétitions de raisonnement quantitatif comme l'AIME et le HMMT en un an. Cependant, cette approche rencontre des limitations fondamentales. La recherche d'une plus grande précision des réponses finales ne résout pas un problème clé : des réponses correctes ne garantissent pas un raisonnement valide. De plus, de nombreuses tâches mathématiques comme la démonstration de théorèmes nécessitent une dérivation rigoureuse étape par étape plutôt que des réponses numériques, rendant les récompenses sur les réponses finales inapplicables. Pour repousser les limites du raisonnement profond, nous estimons nécessaire de vérifier l'exhaustivité et la rigueur du raisonnement mathématique. L'auto-vérification est particulièrement importante pour intensifier le calcul au moment du test, surtout pour les problèmes ouverts sans solutions connues. Vers un raisonnement mathématique auto-vérifiable, nous étudions comment entraîner un vérificateur précis et fidèle basé sur les LLM pour la démonstration de théorèmes. Nous entraînons ensuite un générateur de preuves en utilisant le vérificateur comme modèle de récompense, et encourageons le générateur à identifier et résoudre autant de problèmes que possible dans ses propres preuves avant de les finaliser. Pour maintenir l'écart génération-vérification tandis que le générateur devient plus performant, nous proposons d'augmenter l'échelle du calcul de vérification pour étiqueter automatiquement de nouvelles preuves difficiles à vérifier, créant ainsi des données d'entraînement pour améliorer davantage le vérificateur. Notre modèle résultant, DeepSeekMath-V2, démontre de solides capacités en démonstration de théorèmes, atteignant des scores de niveau or aux OIM 2025 et OCM 2024 et un quasi-parfait 118/120 au Putnam 2024 avec un calcul intensifié au moment du test.
Les modèles de diffusion sont confrontés à un compromis fondamental entre la qualité de génération et l'efficacité computationnelle. Les modèles de diffusion latente (LDM) offrent une solution efficace mais souffrent d'une perte d'information potentielle et d'un entraînement non bout-en-bout. En revanche, les modèles existants dans l'espace pixel contournent les VAE mais deviennent prohibitifs en calcul pour la synthèse haute résolution. Pour résoudre ce dilemme, nous proposons DiP, un cadre de diffusion efficace dans l'espace pixel. DiP découple la génération en une phase globale et une phase locale : une architecture de Transformer à Diffusion (DiT) opère sur de grands patchs pour construire efficacement la structure globale, tandis qu'une tête légère de détailage de patchs, co-entraînée, exploite les caractéristiques contextuelles pour restaurer les détails locaux fins. Cette conception synergétique atteint une efficacité computationnelle comparable aux LDM sans recourir à un VAE. DiP réalise une accélération de l'inférence jusqu'à 10 fois par rapport aux méthodes précédentes, tout en n'augmentant le nombre total de paramètres que de 0,3 %, et obtient un score FID de 1,79 sur ImageNet en 256×256.
Pour construire un modèle Vision-Langage-Action (VLA) généralisable doté de fortes capacités de raisonnement, une stratégie courante consiste à d'abord entraîner un VLA spécialiste sur des démonstrations robotiques pour lui faire acquérir des compétences de manipulation fiables, puis à incorporer des données robotiques annotées mixtes ainsi que des données multimodales pour restaurer des capacités de raisonnement plus larges. Cependant, nous observons que le VLA raisonnant qui en résulte souffre souvent d'une dégradation des performances en matière d'action par rapport au modèle spécialiste avant le réglage fin, un phénomène que nous qualifions de dégénérescence de l'action. Pour résoudre ce problème, nous proposons DualVLA, qui améliore les performances d'action grâce à un post-entraînement soigneusement conçu tout en préservant la capacité de raisonnement. Nous introduisons d'abord une méthode d'élagage des données à double couche qui supprime le raisonnement incarné redondant, l'empêchant d'influencer négativement l'apprentissage de l'action. Pour renforcer davantage la génération d'actions, nous concevons une stratégie de distillation adaptative à double enseignant qui attribue différents signaux de supervision à différents domaines de données tout en maintenant la capacité de raisonnement. Pour combler le déficit d'évaluation des VLA généralistes, nous proposons également le VLA Score, qui découple la capacité du VLA en dimensions de raisonnement, d'intention, d'action et d'alignement pour une évaluation plus fine. Les expériences montrent que DualVLA atteint un taux de réussite moyen de 61,0 dans SimplerEnv et un score moyen de 65,4 sur huit benchmarks multimodaux compétitifs, démontrant un équilibre plus fort entre l'exécution d'actions précises et la compréhension multimodale. Site web du projet : https://costaliya.github.io/DualVLA/.
Nous présentons les modèles de flux adversariaux, une classe de modèles génératifs qui unifie les modèles adversariaux et les modèles de flux. Notre méthode prend en charge une génération native en une ou plusieurs étapes et est entraînée à l'aide de l'objectif adversarial. Contrairement aux GAN traditionnels, où le générateur apprend un plan de transport arbitraire entre les distributions de bruit et de données, notre générateur apprend un mapping déterministe du bruit vers les données, qui correspond au transport optimal identique à celui des modèles de flux. Cela stabilise considérablement l'entraînement adversarial. De plus, contrairement aux méthodes basées sur la cohérence, notre modèle apprend directement la génération en une ou quelques étapes sans avoir besoin d'apprendre les étapes intermédiaires du flux de probabilité pour la propagation. Cela économise la capacité du modèle, réduit les itérations d'entraînement et évite l'accumulation d'erreurs. Dans le même cadre 1NFE sur ImageNet-256px, notre modèle B/2 approche les performances des modèles XL/2 basés sur la cohérence, tandis que notre modèle XL/2 établit un nouveau record avec un FID de 2,38. Nous montrons également la possibilité d'un entraînement de bout en bout de modèles à 56 et 112 couches par répétition en profondeur sans aucune supervision intermédiaire, et obtenons des FID de 2,08 et 1,94 en utilisant une seule passe avant, surpassant ainsi leurs homologues en 2NFE et 4NFE.
Ce travail explore le défi de construire des « Machines capables de se souvenir », en définissant la mémoire à long terme comme le problème de la modélisation efficace de contextes ultra-longs. Nous soutenons que cela nécessite trois propriétés clés : la parcimonie, la flexibilité d'accès aléatoire et la généralisation en longueur. Pour aborder la modélisation de contextes ultra-longs, nous tirons parti de l'Attention Hiérarchique Parcimonieuse (HSA), un nouveau mécanisme d'attention qui satisfait ces trois propriétés. Nous intégrons HSA dans les Transformers pour construire HSA-UltraLong, un modèle MoE de 8 milliards de paramètres entraîné sur plus de 8 billions de tokens et rigoureusement évalué sur différentes tâches avec des longueurs de contexte intra-domaines et hors-domaines pour démontrer sa capacité à gérer des contextes ultra-longs. Les résultats montrent que notre modèle obtient des performances comparables aux modèles de référence utilisant l'attention complète sur les longueurs intra-domaines, tout en atteignant une précision supérieure à 90 % sur la plupart des tâches de recherche en contexte avec des contextes allant jusqu'à 16 millions de tokens. Ce rapport présente nos conclusions expérimentales et les problèmes ouverts, contribuant à poser une base pour les futures recherches sur la modélisation de contextes ultra-longs.
La distillation de modèles de diffusion est apparue comme une technique puissante pour créer des générateurs efficaces en quelques étapes, voire en une seule étape. Parmi celles-ci, la Distillation par Appariement de Distributions (DMD) et ses variantes se distinguent par leurs performances impressionnantes, largement attribuées à leur mécanisme central d'appariement de la distribution de sortie de l'élève avec celle d'un modèle enseignant pré-entraîné. Dans ce travail, nous remettons en question cette compréhension conventionnelle. Grâce à une décomposition rigoureuse de l'objectif d'entraînement DMD, nous révélons que pour des tâches complexes comme la génération d'images à partir de texte, où le CFG est généralement requis pour des performances satisfaisantes en peu d'étapes, le principal moteur de la distillation en peu d'étapes n'est pas l'appariement des distributions, mais une composante jusqu'alors négligée que nous identifions comme l'Augmentation par CFG (CA). Nous démontrons que ce terme agit comme le « moteur » central de la distillation, tandis que le terme d'Appariement de Distributions (DM) fonctionne comme un « régularisateur » qui assure la stabilité de l'entraînement et atténue les artéfacts. Nous validons ensuite cette dissociation en montrant que si le terme DM est un régularisateur très efficace, il n'est pas unique ; des contraintes non paramétriques plus simples ou des objectifs basés sur les GAN peuvent remplir la même fonction de stabilisation, bien qu'avec des compromis différents. Cette dissociation des rôles motive une analyse plus fondamentale des propriétés des deux termes, conduisant à une compréhension plus systématique et approfondie. Cette nouvelle compréhension nous permet en outre de proposer des modifications raisonnées au processus de distillation, telles que la dissociation des échelles de bruit pour le moteur et le régularisateur, entraînant des gains de performances supplémentaires. Notamment, notre méthode a été adoptée par le projet Z-Image ( https://github.com/Tongyi-MAI/Z-Image ) pour développer un modèle de génération d'images de premier plan en seulement 8 étapes, validant empiriquement la généralisation et la robustesse de nos résultats.
Les modèles de langage (LM) peuvent-ils affiner leurs propres réponses ? Cette question devient de plus en plus pertinente étant donné qu'une grande variété d'interactions utilisateurs réelles impliquent des demandes de raffinement. Cependant, les études antérieures ont largement testé les capacités de raffinement des LM sur des tâches vérifiables, comme les mathématiques de compétition ou le raisonnement symbolique avec des échafaudages simplifiés, alors que les utilisateurs posent souvent des questions ouvertes et fournissent des retours d'information à divers degrés sur ce qu'ils souhaitent. L'émergence récente de modèles de raisonnement qui présentent des schémas d'autoréflexion dans leurs chaînes de pensée motive davantage cette question. Pour analyser ce phénomène, nous présentons RefineBench, un benchmark de 1 000 problèmes complexes répartis sur 11 domaines, couplé à un cadre d'évaluation basé sur une liste de contrôle. Nous évaluons deux modes de raffinement : (1) le raffinement guidé, où un LM reçoit un retour en langage naturel, et (2) l'auto-raffinement, où les LM tentent de s'améliorer sans guidance. Dans le cadre de l'auto-raffinement, même les LM de pointe tels que Gemini 2.5 Pro et GPT-5 n'obtiennent que des scores de base modestes de 31,3 % et 29,1 % respectivement, et la plupart des modèles ne parviennent pas à s'améliorer de manière constante au fil des itérations (par exemple, Gemini-2.5-Pro ne gagne que +1,8 %, tandis que DeepSeek-R1 régresse de -0,1 %). En revanche, dans le raffinement guidé, les LM propriétaires et les LM open-weight de grande taille (>70B) peuvent exploiter un retour ciblé pour affiner leurs réponses jusqu'à des niveaux quasi parfaits en cinq tours. Ces résultats suggèrent que des avancées majeures sont nécessaires pour que les LM de pointe puissent auto-raffiner leurs réponses incorrectes, et que RefineBench constitue un banc d'essai précieux pour suivre les progrès.
Le déploiement efficace de petits modèles de langage (SLM) est essentiel pour de nombreuses applications réelles soumises à des contraintes de latence strictes. Si les travaux antérieurs sur la conception des SLM se sont principalement concentrés sur la réduction du nombre de paramètres pour obtenir des SLM optimaux en termes de paramètres, l'efficacité paramétrique ne se traduit pas nécessairement par des accélérations proportionnelles sur les appareils réels. Ce travail vise à identifier les déterminants clés de la latence des SLM sur appareils réels et à proposer des principes et méthodologies généralisables pour la conception et l'entraînement des SLM lorsque la latence réelle est la considération primordiale. Plus précisément, nous identifions deux facteurs architecturaux centraux : les ratios profondeur-largeur et les choix d'opérateurs. Le premier est crucial pour la latence avec de petites tailles de lot, tandis que le second affecte à la fois la latence et le débit avec de grandes tailles de lot. À la lumière de cela, nous étudions d'abord les ratios profondeur-largeur optimaux pour la latence, avec pour conclusion principale que bien que les modèles profonds et étroits obtiennent généralement une meilleure précision sous un budget paramétrique identique, ils peuvent ne pas se situer sur la frontière d'optimisation précision-latence. Ensuite, nous explorons des alternatives émergentes d'attention efficace pour évaluer leur potentiel en tant qu'opérateurs de construction candidats. En utilisant les opérateurs prometteurs identifiés, nous construisons un cadre de recherche évolutive pour découvrir automatiquement les combinaisons optimales de ces opérateurs en termes de latence au sein de SLM hybrides, faisant ainsi progresser la frontière précision-latence. Outre les améliorations architecturales, nous optimisons davantage l'entraînement des SLM en utilisant une technique de normalisation des poids qui permet des mises à jour plus efficaces des poids et améliore la convergence finale. En combinant ces méthodes, nous présentons une nouvelle famille de SLM hybrides, appelée Nemotron-Flash, qui fait significativement progresser la frontière précision-efficacité des SLM de pointe, par exemple en atteignant une précision moyenne supérieure de plus de 5,5 %, une latence réduite d'un facteur 1,3/1,9 et un débit multiplié par 18,7/45,6 par rapport à Qwen3-1.7B/0.6B, respectivement.
Les moteurs de monde visent à synthétiser des vidéos longues et 3D-consistantes permettant l'exploration interactive d'une scène selon un mouvement de caméra contrôlé par l'utilisateur. Cependant, les systèmes existants peinent à gérer les trajectoires 6-DoF agressives et les configurations extérieures complexes : ils perdent la cohérence géométrique à longue portée, dévient de la trajectoire cible ou s'effondrent en un mouvement excessivement conservateur. Pour pallier cela, nous présentons Captain Safari, un moteur de monde conditionné par la pose qui génère des vidéos en effectuant des requêtes dans une mémoire mondiale persistante. Étant donné une trajectoire de caméra, notre méthode maintient une mémoire locale dynamique et utilise un système de récupération pour extraire des tokens mondiaux alignés sur la pose, qui conditionnent ensuite la génération vidéo le long de la trajectoire. Cette conception permet au modèle de maintenir une structure 3D stable tout en exécutant avec précision des manœuvres de caméra complexes. Pour évaluer ce cadre, nous constituons OpenSafari, un nouveau jeu de données FPV en conditions réelles contenant des vidéos de drone à haute dynamique avec des trajectoires de caméra vérifiées, construit via un pipeline de validation géométrique et cinématique en plusieurs étapes. En termes de qualité vidéo, de cohérence 3D et de suivi de trajectoire, Captain Safari surpasse substantiellement les générateurs contrôlés par caméra de l'état de l'art. Il réduit le MEt3R de 0,3703 à 0,3690, améliore l'AUC@30 de 0,181 à 0,200 et produit un FVD nettement inférieur à toutes les méthodes de référence. Plus important encore, dans une étude humaine à 50 participants et 5 modèles où les annotateurs sélectionnent le meilleur résultat parmi cinq modèles anonymisés, 67,6 % des préférences favorisent notre méthode sur tous les axes. Nos résultats démontrent que la mémoire mondiale conditionnée par la pose est un mécanisme puissant pour la génération vidéo contrôlée à long terme et proposent OpenSafari comme un nouveau benchmark exigeant pour la recherche future sur les moteurs de monde.
Dans un monde globalisé, les éléments culturels de diverses origines apparaissent fréquemment ensemble au sein d'une même scène visuelle. Nous qualifions ces situations de scénarios de mixité culturelle, mais la manière dont les Grands Modèles Vision-Langage (LVLM) les perçoivent reste peu explorée. Nous étudions la mixité culturelle comme un défi critique pour les LVLM et examinons comment les modèles actuels se comportent lorsque des éléments culturels de multiples régions apparaissent ensemble. Pour analyser systématiquement ces comportements, nous construisons CultureMix, un benchmark de Question-Réponse Visuelle (VQA) sur l'alimentation comprenant 23 000 images de mixité culturelle générées par diffusion et vérifiées par des humains, réparties en quatre sous-tâches : (1) nourriture seule, (2) nourriture+nourriture, (3) nourriture+arrière-plan, et (4) nourriture+nourriture+arrière-plan. En évaluant 10 LVLM, nous constatons des échecs constants à préserver les identités culturelles individuelles dans des contextes mixtes. Les modèles montrent une forte dépendance à l'arrière-plan, avec une précision chutant de 14 % lorsque des arrière-plans culturels sont ajoutés aux bases de référence de nourriture seule, et ils produisent des prédictions incohérentes pour des aliments identiques dans différents contextes. Pour remédier à ces limitations, nous explorons trois stratégies de robustesse. Nous constatons qu'un fine-tuning supervisé utilisant un jeu de données diversifié de mixité culturelle améliore substantiellement la cohérence des modèles et réduit leur sensibilité à l'arrière-plan. Nous appelons à une attention accrue portée aux scénarios de mixité culturelle comme une étape cruciale vers le développement de LVLM capables de fonctionner de manière fiable dans des environnements réels culturellement diversifiés.
Les modèles de langage de grande taille multimodaux (MLLM) ont démontré un potentiel immense dans de nombreuses spécialités médicales ; pourtant, la dentisterie reste peu explorée, en partie à cause du manque de données spécifiques au domaine, de la rareté des annotations d'experts dentaires, d'une modélisation insuffisante des modalités et des défis liés à la fiabilité. Dans cet article, nous présentons OralGPT-Omni, le premier MLLM spécialisé en dentisterie conçu pour une analyse complète et fiable sur diverses modalités d'imagerie dentaire et tâches cliniques. Pour capturer explicitement le raisonnement diagnostique des dentistes, nous construisons TRACE-CoT, un jeu de données de chaîne de pensée cliniquement fondé qui reflète les processus décisionnels des radiologistes dentaires. Cette supervision du raisonnement, combinée à notre paradigme d'entraînement en quatre étapes, renforce considérablement la capacité du modèle à comprendre et analyser les images dentaires. Parallèlement, nous introduisons MMOral-Uni, la première référence unifiée multimodale pour l'analyse d'images dentaires. Elle comprend 2 809 paires de questions-réponses ouvertes couvrant cinq modalités et cinq tâches, offrant à ce jour la suite d'évaluation la plus complète pour les MLLM en dentisterie numérique. OralGPT-Omni obtient un score global de 51,84 sur la référence MMOral-Uni et 45,31 sur la référence MMOral-OPG, surpassant considérablement les scores de GPT-5. Notre travail promeut la dentisterie intelligente et ouvre la voie aux futures avancées dans l'analyse d'images dentaires. Tous les codes, références et modèles seront rendus publics.
L'observation de certaines régions dans une image réduit l'incertitude des autres. Leur réalisation diminue l'entropie de distribution de chaque caractéristique de région restante, de manière analogue à la réduction de la fonction d'onde d'une particule en mécanique quantique. Ce phénomène peut intuitivement être appelé effondrement des régions. Pour identifier quelles régions sont les plus déterminantes lors de l'effondrement d'une région cible, nous entraînons un autoencodeur qui sélectionne souplement un sous-ensemble de régions pour reconstruire chaque région cible. La représentation graphique de ces dépendances apprises pour le score PageRank de chaque région révèle l'ordre optimal de réalisation d'une image. Nous démontrons que le respect de cet ordre bénéficie à diverses méthodes de modélisation d'images masquées. Premièrement, la génération autoregressive d'images peut être améliorée en réentraînant le modèle MAR state-of-the-art. Ensuite, nous introduisons une nouvelle configuration pour la classification d'images en n'exposant les Vision Transformers qu'aux régions de haut rang dans l'ordre d'effondrement. L'observation de 22 % de ces régions suffit à atteindre une haute précision. Par ces expériences, nous proposons l'effondrement des régions comme nouvelle perspective de modélisation d'images favorisant l'efficacité visuelle. Notre projet est disponible à l'adresse https://github.com/wguo-ai/CoP .
Les grands modèles de langage récents obtiennent de solides performances en raisonnement en générant des traces détaillées de raisonnement en chaîne (chain-of-thought), mais cela entraîne souvent une consommation excessive de tokens et une latence d'inférence élevée. Les approches existantes pour améliorer l'efficacité se concentrent généralement sur des interventions centrées sur le modèle, comme l'apprentissage par renforcement ou le fine-tuning supervisé, pour réduire la verbosité. En revanche, nous proposons une approche non entraînée, centrée sur l'entrée. Inspirés par la psychologie cognitive, nous introduisons le Raisonnement en Chaîne Ciblé (F-CoT), qui sépare l'extraction d'informations du processus de raisonnement. F-CoT organise d'abord les informations essentielles d'une requête dans un contexte structuré et concis, puis guide le modèle pour qu'il raisonne exclusivement sur ce contexte. En empêchant l'attention de se porter sur des détails non pertinents, F-CoT produit naturellement des chemins de raisonnement plus courts. Sur des problèmes arithmétiques formulés en langage naturel, F-CoT réduit le nombre de tokens générés par 2 à 3 tout en maintenant une précision comparable à celle du CoT standard sans apprentissage (zero-shot). Ces résultats soulignent que la structuration de l'entrée est un levier simple mais efficace pour un raisonnement plus efficient des grands modèles de langage.
Les légendes d'images servent de substituts efficaces au contenu visuel dans les systèmes multimodaux tels que la recherche, la recommandation et les pipelines d'inférence agentique multi-étapes. Pourtant, les pratiques d'évaluation actuelles négligent une question fondamentale : Les légendes peuvent-elles remplacer les images dans les tâches en aval réelles ? Nous proposons un benchmark utilitaire, CaptionQA, pour évaluer les légendes générées par les modèles, où la qualité d'une légende est mesurée par sa capacité à soutenir les tâches en aval. CaptionQA est un benchmark extensible et dépendant du domaine couvrant 4 domaines – Naturel, Document, Commerce électronique et IA incarnée – chacun avec des taxonomies granulaires (25 catégories principales et 69 sous-catégories) qui identifient les informations utiles pour les tâches spécifiques à un domaine. CaptionQA construit 33 027 questions à choix multiples annotées de manière dense (50,3 par image en moyenne) qui nécessitent explicitement des informations visuelles pour y répondre, offrant ainsi une sonde complète de l'utilité des légendes. Dans notre protocole d'évaluation, un LLM répond à ces questions en utilisant uniquement les légendes, mesurant directement si les légendes préservent l'utilité au niveau de l'image et sont utilisables par un LLM en aval. L'évaluation des MLLM de pointe révèle des écarts substantiels entre l'image et l'utilité de sa légende. Notamment, des modèles quasi identiques sur les benchmarks traditionnels de question-réponse sur images voient leur utilité en tant que légende chuter jusqu'à 32 %. Nous publions CaptionQA ainsi qu'un pipeline open-source pour son extension à de nouveaux domaines. Le code est disponible à l'adresse https://github.com/bronyayang/CaptionQA.
Une méthode courante pour améliorer les modèles de diffusion lors des tests, afin que les échantillons obtiennent un score élevé selon une récompense spécifiée par l'utilisateur, consiste à introduire le gradient de cette récompense dans la dynamique de la diffusion elle-même. Cette procédure est souvent mal posée, car les récompenses spécifiées par l'utilisateur ne sont généralement bien définies que sur la distribution de données en fin de génération. Alors que les solutions habituelles à ce problème utilisent un débruiteur pour estimer ce qu'un échantillon aurait été en fin de génération, nous proposons une solution simple en travaillant directement avec une application de flot. En exploitant une relation entre l'application de flot et le champ de vitesse gouvernant le transport instantané, nous construisons un algorithme, Flow Map Trajectory Tilting (FMTT), qui réalise théoriquement une meilleure ascension de la récompense que les méthodes standards de test impliquant le gradient de la récompense. L'approche peut être utilisée pour effectuer un échantillonnage exact par pondération d'importance ou une recherche fondée qui identifie les maximiseurs locaux de la distribution pondérée par la récompense. Nous démontrons l'efficacité de notre approche par rapport à d'autres techniques de prévision et montrons comment l'application de flot permet d'utiliser des fonctions de récompense complexes, rendant possibles de nouvelles formes de retouche d'image, par exemple en interagissant avec des modèles de vision et langage.
Les modèles de traitement du langage multimodal (MLLM) sont de plus en plus déployés dans des environnements réels où les résultats doivent non seulement être corrects, mais également conformes à des schémas de données prédéfinis. Malgré les progrès récents en génération structurée dans le domaine textuel, il n'existe toujours pas de benchmark évaluant systématiquement l'extraction d'informations ancrée dans des schémas et le raisonnement sur des entrées visuelles. Dans ce travail, nous menons une étude approfondie des capacités de production de sorties structurelles visuelles des MLLM avec notre benchmark SO-Bench soigneusement conçu. Couvrant quatre domaines visuels, incluant les interfaces utilisateur, les images naturelles, les documents et les graphiques, SO-Bench est construit à partir de plus de 6 500 schémas JSON variés et de 1 800 paires image-schéma vérifiées manuellement. Les expériences de benchmark sur des modèles open-source et propriétaires de pointe révèlent des écarts persistants dans la prédiction de résultats précis et conformes aux schémas, soulignant la nécessité d'un meilleur raisonnement structurel multimodal. Au-delà de l'évaluation comparative, nous menons des expériences d'entraînement qui améliorent considérablement la capacité de production structurée des modèles. Nous prévoyons de mettre ce benchmark à disposition de la communauté scientifique.
Nous présentons Split-then-Merge (StM), un nouveau cadre conçu pour améliorer le contrôle dans la composition vidéo générative et résoudre son problème de pénurie de données. Contrairement aux méthodes conventionnelles qui reposent sur des ensembles de données annotés ou des règles prédéfinies, StM divise un large corpus de vidéos non étiquetées en couches dynamiques de premier plan et d'arrière-plan, puis les recompose de manière autonome pour apprendre comment les sujets dynamiques interagissent avec des scènes diverses. Ce processus permet au modèle d'apprendre les dynamiques compositionnelles complexes nécessaires à la génération de vidéos réalistes. StM introduit une nouvelle pipeline d'entraînement sensible aux transformations qui utilise une fusion et une augmentation multicouches pour parvenir à une composition tenant compte des affordances, ainsi qu'une fonction de perte de préservation de l'identité qui maintient la fidélité du premier plan lors du mélange. Les expériences montrent que StM surpasse les méthodes de l'état de l'art à la fois dans les benchmarks quantitatifs et dans les évaluations qualitatives basées sur des juges humains et des modèles de langage de grande taille. Plus de détails sont disponibles sur notre page de projet : https://split-then-merge.github.io.
Si les modèles de langage multimodaux (MLLM) sont habiles à répondre à la question de savoir ce qui se trouve dans une image - en identifiant les objets et en décrivant les scènes - ils manquent souvent de la capacité à comprendre comment une image est perçue par un observateur humain. Cet écart est plus évident lorsqu'on considère des propriétés cognitives subjectives, comme ce qui rend une image mémorable, amusante, esthétiquement plaisante ou évocatrice d'émotions. Pour relever systématiquement ce défi, nous présentons CogIP-Bench, un benchmark complet pour évaluer les MLLM sur ces propriétés cognitives des images. Notre évaluation révèle un écart significatif : les modèles actuels sont faiblement alignés avec la perception humaine de ces propriétés nuancées. Nous démontrons ensuite qu'une phase de post-entraînement peut efficacement combler cet écart, améliorant significativement l'alignement du modèle avec les jugements humains. De plus, nous montrons que cet alignement cognitif appris n'est pas seulement prédictif mais aussi transférable à des tâches créatives en aval. En intégrant notre MLLM cognitivement aligné dans un pipeline de génération d'images, nous pouvons guider le processus de synthèse pour produire des images qui incarnent mieux les traits souhaités, comme être plus mémorables ou visuellement attrayantes. Notre travail fournit un benchmark pour mesurer cette perception humanoïde, un pipeline de post-entraînement pour l'améliorer, et une démonstration que cet alignement ouvre la voie à une IA plus centrée sur l'humain.
La génération d'images guidée par référence a progressé rapidement, mais les modèles de diffusion actuels peinent encore à préserver les détails visuels fins lors du raffinement d'une image générée à l'aide d'une référence. Cette limitation provient du fait que la compression latente basée sur les VAE supprime intrinsèquement les informations texturales subtiles, entraînant la disparition d'indices liés à l'identité et aux attributs. De plus, les approches de post-édition qui amplifient les détails locaux à partir de méthodes existantes produisent souvent des résultats incohérents avec l'image originale en termes d'éclairage, de texture ou de forme. Pour y remédier, nous présentons , un cadre de raffinement sensible aux détails qui effectue deux étapes consécutives de correction pilotée par référence pour améliorer la cohérence au niveau pixel. Nous adaptons d’abord un éditeur de diffusion à image unique en le fine-tunant pour qu'il intègre conjointement l'image brouillon et l'image de référence, permettant un raffinement globalement cohérent tout en préservant la fidélité structurelle. Nous appliquons ensuite un apprentissage par renforcement pour renforcer davantage la capacité d'édition localisée, en optimisant explicitement la précision des détails et la cohérence sémantique. Des expériences approfondies démontrent que améliore significativement l'alignement sur la référence et la préservation des détails fins, produisant des éditions fidèles et visuellement cohérentes qui surpassent les modèles open-source et commerciaux sur des benchmarks exigeants de restauration guidée par référence.
Ce document présente un nouveau cadre de type Mixture-of-Experts pour la détection d'objets, intégrant un routage adaptatif entre plusieurs experts YOLOv9-T afin de permettre une spécialisation dynamique des caractéristiques et d'atteindre une précision moyenne (mAP) et un rappel moyen (AR) supérieurs à ceux d'un modèle YOLOv9-T unique.
Les modèles de diffusion ont atteint une qualité générative impressionnante sur diverses modalités comme les images 2D, les vidéos et les formes 3D, mais leur inférence reste coûteuse en calcul en raison du processus de débruîtage itératif. Bien que des méthodes récentes basées sur la mise en cache réutilisent efficacement les calculs redondants pour accélérer la génération 2D et vidéo, leur application directe aux modèles de diffusion 3D peut gravement perturber la cohérence géométrique. Dans la synthèse 3D, même de légères erreurs numériques dans les caractéristiques latentes mises en cache s'accumulent, provoquant des artéfacts structurels et des incohérences topologiques. Pour surmonter cette limite, nous proposons Fast3Dcache, un cadre de mise en cache géométrique sans apprentissage qui accélère l'inférence des modèles de diffusion 3D tout en préservant la fidélité géométrique. Notre méthode introduit une Contrainte d'Ordonnancement de Cache Prédictif (PCSC) pour déterminer dynamiquement les quotas de cache selon les motifs de stabilisation des voxels, et un Critère de Stabilité Spatiotemporelle (SSC) pour sélectionner les caractéristiques stables à réutiliser sur la base de la magnitude de vélocité et d'un critère d'accélération. Des expériences complètes montrent que Fast3Dcache accélère significativement l'inférence, atteignant jusqu'à 27,12 % d'accélération et une réduction de 54,8 % des FLOPs, avec une dégradation minimale de la qualité géométrique mesurée par la Distance de Chamfer (2,48 %) et le F-Score (1,95 %).
Nous abordons le défi de la détection d'anomalies rares et diverses dans les vidéos de surveillance en utilisant uniquement une supervision au niveau vidéo. Notre architecture à double backbone combine les représentations convolutionnelles et transformers via un pooling top-k, atteignant 90,7% d'aire sous la courbe (AUC) sur le jeu de données UCF-Crime.
L'imagerie par résonance magnétique (IRM) haute résolution (HR) est cruciale pour de nombreuses applications cliniques et de recherche. Cependant, son obtention reste coûteuse et contrainte par des compromis techniques et des limitations expérimentales. La super-résolution (SR) constitue une approche computationnelle prometteuse pour surmonter ces défis en générant des images HR à partir d'acquisitions basse résolution (LR) plus abordables, améliorant potentiellement la précision et l'efficacité du diagnostic sans nécessiter de matériel supplémentaire. Cette synthèse passe en revue les progrès récents des techniques de SR pour l'IRM, en mettant l'accent sur les approches par apprentissage profond (DL). Elle examine les méthodes de SR-IRM basées sur le DL sous les angles de la vision par ordinateur, de l'imagerie computationnelle, des problèmes inverses et de la physique de l'IRM, couvrant les fondements théoriques, les conceptions architecturales, les stratégies d'apprentissage, les jeux de données de référence et les métriques de performance. Nous proposons une taxonomie systématique pour catégoriser ces méthodes et présentons une étude approfondie des techniques de SR établies et émergentes applicables à l'IRM, en tenant compte des défis spécifiques aux contextes cliniques et de recherche. Nous soulignons également les défis ouverts et les orientations que la communauté doit aborder. De plus, nous fournissons une collection de ressources, d'outils et de tutoriels essentiels en accès libre, disponibles sur notre GitHub : https://github.com/mkhateri/Awesome-MRI-Super-Resolution. Mots-clés IEEE : IRM, Super-Résolution, Apprentissage Profond, Imagerie Computationnelle, Problème Inverse, Synthèse.
Nous proposons une stratégie de sélection d'images basée sur le regroupement en clusters pour atténuer la fuite d'information dans les jeux de données d'images dérivées de vidéos. En regroupant les images visuellement similaires avant leur division en ensembles d'entraînement, de validation et de test, cette méthode produit des partitions de jeux de données plus représentatives, équilibrées et fiables.
L'apprentissage fédéré (FL) permet un entraînement collaboratif entre clients sans compromettre la confidentialité. Bien que la plupart des méthodes existantes de FL supposent des architectures de modèles homogènes, l'hétérogénéité des clients en termes de données et de ressources rend cette hypothèse irréaliste, motivant ainsi le développement de FL à modèles hétérogènes. Pour résoudre ce problème, nous proposons Federated Representation Entanglement (FedRE), un cadre fondé sur une nouvelle forme de connaissance client appelée représentation entrelacée. Dans FedRE, chaque client agrège ses représentations locales en une seule représentation entrelacée en utilisant des poids aléatoires normalisés, et applique les mêmes poids pour intégrer les encodages d'étiquettes one-hot correspondants dans un encodage d'étiquette entrelacée. Ceux-ci sont ensuite téléversés sur le serveur pour entraîner un classifieur global. Durant l'entraînement, chaque représentation entrelacée est supervisée across les catégories via son encodage d'étiquette entrelacée, tandis que les poids aléatoires sont rééchantillonnés à chaque round pour introduire de la diversité, atténuant la surconfiance du classifieur global et favorisant des frontières de décision plus lisses. De plus, chaque client téléverse une seule représentation entrelacée transversale aux catégories ainsi que son encodage d'étiquette entrelacée, réduisant ainsi le risque d'attaques par inversion de représentation et diminuant la surcharge de communication. Des expériences approfondies démontrent que FedRE atteint un compromis efficace entre performance du modèle, protection de la vie privée et surcharge de communication. Les codes sont disponibles à l'adresse https://github.com/AIResearch-Group/FedRE.