papers.description
Les modèles vision-langage-action (VLA) ont récemment démontré un fort potentiel pour permettre aux robots de suivre des instructions linguistiques et d'exécuter des actions précises. Cependant, la plupart des VLA sont construits sur des modèles vision-langage pré-entraînés uniquement sur des données 2D, ce qui limite leur conscience spatiale précise et entrave leur capacité à opérer dans le monde physique en 3D. Les solutions existantes tentent d'intégrer des entrées explicites de capteurs 3D, telles que des cartes de profondeur ou des nuages de points, mais ces approches rencontrent des défis liés au bruit des capteurs, à l'hétérogénéité du matériel et à la couverture incomplète de la profondeur dans les jeux de données existants. Les méthodes alternatives qui estiment des indices 3D à partir d'images 2D souffrent également des performances limitées des estimateurs de profondeur. Nous proposons le Forçage Spatial (SF), une stratégie d'alignement simple mais efficace qui force implicitement les modèles VLA à développer des capacités de compréhension spatiale sans s'appuyer sur des entrées 3D explicites ou des estimateurs de profondeur. SF aligne les embeddings visuels intermédiaires des VLA avec des représentations géométriques produites par des modèles de fondation 3D pré-entraînés. En imposant un alignement au niveau des couches intermédiaires, SF guide les VLA à encoder des représentations spatiales plus riches, améliorant ainsi la précision des actions. Des expériences approfondies en simulation et dans des environnements réels démontrent que SF atteint des résultats de pointe, surpassant à la fois les VLA basés sur des données 2D et 3D. SF accélère en outre l'entraînement jusqu'à 3,8 fois et améliore l'efficacité des données pour diverses tâches robotiques. La page du projet est disponible à l'adresse suivante : https://spatial-forcing.github.io/
Les modèles génératifs dans l'espace des pixels sont souvent plus difficiles à entraîner et sous-performent généralement par rapport à leurs homologues dans l'espace latent, laissant persister un écart de performance et d'efficacité. Dans cet article, nous introduisons un nouveau cadre d'entraînement en deux étapes qui comble cet écart pour les modèles de diffusion et de cohérence dans l'espace des pixels. Dans la première étape, nous pré-entraînons des encodeurs pour capturer des sémantiques significatives à partir d'images propres tout en les alignant avec des points le long de la même trajectoire d'échantillonnage déterministe, qui évolue les points de la distribution a priori vers la distribution des données. Dans la seconde étape, nous intégrons l'encodeur avec un décodeur initialisé aléatoirement et affinons le modèle complet de bout en bout pour les modèles de diffusion et de cohérence. Notre cadre d'entraînement démontre une forte performance empirique sur le jeu de données ImageNet. Plus précisément, notre modèle de diffusion atteint un FID de 2,04 sur ImageNet-256 et de 2,35 sur ImageNet-512 avec 75 évaluations de fonction (NFE), surpassant largement les méthodes précédentes dans l'espace des pixels en termes de qualité de génération et d'efficacité, tout en rivalisant avec les modèles basés sur VAE à un coût d'entraînement comparable. De plus, sur ImageNet-256, notre modèle de cohérence atteint un FID impressionnant de 8,82 en une seule étape d'échantillonnage, surpassant significativement son homologue dans l'espace latent. À notre connaissance, cela marque le premier entraînement réussi d'un modèle de cohérence directement sur des images haute résolution sans recourir à des VAE ou des modèles de diffusion pré-entraînés.
Les grands modèles de langage (LLMs) ont considérablement fait progresser la traduction automatique (MT), mais leur efficacité dans la traduction de romans web reste incertaine. Les benchmarks existants reposent sur des métriques superficielles qui ne parviennent pas à capturer les traits distinctifs de ce genre. Pour combler ces lacunes, nous introduisons DITING, le premier cadre d'évaluation complet pour la traduction de romans web, évaluant la fidélité narrative et culturelle à travers six dimensions : la traduction des idiomes, l'ambiguïté lexicale, la localisation des termes, la cohérence des temps, la résolution des pronoms zéro et la sécurité culturelle, soutenu par plus de 18 000 paires de phrases chinois-anglais annotées par des experts. Nous proposons également AgentEval, un cadre d'évaluation multi-agent basé sur le raisonnement qui simule la délibération d'experts pour évaluer la qualité de la traduction au-delà de la simple correspondance lexicale, atteignant la plus forte corrélation avec les jugements humains parmi sept métriques automatiques testées. Pour permettre la comparaison des métriques, nous développons MetricAlign, un ensemble de données méta-évaluation de 300 paires de phrases annotées avec des étiquettes d'erreur et des scores de qualité scalaires. Une évaluation complète de quatorze modèles ouverts, fermés et commerciaux révèle que les LLMs entraînés en chinois surpassent leurs homologues étrangers plus volumineux, et que DeepSeek-V3 fournit les traductions les plus fidèles et cohérentes sur le plan stylistique. Notre travail établit un nouveau paradigme pour explorer la traduction de romans web basée sur les LLMs et fournit des ressources publiques pour faire avancer les recherches futures.
Les approches récentes d'incorporation multimodale exploitant des modèles de langage multimodaux de grande taille (MLLMs) affinés par apprentissage contrastif (CL) ont montré des résultats prometteurs, mais les raisons sous-jacentes de leur supériorité restent peu explorées. Ce travail soutient qu'un avantage crucial des approches basées sur les MLLMs découle de l'alignement intermodal implicite réalisé lors du pré-entraînement génératif, où le décodeur de langage apprend à exploiter les signaux multimodaux dans un espace de représentation partagé pour générer des sorties unimodales. À travers l'analyse de l'anisotropie et de la structure de similarité du noyau, nous confirmons empiriquement qu'un alignement latent émerge dans les représentations des MLLMs, permettant au CL de servir comme une étape de raffinement légère. En tirant parti de cette observation, nous proposons un cadre d'incorporation omnimodale centré sur le langage, nommé LCO-Emb. Des expériences approfondies sur divers modèles de base et benchmarks démontrent son efficacité, atteignant des performances de pointe à travers les modalités. De plus, nous identifions une loi d'échelle génération-représentation (GRSL), montrant que les capacités représentationnelles acquises par le raffinement contrastif évoluent positivement avec les capacités génératives du MLLM. Cela suggère que l'amélioration des capacités génératives constitue un paradigme efficace pour renforcer la qualité de la représentation. Nous fournissons une explication théorique de la GRSL, qui relie formellement la qualité générative du MLLM à la limite supérieure de ses performances représentationnelles, et la validons sur une tâche de recherche visuelle-documentaire difficile et à faible ressource, montrant qu'un pré-entraînement génératif continu avant le CL peut encore améliorer le potentiel des capacités d'incorporation d'un modèle. Les codes, modèles et ressources sont disponibles à l'adresse https://github.com/LCO-Embedding/LCO-Embedding.
L'apprentissage robotique est à un tournant, propulsé par les avancées rapides en apprentissage automatique et la disponibilité croissante de données robotiques à grande échelle. Ce passage des méthodes classiques basées sur des modèles à des paradigmes pilotés par les données et axés sur l'apprentissage débloque des capacités sans précédent dans les systèmes autonomes. Ce tutoriel explore le paysage de l'apprentissage robotique moderne, traçant un parcours allant des principes fondamentaux de l'apprentissage par renforcement et du clonage comportemental jusqu'aux modèles généralistes conditionnés par le langage, capables de fonctionner sur des tâches variées et même sur différentes incarnations robotiques. Ce travail se veut un guide pour les chercheurs et les praticiens, et notre objectif est de doter le lecteur de la compréhension conceptuelle et des outils pratiques nécessaires pour contribuer aux développements dans l'apprentissage robotique, avec des exemples prêts à l'emploi implémentés dans lerobot.
L'avancée des modèles de langage de grande taille (LLMs) a catalysé un changement de paradigme, passant de l'assistance à la génération de code à des agents de codage autonomes, permettant une nouvelle méthodologie de développement appelée « Vibe Coding », où les développeurs valident les implémentations générées par l'IA par l'observation des résultats plutôt que par une compréhension ligne par ligne du code. Malgré son potentiel transformateur, l'efficacité de ce paradigme émergent reste peu explorée, avec des preuves empiriques révélant des pertes de productivité inattendues et des défis fondamentaux dans la collaboration humain-IA. Pour combler cette lacune, cette étude propose la première revue complète et systématique du Vibe Coding avec des modèles de langage de grande taille, établissant à la fois des fondements théoriques et des cadres pratiques pour cette approche de développement transformative. S'appuyant sur une analyse systématique de plus de 1000 articles de recherche, nous examinons l'écosystème complet du Vibe Coding, en explorant les composants critiques de l'infrastructure, notamment les LLMs pour le codage, les agents de codage basés sur les LLMs, les environnements de développement des agents de codage et les mécanismes de rétroaction. Nous introduisons d'abord le Vibe Coding comme une discipline formelle en le formalisant à travers un Processus de Décision Markovien Contraint qui capture la relation triadique dynamique entre les développeurs humains, les projets logiciels et les agents de codage. Sur la base de ce fondement théorique, nous synthétisons ensuite les pratiques existantes en cinq modèles de développement distincts : l'Automatisation Non Contrainte, la Collaboration Conversationnelle Itérative, le Modèle Piloté par la Planification, le Modèle Piloté par les Tests et les Modèles Améliorés par le Contexte, offrant ainsi la première taxonomie complète dans ce domaine. De manière critique, notre analyse révèle que le succès du Vibe Coding dépend non seulement des capacités des agents, mais aussi de l'ingénierie systématique du contexte, des environnements de développement bien établis et des modèles de développement collaboratif humain-agent.
La détection d'objets a longtemps été dominée par des modèles traditionnels basés sur la régression de coordonnées, tels que YOLO, DETR et Grounding DINO. Bien que des efforts récents aient tenté d'exploiter les MLLM (Modèles de Langage Multimodaux) pour relever ce défi, ils se heurtent à des problèmes tels qu'un faible taux de rappel, des prédictions dupliquées, un désalignement des coordonnées, etc. Dans ce travail, nous comblons cette lacune et proposons Rex-Omni, un MLLM à l'échelle de 3 milliards de paramètres, qui atteint des performances de pointe en matière de perception d'objets. Sur des benchmarks comme COCO et LVIS, Rex-Omni obtient des performances comparables ou supérieures à celles des modèles basés sur la régression (par exemple, DINO, Grounding DINO) dans un cadre zero-shot. Cela est rendu possible grâce à trois conceptions clés : 1) Formulation de la tâche : nous utilisons des tokens spéciaux pour représenter des coordonnées quantifiées de 0 à 999, réduisant ainsi la difficulté d'apprentissage du modèle et améliorant l'efficacité des tokens pour la prédiction des coordonnées ; 2) Moteurs de données : nous construisons plusieurs moteurs de données pour générer des données de localisation, de référencement et de pointage de haute qualité, fournissant une supervision sémantiquement riche pour l'entraînement ; 3) Pipelines d'entraînement : nous employons un processus d'entraînement en deux étapes, combinant un fine-tuning supervisé sur 22 millions de données avec un post-entraînement par renforcement basé sur GRPO. Ce post-entraînement par renforcement exploite des récompenses géométriquement conscientes pour combler efficacement l'écart entre la prédiction de coordonnées discrètes et continues, améliorer la précision des boîtes et atténuer les comportements indésirables tels que les prédictions dupliquées, qui découlent de la nature guidée par l'enseignant de la phase initiale de fine-tuning supervisé. Au-delà de la détection conventionnelle, la compréhension linguistique inhérente de Rex-Omni permet des capacités polyvalentes telles que le référencement d'objets, le pointage, l'invite visuelle, la localisation d'interface graphique, le référencement spatial, la reconnaissance optique de caractères (OCR) et le pointage clé, toutes systématiquement évaluées sur des benchmarks dédiés. Nous croyons que Rex-Omni ouvre la voie à des systèmes de perception visuelle plus polyvalents et conscients du langage.
La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) est apparue comme un paradigme fondamental pour étendre les capacités des modèles de langage au-delà de leurs limites d’entraînement statiques. Cependant, un désalignement critique existe entre les capacités actuelles de RAG et les environnements d’information du monde réel. Les référentiels de connaissances modernes sont intrinsèquement multimodaux, contenant des combinaisons riches de contenu textuel, d’éléments visuels, de tableaux structurés et d’expressions mathématiques. Pourtant, les frameworks RAG existants se limitent au contenu textuel, créant des lacunes fondamentales lors du traitement de documents multimodaux. Nous présentons RAG-Anything, un framework unifié qui permet une récupération complète des connaissances à travers toutes les modalités. Notre approche reconceptualise le contenu multimodal en tant qu’entités de connaissances interconnectées plutôt que comme des types de données isolés. Le framework introduit une construction de graphes doubles pour capturer à la fois les relations intermodales et la sémantique textuelle dans une représentation unifiée. Nous développons une récupération hybride intermodale qui combine la navigation structurelle des connaissances avec l’appariement sémantique. Cela permet un raisonnement efficace sur un contenu hétérogène où les preuves pertinentes s’étendent sur plusieurs modalités. RAG-Anything démontre une performance supérieure sur des benchmarks multimodaux exigeants, obtenant des améliorations significatives par rapport aux méthodes de pointe. Les gains de performance deviennent particulièrement marqués sur les documents longs où les approches traditionnelles échouent. Notre framework établit un nouveau paradigme pour l’accès multimodal aux connaissances, éliminant la fragmentation architecturale qui limite les systèmes actuels. Notre framework est open-source à l’adresse : https://github.com/HKUDS/RAG-Anything.
Les modèles de diffusion ont récemment fait progresser la restauration vidéo, mais leur application à la super-résolution vidéo (VSR) dans des contextes réels reste difficile en raison de la latence élevée, des calculs prohibitifs et de la mauvaise généralisation aux résolutions ultra-élevées. Notre objectif dans ce travail est de rendre la VSR basée sur la diffusion pratique en atteignant l'efficacité, la scalabilité et des performances en temps réel. Pour ce faire, nous proposons FlashVSR, le premier framework de streaming en une étape basé sur la diffusion pour la VSR en temps réel. FlashVSR fonctionne à environ 17 FPS pour des vidéos de 768x1408 sur une seule GPU A100 en combinant trois innovations complémentaires : (i) un pipeline de distillation en trois étapes adapté à l'entraînement qui permet la super-résolution en streaming, (ii) une attention parcimonieuse contrainte par la localité qui réduit les calculs redondants tout en comblant l'écart de résolution entre l'entraînement et les tests, et (iii) un décodeur conditionnel miniature qui accélère la reconstruction sans sacrifier la qualité. Pour soutenir l'entraînement à grande échelle, nous avons également construit VSR-120K, un nouveau jeu de données contenant 120 000 vidéos et 180 000 images. Des expériences approfondies montrent que FlashVSR s'adapte de manière fiable aux résolutions ultra-élevées et atteint des performances de pointe avec une accélération allant jusqu'à 12x par rapport aux modèles de VSR en une étape basés sur la diffusion précédents. Nous publierons le code, les modèles pré-entraînés et le jeu de données pour favoriser les recherches futures sur la VSR efficace basée sur la diffusion.
Les modèles de diffusion ont obtenu un succès remarquable en tant que modèles génératifs. Cependant, même un modèle bien entraîné peut accumuler des erreurs tout au long du processus de génération. Ces erreurs deviennent particulièrement problématiques lorsqu'un guidage arbitraire est appliqué pour orienter les échantillons vers des propriétés souhaitées, ce qui compromet souvent la fidélité des échantillons. Dans cet article, nous proposons une solution générale pour remédier au phénomène hors variété observé dans les modèles de diffusion. Notre approche utilise un prédicteur temporel pour estimer les écarts par rapport à la variété de données souhaitée à chaque pas de temps, identifiant qu'un écart temporel plus important est associé à une qualité de génération réduite. Nous concevons ensuite un nouveau mécanisme de guidage, appelé `Guidage par Alignement Temporel' (TAG), qui attire les échantillons vers la variété souhaitée à chaque pas de temps pendant la génération. À travers des expériences approfondies, nous démontrons que TAG produit systématiquement des échantillons étroitement alignés avec la variété souhaitée à chaque pas de temps, conduisant à des améliorations significatives de la qualité de génération dans diverses tâches en aval.
Les modèles de langage de grande taille (LLMs) traitent chaque jeton à travers toutes les couches d'une pile de transformateurs, entraînant un gaspillage de calcul pour les requêtes simples et une flexibilité insuffisante pour les requêtes plus complexes nécessitant un raisonnement approfondi. Les méthodes à profondeur adaptative peuvent améliorer l'efficacité, mais les approches précédentes reposent sur une recherche coûteuse au moment de l'inférence, des modifications architecturales ou un réentraînement à grande échelle, et en pratique, elles dégradent souvent la précision malgré les gains d'efficacité. Nous présentons Dr.LLM, Dynamic routing of Layers for LLMs, un cadre rétrofitable qui équipe les modèles préentraînés de routeurs légers par couche décidant de sauter, d'exécuter ou de répéter un bloc. Les routeurs sont entraînés avec une supervision explicite : en utilisant la recherche arborescente de Monte Carlo (MCTS), nous dérivons des configurations de couches de haute qualité qui préservent ou améliorent la précision sous un budget de calcul. Notre conception, incluant le regroupement par fenêtres pour un routage stable, la perte focale avec équilibrage des classes et les routeurs MLP à goulot d'étranglement, garantit la robustesse face au déséquilibre des classes et aux longues séquences. Sur ARC (logique) et DART (mathématiques), Dr.LLM améliore la précision jusqu'à +3,4% tout en économisant en moyenne 5 couches par exemple. Les routeurs généralisent à des tâches hors domaine (MMLU, GSM8k, AIME, TruthfulQA, SQuADv2, GPQA, PIQA, AGIEval) avec seulement une baisse de précision de 0,85% tout en conservant l'efficacité, et surpassent les méthodes de routage précédentes jusqu'à +7,7%. Globalement, Dr.LLM montre que des routeurs explicitement supervisés rétrofitent des LLMs figés pour une inférence consciente du budget et axée sur la précision sans altérer les poids de base.
Les avancées récentes dans l'intelligence artificielle incarnée mettent en lumière le potentiel des modèles de vision et de langage (VLMs) en tant qu'agents capables de perception, de raisonnement et d'interaction dans des environnements complexes. Cependant, les systèmes les plus performants reposent sur des modèles à grande échelle coûteux à déployer, tandis que les VLMs plus petits manquent des connaissances et des compétences nécessaires pour réussir. Pour combler cette lacune, nous présentons l'Agent de Raisonnement Incarné (ERA), un cadre en deux étapes qui intègre l'apprentissage de connaissances préalables et l'apprentissage par renforcement en ligne (RL). La première étape, l'Apprentissage Préalable Incarné, distille des connaissances fondamentales à partir de trois types de données : (1) les Connaissances Préalables Augmentées par Trajectoires, qui enrichissent les données de trajectoire existantes avec un raisonnement structuré généré par des modèles plus puissants ; (2) les Connaissances Préalables Ancrées dans l'Environnement, qui fournissent des connaissances et une supervision ancrées dans l'environnement ; et (3) les Connaissances Préalables Externes, qui transfèrent des connaissances générales à partir de jeux de données hors environnement. Dans la deuxième étape, nous développons un pipeline de RL en ligne qui s'appuie sur ces connaissances préalables pour améliorer davantage les performances de l'agent. Pour surmonter les défis inhérents au RL des agents, notamment les horizons temporels longs, les récompenses rares et l'instabilité de l'entraînement, nous introduisons trois conceptions clés : l'auto-résumé pour la gestion du contexte, la mise en forme de récompenses denses et l'optimisation de politique au niveau des tours. Des expériences approfondies sur des tâches de planification de haut niveau (EB-ALFRED) et de contrôle de bas niveau (EB-Manipulation) démontrent qu'ERA-3B surpasse à la fois les grands modèles basés sur l'invite et les précédentes méthodes d'entraînement. Plus précisément, il réalise des améliorations globales de 8,4 % sur EB-ALFRED et de 19,4 % sur EB-Manipulation par rapport à GPT-4o, et montre une forte généralisation à des tâches inédites. Globalement, ERA offre une voie pratique vers une intelligence incarnée évolutive, fournissant des insights méthodologiques pour les futurs systèmes d'IA incarnée.
Les modèles de langage de grande taille (LLMs) peuvent servir de modèles du monde pour améliorer la prise de décision des agents dans des environnements numériques en simulant des états futurs et en prédisant les résultats des actions, ce qui pourrait éliminer l'exploration coûteuse par essais et erreurs. Cependant, cette capacité est fondamentalement limitée par la tendance des LLMs à produire des hallucinations et leur dépendance à des connaissances statiques issues de l'entraînement, ce qui peut entraîner des erreurs cumulatives inhibant les simulations à long terme. Pour étudier systématiquement si les LLMs sont adaptés à la modélisation du monde, nous explorons deux capacités fondamentales des modèles du monde—la prédiction des états futurs et l'estimation des récompenses—à travers trois tâches : l'identification de l'état suivant, l'alignement de la planification de procédures complètes, et la reconnaissance des transitions de jalons. Notre analyse montre que si les LLMs capturent efficacement les états suivants immédiats et identifient des transitions d'état significatives, leurs performances se dégradent rapidement dans la planification de procédures complètes. Cela met en évidence les limites des LLMs dans la modélisation fiable de la dynamique des environnements sur de longues périodes. Pour pallier ces limites, nous proposons le Modèle du Monde Augmenté par Récupération (R-WoM), qui ancre les simulations des LLMs en intégrant des connaissances factuelles et actualisées extraites de tutoriels externes. Les expériences montrent que R-WoM réalise des améliorations substantielles allant jusqu'à 25,3 % (OSWorld) et 18,1 % (WebArena) par rapport aux modèles de référence, avec des avantages particuliers dans les simulations à plus long terme.
Récemment, des progrès remarquables ont été réalisés dans les Modèles Multimodaux Unifiés (MMU), qui intègrent des capacités de génération et de compréhension vision-langage au sein d'un même cadre. Cependant, un écart significatif persiste : la compréhension visuelle robuste d'un modèle ne se traduit souvent pas en une génération visuelle efficace. Un modèle peut correctement comprendre une image sur la base des instructions de l'utilisateur, mais être incapable de générer une image fidèle à partir de prompts textuels. Ce phénomène soulève directement une question intrigante : Un modèle peut-il s'auto-améliorer en utilisant son module de compréhension pour récompenser son module de génération ? Pour combler cet écart et parvenir à l'auto-amélioration, nous introduisons SRUM, un cadre de post-formation auto-récompensant qui peut être directement appliqué à des MMU existants de diverses conceptions. SRUM crée une boucle de rétroaction où le module de compréhension du modèle agit comme un « évaluateur » interne, fournissant des signaux correctifs pour améliorer son module de génération, sans nécessiter de données supplémentaires étiquetées par des humains. Pour garantir que cette rétroaction soit exhaustive, nous avons conçu un système de récompense duale globale-locale. Pour aborder la complexité structurelle inhérente des images, ce système offre un guidage multi-échelle : une récompense globale assure la justesse de la sémantique visuelle globale et de la disposition, tandis qu'une récompense locale affine la fidélité fine, au niveau des objets. SRUM confère des capacités puissantes et montre une forte généralisation, améliorant les performances sur T2I-CompBench de 82,18 à 88,37 et sur T2I-ReasonBench de 43,82 à 46,75. Globalement, notre travail établit un nouveau paradigme puissant permettant au module de compréhension d'un MMU de guider et d'améliorer sa propre génération via l'auto-récompense.
Bien que les progrès récents en génération visuelle soient remarquables, la plupart des architectures existantes dépendent encore d'encodeurs distincts pour les images et le texte. Cette séparation limite la capacité des modèles de diffusion à effectuer un raisonnement et un transfert de connaissances intermodaux. Les tentatives précédentes pour combler cet écart utilisent souvent les informations de la dernière couche d'un modèle de vision et langage (VLM), emploient plusieurs encodeurs visuels, ou entraînent conjointement de grands modèles unifiés pour la génération de texte et d'images, ce qui exige des ressources computationnelles substantielles et des données à grande échelle, limitant ainsi leur accessibilité. Nous présentons UniFusion, un modèle génératif basé sur la diffusion conditionné par un grand modèle de vision et langage (VLM) figé, qui sert d'encodeur multimodal unifié. Au cœur d'UniFusion se trouve le mécanisme de Pooling d'Attention par Couches (LAP), qui extrait à la fois des sémantiques de haut niveau et des détails de bas niveau à partir des tokens textuels et visuels d'un VLM figé pour conditionner un modèle génératif de diffusion. Nous démontrons que LAP surpasse d'autres architectures de fusion superficielle en termes d'alignement texte-image pour la génération et de transfert fidèle d'informations visuelles du VLM au modèle de diffusion, ce qui est essentiel pour l'édition. Nous proposons l'Injection de Réécriture Activée par VLM avec Inférence Flexible (VERIFI), qui conditionne un transformeur de diffusion (DiT) uniquement sur les tokens textuels générés par le VLM lors de la réécriture de l'invite dans le modèle. VERIFI combine l'alignement de la distribution de conditionnement avec les capacités de raisonnement du VLM pour une augmentation des capacités et une flexibilité accrue lors de l'inférence. De plus, le fine-tuning sur une tâche d'édition améliore non seulement l'alignement texte-image pour la génération, indiquant un transfert de connaissances intermodales, mais montre également des capacités de généralisation impressionnantes. Notre modèle, lorsqu'il est entraîné sur l'édition d'une seule image, généralise de manière zero-shot à plusieurs références d'images, ce qui motive davantage la conception d'un encodeur unifié pour UniFusion.
L'alignement post-entraînement réduit souvent la diversité des LLM, conduisant à un phénomène connu sous le nom d'effondrement modal. Contrairement aux travaux antérieurs qui attribuent cet effet à des limitations algorithmiques, nous identifions un facteur fondamental et omniprésent au niveau des données : le biais de typicalité dans les données de préférence, où les annotateurs favorisent systématiquement des textes familiers en raison de résultats bien établis en psychologie cognitive. Nous formalisons théoriquement ce biais, le vérifions empiriquement sur des ensembles de données de préférence, et montrons qu'il joue un rôle central dans l'effondrement modal. Motivés par cette analyse, nous introduisons l'échantillonnage verbalisé (Verbalized Sampling, VS), une stratégie simple et sans entraînement pour contourner l'effondrement modal. VS incite le modèle à verbaliser une distribution de probabilité sur un ensemble de réponses (par exemple, « Générez 5 blagues sur le café et leurs probabilités correspondantes »). Des expériences approfondies montrent que VS améliore significativement les performances dans des domaines tels que l'écriture créative (poèmes, histoires, blagues), la simulation de dialogue, les questions-réponses ouvertes et la génération de données synthétiques, sans sacrifier la précision factuelle et la sécurité. Par exemple, dans l'écriture créative, VS augmente la diversité de 1,6 à 2,1 fois par rapport à l'invocation directe. Nous observons également une tendance émergente selon laquelle les modèles plus performants bénéficient davantage de VS. En somme, notre travail offre une nouvelle perspective centrée sur les données concernant l'effondrement modal et un remède pratique au moment de l'inférence qui aide à libérer la diversité générative pré-entraînée.
Le succès des modèles de langage basés sur les Transformers est largement attribué à leur mécanisme d'attention par produit scalaire, qui intègre un ensemble de principes de conception clés : le mélange d'informations entre les positions (permettant des interactions multi-tokens), les activations dépendantes de la séquence (où les poids d'attention s'adaptent à chaque entrée), une forme mathématique spécifique (similarités par produit scalaire combinées à une pondération softmax), et le couplage des requêtes et des clés avec les états cachés évolutifs (ancrant l'attention dans la couche actuelle). Cependant, la nécessité de chacun de ces principes reste largement inexplorée. Dans ce travail, nous déconstruisons systématiquement l'attention en concevant des variantes contrôlées qui relâchent sélectivement ces principes, appliquées à la fois uniformément à toutes les couches et dans des architectures hybrides où seules certaines couches conservent l'attention standard. Notre analyse empirique révèle que les mécanismes de mélange des tokens sont indispensables, car leur absence réduit les modèles à un comportement quasi-aléatoire, tandis que la forme mathématique exacte et la dépendance à la séquence peuvent être considérablement assouplies, en particulier lorsqu'elles sont préservées dans un sous-ensemble de couches. Étonnamment, même les variantes qui échouent isolément peuvent atteindre des performances robustes lorsqu'elles sont intercalées avec l'attention standard, mettant en évidence un effet coopératif. Ces résultats approfondissent notre compréhension de ce qui sous-tend réellement l'efficacité de l'attention et ouvrent de nouvelles voies pour simplifier les modèles de langage sans sacrifier les performances.
Les modèles de langage de grande envergure (LLM) rencontrent des difficultés dans les tâches agentiques à long terme, car leur mémoire limitée est facilement submergée par un contexte distrayant ou non pertinent. Les méthodes existantes de gestion de la mémoire de travail reposent généralement sur des mécanismes externes et heuristiques, découplés de la politique centrale de l'agent. Dans ce travail, nous reformulons la gestion de la mémoire de travail comme une capacité intrinsèque et apprenable. Nous proposons un nouveau cadre, Mémoire-comme-Action, où un agent gère activement sa mémoire de travail en exécutant des opérations d'édition explicites dans le cadre d'une politique unifiée. Cette formulation permet à un agent, entraîné par apprentissage par renforcement, d'équilibrer la curation de la mémoire avec les objectifs de tâche à long terme sous des contraintes de ressources données. Cependant, ces actions d'édition de la mémoire brisent l'hypothèse standard d'un préfixe en croissance continue dans les interactions des LLM, conduisant à ce que nous appelons des fractures de trajectoire. Ces changements non-préfixés perturbent la continuité causale requise par les méthodes standard de gradient de politique, rendant ces méthodes inapplicables. Pour résoudre ce problème, nous proposons un nouvel algorithme, l'Optimisation de Politique à Contexte Dynamique, qui permet un apprentissage par renforcement stable de bout en bout en segmentant les trajectoires aux points d'action de mémoire et en appliquant des avantages au niveau de la trajectoire aux segments d'action résultants. Nos résultats démontrent que l'optimisation conjointe du raisonnement de tâche et de la gestion de la mémoire de manière end-to-end réduit non seulement la consommation computationnelle globale, mais améliore également la performance des tâches, grâce à des stratégies de curation de contexte adaptatives adaptées aux capacités intrinsèques du modèle.
Un défi majeur dans l'application de l'apprentissage par renforcement (RL) aux modèles de langage à grande échelle basés sur la diffusion (dLLMs) réside dans l'intractabilité de leurs fonctions de vraisemblance, qui sont essentielles pour l'objectif de RL, nécessitant ainsi une approximation correspondante à chaque étape d'entraînement. Bien que les méthodes existantes approchent les log-vraisemblances par leurs bornes inférieures de l'évidence (ELBOs) via un échantillonnage Monte Carlo (MC) personnalisé, les graphes de calcul directs de tous les échantillons MC doivent être conservés pour le calcul du gradient des termes non linéaires dans l'objectif de RL, ce qui entraîne une surcharge mémoire significative. Cette contrainte limite les tailles d'échantillons réalisables, conduisant à des approximations de vraisemblance imprécises et, finalement, à une distorsion de l'objectif de RL. Pour surmonter cette limitation, nous proposons l'Optimisation de Politique Guidée par les Bornes (BGPO), un algorithme de RL économe en mémoire qui maximise une borne inférieure spécialement construite de l'objectif basé sur ELBO. Cette borne inférieure est soigneusement conçue pour satisfaire deux propriétés clés : (1) Linéarité : elle est formulée sous forme de somme linéaire où chaque terme dépend uniquement d'un seul échantillon MC, permettant ainsi l'accumulation du gradient à travers les échantillons et garantissant une utilisation mémoire constante ; (2) Équivalence : la valeur et le gradient de cette borne inférieure sont égaux à ceux de l'objectif basé sur ELBO dans l'entraînement on-policy, en faisant également une approximation efficace de l'objectif de RL original. Ces propriétés permettent à BGPO d'adopter une grande taille d'échantillon MC, résultant en des approximations de vraisemblance plus précises et une meilleure estimation de l'objectif de RL, ce qui conduit à une performance améliorée. Les expériences montrent que BGPO surpasse significativement les algorithmes de RL précédents pour les dLLMs dans la résolution de problèmes mathématiques, la génération de code et les tâches de planification.
Les modèles de langage multimodaux de grande envergure (MLLMs) dans les applications réelles nécessitent un accès à des sources de connaissances externes et doivent rester réactifs face à l'information dynamique et en constante évolution du monde réel afin de répondre aux requêtes des utilisateurs axées sur la recherche d'informations et nécessitant des connaissances approfondies. Les approches existantes, telles que les méthodes de génération augmentée par recherche (RAG), les agents de recherche et les MLLMs équipés de fonctionnalités de recherche, souffrent souvent de pipelines rigides, d'appels de recherche excessifs et de requêtes de recherche mal construites, ce qui entraîne des inefficacités et des résultats sous-optimaux. Pour pallier ces limitations, nous présentons DeepMMSearch-R1, le premier MLLM multimodal capable d'effectuer des recherches web à la demande, multi-tours, et de formuler dynamiquement des requêtes pour les outils de recherche d'images et de texte. Plus précisément, DeepMMSearch-R1 peut initier des recherches web en se basant sur des extraits pertinents de l'image d'entrée, rendant ainsi la recherche d'images plus efficace, et peut adapter itérativement les requêtes de recherche textuelles en fonction des informations récupérées, permettant ainsi une auto-réflexion et une auto-correction. Notre approche repose sur un pipeline d'entraînement en deux étapes : une phase de fine-tuning supervisé à froid suivie d'une optimisation par apprentissage par renforcement en ligne. Pour l'entraînement, nous introduisons DeepMMSearchVQA, un nouveau jeu de données multimodal de questions-réponses (VQA) créé via un pipeline automatisé combiné à des informations réelles provenant d'outils de recherche web. Ce jeu de données contient des requêtes diversifiées et multi-étapes qui intègrent des informations textuelles et visuelles, enseignant au modèle quand rechercher, quoi rechercher, quel outil de recherche utiliser et comment raisonner sur les informations récupérées. Nous menons des expériences approfondies sur une série de benchmarks nécessitant des connaissances approfondies pour démontrer la supériorité de notre approche. Enfin, nous analysons les résultats et fournissons des insights précieux pour faire progresser la recherche web multimodale.
Les modèles d'embedding multimodaux visent à produire des représentations unifiées informatives qui renforcent diverses tâches intermodales. Malgré des avancées prometteuses dans l'évolution des architectures à double tour basées sur CLIP vers des modèles de grande envergure vision-langage, les travaux antérieurs continuent de faire face à des défis inévitables dans les applications réelles et les scénarios commerciaux, tels que le support limité des modalités, les mécanismes d'entraînement instables et les écarts de domaines industriels. Dans ce travail, nous présentons SAIL-Embedding, un modèle de fondation d'embedding omni-modal qui aborde ces problèmes grâce à des stratégies d'entraînement et une conception architecturale adaptées. Dans la procédure d'optimisation, nous proposons un schéma d'entraînement multi-étapes pour renforcer l'efficacité multifacette de l'apprentissage de représentations. Plus précisément, l'entraînement progressif basé sur le contenu vise à améliorer l'adaptabilité du modèle à diverses tâches en aval et à maîtriser une compétence intermodale enrichie. L'entraînement d'amélioration des recommandations basé sur la collaboration adapte davantage les représentations multimodales pour les scénarios de recommandation en distillant des connaissances à partir des embeddings séquence-à-élément et ID-à-élément tout en exploitant les intérêts historiques des utilisateurs. Parallèlement, nous développons la spécialisation stochastique et l'appariement de motifs basé sur les ensembles de données pour renforcer la flexibilité et la généralisabilité de l'entraînement du modèle. Les résultats expérimentaux montrent que SAIL-Embedding atteint des performances de pointe (SOTA) par rapport à d'autres méthodes dans différentes tâches de recherche. Dans des expériences en ligne couvrant divers scénarios réels intégrant notre modèle, nous observons une augmentation significative du Lifetime (LT), un indicateur crucial pour l'expérience de recommandation. Par exemple, le modèle offre un gain de LT à 7 jours de +0,158 % et un gain de LT à 14 jours de +0,144 % dans le scénario Douyin-Selected. Pour le modèle de classement du fil d'actualités de Douyin, les caractéristiques d'appariement produites par SAIL-Embedding génèrent un gain d'AUC de +0,08 %.
Les récents progrès dans les modèles vision-langage (VLMs) les ont rendus très efficaces pour les tâches de raisonnement. Cependant, les principes sous-jacents à la construction de jeux de données d’entraînement performants pour le raisonnement visuel et linguistique restent mal compris. Dans ce travail, nous introduisons plusieurs approches de curation de données et étudions leurs impacts sur les capacités de raisonnement VL en contrôlant soigneusement les configurations d’entraînement et d’évaluation. Nous analysons les effets des sources de contexte (paires image-question), mettons en œuvre des interventions ciblées sur les données, et explorons la mise à l’échelle des images, des questions et des solutions de chaîne de pensée (CoT). Nos résultats révèlent que (a) les stratégies de sources de contexte affectent significativement les performances des VLMs, (b) des interventions telles que les signaux auxiliaires provenant de légendes d’images et l’inclusion de raisonnements textuels uniquement apportent des gains substantiels, et (c) la mise à l’échelle de toutes les dimensions des données (par exemple, des questions uniques par image et des CoTs uniques par paire image-question) améliore systématiquement la capacité de raisonnement. Motivés par ces observations, nous introduisons HoneyBee, un jeu de données de raisonnement CoT à grande échelle et de haute qualité, comprenant 2,5 millions d’exemples constitués de 350 000 paires image-question. Les VLMs entraînés avec HoneyBee surpassent les modèles de pointe quelle que soit leur taille. Par exemple, un VLM entraîné avec HoneyBee et doté de 3 milliards de paramètres surpasse le modèle SOTA et le modèle de base respectivement de 7,8 % et 24,8 % sur MathVerse. De plus, nous proposons une stratégie de mise à l’échelle au moment du test qui réduit le coût de décodage de 73 % sans sacrifier la précision. Globalement, ce travail présente des stratégies améliorées pour la recherche sur la curation de jeux de données de raisonnement VL.
La génération d'images multi-instances (MIG) reste un défi majeur pour les modèles de diffusion modernes en raison de limitations clés dans la réalisation d'un contrôle précis sur la disposition des objets et la préservation de l'identité de plusieurs sujets distincts. Pour répondre à ces limitations, nous introduisons ContextGen, un nouveau cadre de Diffusion Transformer pour la génération multi-instances guidée à la fois par la disposition et les images de référence. Notre approche intègre deux contributions techniques majeures : un mécanisme d'Ancrage Contextuel de Disposition (CLA) qui incorpore l'image de disposition composite dans le contexte de génération pour ancrer robustement les objets dans leurs positions souhaitées, et une Attention de Cohérence d'Identité (ICA), un mécanisme d'attention innovant qui exploite les images de référence contextuelles pour garantir la cohérence d'identité de plusieurs instances. Conscients du manque de jeux de données à grande échelle et structurés hiérarchiquement pour cette tâche, nous introduisons IMIG-100K, le premier jeu de données avec des annotations détaillées de disposition et d'identité. Des expériences approfondies démontrent que ContextGen établit un nouvel état de l'art, surpassant les méthodes existantes en termes de précision de contrôle, de fidélité d'identité et de qualité visuelle globale.
Les progrès en intelligence artificielle sont entravés par l'absence d'un langage de programmation doté de toutes les fonctionnalités nécessaires. Des bibliothèques comme PyTorch et TensorFlow offrent la différenciation automatique et une implémentation efficace sur GPU, mais elles sont des ajouts à Python, qui n'a jamais été conçu pour l'IA. Leur manque de support pour le raisonnement automatisé et l'acquisition de connaissances a conduit à une longue et coûteuse série de tentatives approximatives pour les intégrer. D'un autre côté, les langages dédiés à l'IA comme LISP et Prolog manquent de scalabilité et de support pour l'apprentissage. Cet article propose la logique tensorielle, un langage qui résout ces problèmes en unifiant l'IA neuronale et symbolique à un niveau fondamental. La seule construction en logique tensorielle est l'équation tensorielle, basée sur l'observation que les règles logiques et la sommation d'Einstein sont essentiellement la même opération, et que tout le reste peut y être réduit. Je montre comment implémenter de manière élégante des formes clés d'IA neuronale, symbolique et statistique en logique tensorielle, y compris les transformateurs, le raisonnement formel, les machines à noyaux et les modèles graphiques. Plus important encore, la logique tensorielle ouvre de nouvelles perspectives, comme un raisonnement solide dans l'espace d'embedding. Cela combine la scalabilité et la capacité d'apprentissage des réseaux neuronaux avec la fiabilité et la transparence du raisonnement symbolique, et pourrait constituer une base pour une adoption plus large de l'IA.
Comprendre la dynamique d'une scène physique implique de raisonner sur les diverses manières dont elle peut potentiellement évoluer, en particulier à la suite d'interactions locales. Nous présentons le Flow Poke Transformer (FPT), un cadre novateur pour prédire directement la distribution du mouvement local, conditionnée par des interactions éparses appelées « pokes ». Contrairement aux méthodes traditionnelles qui permettent généralement un échantillonnage dense d'une seule réalisation de la dynamique de la scène, le FPT fournit une représentation interprétable et directement accessible du mouvement multimodal de la scène, de sa dépendance aux interactions physiques et des incertitudes inhérentes à la dynamique de la scène. Nous évaluons également notre modèle sur plusieurs tâches en aval pour permettre des comparaisons avec les méthodes antérieures et mettre en évidence la flexibilité de notre approche. Sur la génération dense de mouvements faciaux, notre modèle pré-entraîné générique surpasse les bases de référence spécialisées. Le FPT peut être affiné pour des tâches fortement hors distribution, telles que des ensembles de données synthétiques, permettant des améliorations significatives par rapport aux méthodes intra-domaines dans l'estimation du mouvement d'objets articulés. De plus, la prédiction directe de distributions explicites de mouvement permet à notre méthode d'atteindre des performances compétitives sur des tâches comme la segmentation de parties mobiles à partir de pokes, ce qui démontre davantage la polyvalence de notre FPT. Le code et les modèles sont disponibles publiquement à l'adresse https://compvis.github.io/flow-poke-transformer.
L'édition d'images basée sur des instructions offre une manière puissante et intuitive de manipuler des images grâce au langage naturel. Cependant, s'appuyer uniquement sur des instructions textuelles limite le contrôle précis de l'étendue des modifications. Nous présentons Kontinuous Kontext, un modèle d'édition piloté par instructions qui introduit une nouvelle dimension de contrôle sur l'intensité des modifications, permettant aux utilisateurs d'ajuster progressivement les modifications, de l'absence de changement à un résultat pleinement réalisé, de manière fluide et continue. Kontinuous Kontext étend un modèle d'édition d'images de pointe pour accepter une entrée supplémentaire, une intensité de modification scalaire, qui est ensuite associée à l'instruction de modification, permettant un contrôle explicite de l'étendue de la modification. Pour injecter cette information scalaire, nous entraînons un réseau projecteur léger qui mappe l'entrée scalaire et l'instruction de modification à des coefficients dans l'espace de modulation du modèle. Pour l'entraînement de notre modèle, nous synthétisons un ensemble de données diversifié de quadruplets image-instruction-modification-intensité en utilisant des modèles génératifs existants, suivi d'une étape de filtrage pour garantir la qualité et la cohérence. Kontinuous Kontext propose une approche unifiée pour un contrôle précis de l'intensité des modifications dans l'édition pilotée par instructions, allant de subtiles à fortes, pour diverses opérations telles que la stylisation, les changements d'attributs, de matériaux, d'arrière-plan et de forme, sans nécessiter d'entraînement spécifique à un attribut.
Nous étudions comment les grands modèles de langage (LLMs) « pensent » à travers leur espace de représentation. Nous proposons un cadre géométrique novateur qui modélise le raisonnement d'un LLM comme des flux — des trajectoires d'embeddings évoluant là où la logique se déploie. Nous dissocions la structure logique de la sémantique en utilisant les mêmes propositions de déduction naturelle avec des porteurs sémantiques variés, ce qui nous permet de tester si les LLMs internalisent la logique au-delà de la forme superficielle. Cette perspective relie le raisonnement à des quantités géométriques telles que la position, la vitesse et la courbure, permettant une analyse formelle dans les espaces de représentation et de concepts. Notre théorie établit : (1) le raisonnement des LLMs correspond à des flux lisses dans l'espace de représentation, et (2) les énoncés logiques agissent comme des contrôleurs locaux de la vitesse de ces flux. En utilisant des proxies de représentation appris, nous concevons des expériences contrôlées pour visualiser et quantifier les flux de raisonnement, fournissant une validation empirique de notre cadre théorique. Notre travail sert à la fois de fondement conceptuel et d'outils pratiques pour étudier les phénomènes de raisonnement, offrant une nouvelle perspective pour l'interprétabilité et l'analyse formelle du comportement des LLMs.
Dans un pipeline de conception idéal, la conception de l'interface utilisateur (UI) est étroitement liée à la recherche utilisateur pour valider les décisions, bien que les études soient souvent limitées en ressources lors des phases d'exploration initiale. Les récents progrès des modèles de langage multimodaux (MLLMs) offrent une opportunité prometteuse pour agir en tant qu'évaluateurs précoces, aidant les designers à réduire les options avant des tests formels. Contrairement aux travaux antérieurs qui mettent l'accent sur le comportement des utilisateurs dans des domaines restreints tels que le commerce électronique avec des métriques comme les clics ou les conversions, nous nous concentrons sur les évaluations subjectives des utilisateurs à travers diverses interfaces. Nous étudions si les MLLMs peuvent imiter les préférences humaines lors de l'évaluation d'interfaces individuelles et de leur comparaison. En utilisant des données provenant d'une plateforme de crowdsourcing, nous évaluons GPT-4o, Claude et Llama sur 30 interfaces et examinons leur alignement avec les jugements humains sur plusieurs facteurs d'UI. Nos résultats montrent que les MLLMs approchent les préférences humaines sur certaines dimensions mais divergent sur d'autres, soulignant à la fois leur potentiel et leurs limites dans le complément des recherches UX précoces.
La modélisation symbolique du monde nécessite d'inférer et de représenter les dynamiques transitionnelles d'un environnement sous la forme d'un programme exécutable. Les travaux antérieurs se sont principalement concentrés sur des environnements largement déterministes, riches en données d'interaction, dotés de mécaniques simples et guidés par l'humain. Nous abordons un cadre plus réaliste et exigeant, où l'apprentissage se déroule dans un environnement complexe et stochastique, où l'agent n'a qu'« une seule vie » pour explorer un environnement hostile sans guidance humaine. Nous présentons OneLife, un cadre qui modélise les dynamiques du monde à travers des lois programmatiques conditionnellement activées au sein d'un cadre de programmation probabiliste. Chaque loi fonctionne selon une structure précondition-effet, s'activant dans les états du monde pertinents. Cela crée un graphe de calcul dynamique qui oriente l'inférence et l'optimisation uniquement à travers les lois pertinentes, évitant les défis de mise à l'échelle lorsque toutes les lois contribuent aux prédictions concernant un état complexe et hiérarchique, et permettant l'apprentissage de dynamiques stochastiques même avec une activation sporadique des règles. Pour évaluer notre approche sous ces contraintes rigoureuses, nous introduisons un nouveau protocole d'évaluation qui mesure (a) le classement des états, c'est-à-dire la capacité à distinguer les états futurs plausibles des états improbables, et (b) la fidélité des états, c'est-à-dire la capacité à générer des états futurs qui ressemblent étroitement à la réalité. Nous développons et évaluons notre cadre sur Crafter-OO, notre réimplémentation de l'environnement Crafter qui expose un état symbolique structuré et orienté objet ainsi qu'une fonction de transition pure opérant uniquement sur cet état. OneLife parvient à apprendre avec succès les dynamiques clés de l'environnement à partir d'interactions minimales et non guidées, surpassant une base de référence solide dans 16 des 23 scénarios testés. Nous testons également la capacité de planification de OneLife, avec des simulations qui identifient avec succès des stratégies supérieures. Notre travail établit une base pour la construction autonome de modèles programmatiques du monde dans des environnements inconnus et complexes.
Les grands modèles de raisonnement (LRMs) ont ouvert de nouvelles possibilités en matière de résolution de problèmes, grâce à la conception d'un processus de pensée en langage naturel avant de répondre à une requête. Bien que leurs capacités soient bien connues dans les domaines des mathématiques et de la programmation, leur impact sur la tâche de traduction automatique (MT) reste peu exploré. Dans ce travail, nous examinons les avantages de la génération de tokens intermédiaires lors de l'exécution de la MT sur plusieurs paires de langues présentant différents niveaux de ressources et dans diverses configurations. Nous constatons que les "tokens de pensée" n'aident pas les LRMs à mieux performer en MT. Ce résultat se généralise aux modèles affinés pour raisonner avant de traduire en utilisant une chaîne de pensée (CoT) distillée, inspirée des pratiques des traducteurs humains. Plus précisément, l'affinement d'un modèle avec des explications CoT synthétiques détaillant comment traduire étape par étape ne surpasse pas l'affinement standard entrée-sortie. Cependant, la construction des tokens intermédiaires en combinant les résultats de stratégies de prompt modulaires spécifiques à la traduction entraîne des améliorations. Nos résultats soulignent que la contribution des tokens intermédiaires lors de l'affinement dépend fortement de la présence de tentatives de traduction en leur sein. Plus largement, nos résultats suggèrent qu'utiliser un enseignant pour affiner les traductions cibles ou pour enrichir les corpus parallèles est plus impactant que de distiller leurs explications CoT dans des modèles de MT "pensants".
Nous présentons le Décroissance Pondérée Prudente (CWD), une modification en une ligne, indépendante de l'optimiseur, qui applique la décroissance pondérée uniquement aux coordonnées des paramètres dont les signes correspondent à la mise à jour de l'optimiseur. Contrairement à la décroissance découplée standard, qui optimise implicitement un objectif régularisé ou contraint, le CWD préserve la fonction de perte originale et admet une interprétation bi-niveau : il induit un comportement en mode glissant lors de l'atteinte de la variété stationnaire, lui permettant de rechercher des points stationnaires localement Pareto-optimaux de l'objectif non modifié. En pratique, le CWD est un changement direct pour des optimiseurs tels qu'AdamW, Lion et Muon, ne nécessitant aucun nouvel hyperparamètre ou réglage supplémentaire. Pour le pré-entraînement de modèles de langage et la classification sur ImageNet, le CWD améliore systématiquement la perte finale et la précision à des échelles allant de millions à milliards de paramètres.
Les agents de modèles de langage de grande taille (LLM) sont fondamentalement limités par la longueur du contexte dans les tâches à long horizon. Nous introduisons Context-Folding, un cadre qui permet aux agents de gérer activement leur contexte de travail. Un agent peut se ramifier de manière procédurale dans une sous-trajectoire pour traiter une sous-tâche, puis la replier une fois terminée, en réduisant les étapes intermédiaires tout en conservant un résumé concis du résultat. Pour rendre ce comportement apprenable, nous développons un cadre d'apprentissage par renforcement end-to-end, FoldGRPO, avec des récompenses de processus spécifiques pour encourager une décomposition efficace des tâches et une gestion du contexte. Sur des tâches complexes à long horizon (Deep Research et SWE), notre agent de repliement égalise ou surpasse les bases de référence ReAct tout en utilisant un contexte actif 10 fois plus petit et surpasse significativement les modèles qui reposent sur une gestion du contexte basée sur la synthèse.
Récemment, les modèles de langage de grande taille (LLMs) ont été appliqués à la découverte d'équations scientifiques, exploitant leurs connaissances scientifiques intégrées pour la génération d'hypothèses. Cependant, les méthodes actuelles limitent généralement les LLMs au rôle de proposition d'équations au sein d'algorithmes de recherche tels que la programmation génétique. Dans cet article, nous présentons SR-Scientist, un cadre qui élève le LLM d'un simple proposeur d'équations à un scientifique IA autonome qui écrit du code pour analyser les données, implémente l'équation sous forme de code, la soumet à l'évaluation et optimise l'équation en fonction des retours expérimentaux. Plus précisément, nous intégrons l'interpréteur de code dans un ensemble d'outils pour l'analyse des données et l'évaluation des équations. L'agent est instruit pour optimiser l'équation en utilisant ces outils sur une longue période avec un minimum de pipelines définis par l'homme. Les résultats empiriques montrent que SR-Scientist surpasse les méthodes de référence par une marge absolue de 6 % à 35 % sur des ensembles de données couvrant quatre disciplines scientifiques. De plus, nous démontrons la robustesse de notre méthode au bruit, la généralisation des équations découvertes à des données hors domaine et leur précision symbolique. Par ailleurs, nous développons un cadre d'apprentissage par renforcement de bout en bout pour améliorer les capacités de l'agent.
Nous étudions le réglage fin par apprentissage par renforcement (RL) d'agents basés sur des modèles de langage de grande taille (LLM) pour l'utilisation d'outils sur des horizons temporels longs et multi-tours, où la longueur du contexte devient rapidement un goulot d'étranglement fondamental. Les pipelines RL existants peuvent souffrir d'une dégradation du suivi des instructions, de coûts de déploiement excessifs et, surtout, de limites strictes de contexte. Pour relever ces défis, nous introduisons une gestion du contexte basée sur la synthèse dans l'entraînement. Plus précisément, elle compresse périodiquement l'historique d'utilisation des outils grâce à des résumés générés par le LLM qui conservent les informations pertinentes pour la tâche, permettant ainsi de maintenir un contexte compact tout en permettant à l'agent de dépasser la fenêtre de contexte fixe. En nous appuyant sur cette formulation, nous dérivons une représentation de gradient de politique qui permet de manière transparente aux infrastructures RL standard des LLM d'optimiser à la fois les comportements d'utilisation des outils et les stratégies de synthèse de manière end-to-end. Nous instancions ce cadre avec l'Optimisation de Politique Augmentée par la Synthèse (SUPO), un algorithme RL pour LLM qui permet un entraînement sur des horizons temporels longs au-delà d'une limite de contexte fixe. Les expériences sur des tâches d'appel de fonctions interactives et de recherche démontrent que SUPO améliore significativement le taux de réussite tout en maintenant la même longueur de contexte de travail, voire une longueur inférieure, par rapport aux méthodes de référence. Nous montrons également que pour des tâches de recherche complexes, SUPO peut encore améliorer les performances d'évaluation en augmentant le nombre maximum de tours de synthèse au moment du test par rapport à celui de l'entraînement. Nos résultats établissent la gestion du contexte basée sur la synthèse comme une approche rigoureuse et évolutive pour entraîner des agents RL au-delà d'une limite de longueur de contexte fixe.
Les modèles de langage multimodaux de grande envergure (MLLMs) promettent d’accélérer les découvertes scientifiques en interprétant des procédures expérimentales complexes. Cependant, leurs véritables capacités sont mal comprises, car les benchmarks existants négligent la nature granulaire et à long terme des travaux de laboratoire authentiques, en particulier dans les environnements de laboratoire humide. Pour combler cette lacune, nous introduisons ExpVid, le premier benchmark conçu pour évaluer systématiquement les MLLMs sur des vidéos d’expériences scientifiques. Compilé à partir de publications vidéo évaluées par des pairs, ExpVid propose une nouvelle hiérarchie de tâches à trois niveaux qui reflète le processus scientifique : (1) Perception granulaire des outils, matériaux et actions ; (2) Compréhension procédurale de l’ordre et de l’exhaustivité des étapes ; et (3) Raisonnement scientifique qui relie l’expérience complète à ses conclusions publiées. Notre pipeline d’annotation centré sur la vision, combinant une génération automatisée avec une validation multidisciplinaire par des experts, garantit que les tâches nécessitent un ancrage visuel. Nous évaluons 19 MLLMs de premier plan sur ExpVid et constatons que, bien qu’ils excellent dans la reconnaissance à gros grain, ils peinent à désambiguïser les détails fins, à suivre les changements d’état dans le temps et à relier les procédures expérimentales aux résultats scientifiques. Nos résultats révèlent un écart de performance notable entre les modèles propriétaires et open-source, en particulier dans le raisonnement d’ordre supérieur. ExpVid fournit non seulement un outil de diagnostic, mais trace également une feuille de route pour le développement de MLLMs capables de devenir des partenaires fiables dans l’expérimentation scientifique.
La contamination des données constitue une menace significative pour l'évaluation fiable des modèles de langage de grande taille (LLMs). Ce problème survient lorsque des échantillons de référence peuvent apparaître involontairement dans les ensembles d'entraînement, compromettant ainsi la validité des performances rapportées. Bien que des méthodes de détection aient été développées pour les étapes de pré-entraînement et de réglage fin supervisé, un manque critique de recherche persiste pour la phase de plus en plus importante de l'apprentissage par renforcement (RL) post-entraînement. Alors que le RL post-entraînement devient crucial pour faire progresser le raisonnement des LLMs, l'absence de méthodes spécialisées de détection de contamination dans ce paradigme représente une vulnérabilité critique. Pour remédier à cela, nous menons la première étude systématique de détection des données dans le contexte du RL post-entraînement et proposons Self-Critique. Notre méthode est motivée par une observation clé : après la phase de RL, la distribution d'entropie des sorties des LLMs tend à s'effondrer en modes très spécifiques et épars. Self-Critique sonde l'effondrement sous-jacent de la politique, c'est-à-dire la convergence du modèle vers un chemin de raisonnement étroit, qui provoque cette réduction d'entropie. Pour faciliter cette recherche, nous introduisons également RL-MIA, un benchmark conçu pour simuler ce scénario spécifique de contamination. Des expériences approfondies montrent que Self-Critique surpasse significativement les méthodes de référence sur plusieurs modèles et tâches de contamination, avec une amélioration de l'AUC allant jusqu'à 30%. Alors que les méthodes existantes sont proches d'une estimation aléatoire pour la contamination en phase de RL, notre méthode rend la détection possible.
Les modèles de langage multimodaux de grande taille (MLLMs) existants souffrent d'une augmentation des coûts d'inférence en raison des tokens visuels supplémentaires introduits par les entrées d'images. Dans ce travail, nous proposons l'apprentissage de la cohérence visuelle (ViCO), un nouvel algorithme d'entraînement qui permet au modèle de représenter des images de complexités sémantiques variées en utilisant un nombre différent de tokens visuels. L'idée clé de notre méthode est d'employer plusieurs connecteurs MLP, chacun avec un taux de compression d'image différent, pour sous-échantillonner les tokens visuels en fonction de la complexité sémantique de l'image. Pendant l'entraînement, nous minimisons la divergence de Kullback-Leibler (KL) entre les réponses conditionnées sur différents connecteurs MLP. Au moment de l'inférence, nous introduisons un routeur d'image, appelé Visual Resolution Router (ViR), qui sélectionne automatiquement le taux de compression approprié pour chaque patch d'image. Par rapport aux stratégies dynamiques de haute résolution existantes, qui ajustent le nombre de tokens visuels en fonction des résolutions d'image, notre méthode adapte dynamiquement le nombre de tokens visuels selon la complexité sémantique. Les résultats expérimentaux démontrent que notre méthode peut réduire le nombre de tokens visuels jusqu'à 50 % tout en maintenant les capacités de perception, de raisonnement et de reconnaissance optique de caractères (OCR) du modèle. Nous espérons que ce travail contribuera au développement de MLLMs plus efficaces. Le code et les modèles seront publiés pour faciliter les recherches futures.
Les récents progrès dans le raisonnement à longue chaîne de pensée (CoT) ont largement privilégié la précision des réponses et l'efficacité des tokens, tout en négligeant des aspects critiques pour la fiabilité. Nous soutenons que les systèmes de raisonnement utilisables doivent être dignes de confiance, caractérisés par trois propriétés : l'interprétabilité, la fidélité et la fiabilité. À cette fin, nous proposons ReFIne, un nouveau cadre d'entraînement qui intègre un ajustement fin supervisé avec GRPO pour encourager les modèles à : (i) améliorer l'interprétabilité en produisant des traces structurées basées sur des étiquettes avec une planification de haut niveau, plus faciles à suivre pour les humains ; (ii) renforcer la fidélité en divulguant explicitement les informations décisives guidant chaque solution, avec des références transversales cohérentes ; et (iii) promouvoir la fiabilité en fournissant des auto-évaluations de la solidité de la dérivation et de la confiance dans la réponse finale. Nous appliquons ReFIne aux modèles Qwen3 à différentes échelles (1,7B/4B/8B) et évaluons sur des benchmarks mathématiques de difficulté variable. Nos résultats expérimentaux montrent que les modèles ReFIne génèrent des traces de raisonnement plus claires et mieux structurées (interprétabilité +44,0 %), exposent plus fidèlement leur processus décisionnel sous-jacent (fidélité +18,8 %) et fournissent des estimations de confiance informatives (fiabilité +42,4 %). Ces résultats mettent en lumière une direction importante mais négligée : les modèles de raisonnement devraient être optimisés non seulement pour la précision, mais aussi pour des dimensions plus larges de la fiabilité. Notre code est disponible à l'adresse suivante : https://github.com/Trustworthy-ML-Lab/Training_Trustworthy_LRM_with_Refine
La prévision de séries temporelles (TSF) reste un problème difficile et largement non résolu dans l'apprentissage automatique, malgré les efforts récents significatifs exploitant les modèles de langage de grande taille (LLMs), qui reposent principalement sur des architectures de type Transformer. Les preuves empiriques montrent de manière constante que même les Transformers puissants échouent souvent à surpasser des modèles beaucoup plus simples, par exemple les modèles linéaires, dans les tâches de TSF ; cependant, une compréhension théorique rigoureuse de ce phénomène reste limitée. Dans cet article, nous proposons une analyse théorique des limitations des Transformers pour la TSF à travers le prisme de la théorie de l'apprentissage en contexte (In-Context Learning, ICL). Plus précisément, sous des données AR(p), nous établissons que : (1) les modèles d'auto-attention linéaire (LSA) ne peuvent pas atteindre une erreur quadratique moyenne (MSE) attendue inférieure à celle des modèles linéaires classiques pour la prévision en contexte ; (2) lorsque la longueur du contexte tend vers l'infini, le LSA récupère asymptotiquement le prédicteur linéaire optimal ; et (3) sous une inférence de type Chaîne de Pensée (CoT), les prédictions convergent exponentiellement vers la moyenne. Nous validons empiriquement ces résultats à travers des expériences soigneusement conçues. Notre théorie éclaire non seulement plusieurs phénomènes précédemment peu explorés, mais offre également des insights pratiques pour concevoir des architectures de prévision plus efficaces. Nous espérons que notre travail encouragera la communauté de recherche à revisiter les limitations théoriques fondamentales de la TSF et à évaluer de manière critique l'application directe d'architectures de plus en plus sophistiquées sans un examen approfondi.
Les avancées récentes dans les modèles de langage à grande échelle (LLMs) montrent que l'extension de la longueur des chaînes de raisonnement améliore significativement les performances sur des tâches complexes. Bien que la révélation de ces traces de raisonnement aide les utilisateurs à mieux suivre, vérifier et apprendre du processus de résolution de problèmes du modèle, elle les rend également très vulnérables à une distillation non autorisée. Pour atténuer ce risque, les fournisseurs de modèles propriétaires adoptent souvent des stratégies de protection agressives, telles que le remplacement des raisonnements détaillés par des résumés succincts, privant ainsi les utilisateurs d'informations intermédiaires précieuses. Pour résoudre ce compromis, nous proposons PART, une reformulation anti-distillation préservant l'information des traces de raisonnement. Motivés par la différence entre la manière dont les humains comprennent les traces de raisonnement et celle dont les LLMs les exploitent pour un ajustement supervisé, nous concevons une reformulation simple mais efficace en deux étapes : la suppression des comportements d'auto-discussion et le réordonnancement des sous-conclusions. Un petit modèle auxiliaire est entraîné pour effectuer cette reformulation, engendrant une surcharge computationnelle minimale. Des expériences approfondies démontrent que PART perturbe systématiquement la distillation sur des modèles étudiants de différentes tailles et types sur divers benchmarks de raisonnement. Par exemple, lors de l'entraînement sur des traces reformulées, même la performance d'un grand modèle étudiant de 32B diminue de 54,17 à 46,88 sur AIME 2024, correspondant à une dégradation de 13,5 %.
Les fournisseurs de chatbots (par exemple, OpenAI) s'appuient sur des modèles d'abonnement à plusieurs niveaux pour générer des revenus, proposant des modèles de base pour les utilisateurs gratuits et des modèles avancés pour les abonnés payants. Cependant, un système de déverrouillage payant plus granulaire pour des fonctionnalités premium (par exemple, mathématiques, codage) est considéré comme plus économiquement viable pour les fournisseurs. Un tel système nécessite une technique de verrouillage des fonctionnalités (FLoTE) qui soit (i) efficace pour refuser l'accès aux fonctionnalités verrouillées, (ii) préservant l'utilité des fonctionnalités déverrouillées, (iii) robuste contre les contournements ou le partage non autorisé d'identifiants, et (iv) scalable pour plusieurs fonctionnalités et utilisateurs. Cependant, les FLoTEs existantes (par exemple, les modèles verrouillés par mot de passe) ne sont ni robustes ni scalables. Nous présentons Locket, la première FLoTE robuste et scalable permettant de mettre en œuvre des systèmes de déverrouillage payant. Locket utilise une approche de fusion innovante pour attacher des adaptateurs à un modèle de langage (LLM) afin de refuser l'accès aux fonctionnalités non autorisées. Notre évaluation approfondie montre que Locket est efficace (100 % de refus pour les fonctionnalités verrouillées), préservant l'utilité (une dégradation de l'utilité ≤ 7 % pour les fonctionnalités déverrouillées), robuste (un taux de réussite des attaques ≤ 5 %), et scalable pour plusieurs fonctionnalités et clients.
Les récentes mesures de sécurité basées sur le raisonnement pour les Grands Modèles de Raisonnement (LRMs), telles que l'alignement délibératif, ont démontré une forte défense contre les attaques de contournement (jailbreak). En exploitant la capacité de raisonnement des LRMs, ces garde-fous aident les modèles à évaluer la sécurité des entrées utilisateur avant de générer des réponses finales. Cette puissante capacité de raisonnement permet d'analyser l'intention de la requête et de refuser d'assister dès qu'une intention nuisible, masquée par les méthodes de jailbreak, est détectée. Ces garde-fous ont montré une amélioration significative de la défense, comme des taux de refus quasi parfaits sur la série open-source gpt-oss. Malheureusement, nous constatons que ces puissants garde-fous basés sur le raisonnement peuvent être extrêmement vulnérables à des manipulations subtiles des invites d'entrée, et une fois détournés, peuvent conduire à des résultats encore plus nuisibles. Plus précisément, nous découvrons d'abord un aspect étonnamment fragile de ces garde-fous : l'ajout de quelques tokens de modèle à l'invite d'entrée peut contourner avec succès ces garde-fous apparemment puissants et entraîner des réponses explicites et nuisibles. Pour approfondir, nous introduisons un ensemble de méthodes de jailbreak qui subvertissent les garde-fous basés sur le raisonnement. Nos attaques couvrent des contextes en boîte blanche, grise et noire, allant de manipulations de modèles sans effort à une optimisation entièrement automatisée. Avec un potentiel de mise en œuvre scalable, ces méthodes atteignent également des taux de réussite d'attaque alarmants (par exemple, dépassant 90 % sur 5 benchmarks différents de la série gpt-oss, tant sur les modèles locaux que sur les services API en ligne). Les évaluations sur divers LRMs open-source leaders confirment que ces vulnérabilités sont systémiques, soulignant le besoin urgent de techniques d'alignement plus robustes pour les LRMs open-source afin de prévenir les utilisations malveillantes. Le code est open-source à l'adresse https://chenxshuo.github.io/bag-of-tricks.
Nous présentons SynthID-Image, un système basé sur l'apprentissage profond pour le tatouage invisible d'images générées par IA. Cet article documente les desiderata techniques, les modèles de menace et les défis pratiques liés au déploiement d'un tel système à l'échelle d'Internet, en abordant les exigences clés d'efficacité, de fidélité, de robustesse et de sécurité. SynthID-Image a été utilisé pour tatouer plus de dix milliards d'images et de trames vidéo à travers les services de Google, et son service de vérification correspondant est accessible à des testeurs de confiance. Pour plus de complétude, nous présentons une évaluation expérimentale d'une variante de modèle externe, SynthID-O, disponible via des partenariats. Nous comparons SynthID-O à d'autres méthodes de tatouage post-hoc issues de la littérature, démontrant des performances de pointe en termes de qualité visuelle et de robustesse face aux perturbations courantes des images. Bien que ce travail se concentre sur les médias visuels, les conclusions concernant le déploiement, les contraintes et la modélisation des menaces s'appliquent également à d'autres modalités, y compris l'audio. Cet article fournit une documentation exhaustive pour le déploiement à grande échelle de systèmes de provenance des médias basés sur l'apprentissage profond.
Le pré-entraînement contrastif audio-langage produit des représentations conjointes puissantes, mais un écart persistant entre les modalités audio et texte limite les avantages du couplage des encodeurs multimodaux avec les grands modèles de langage (LLM). Nous présentons Diffusion-Link, un module de pontage de modalités basé sur la diffusion qui cartographie générativement les embeddings audio dans la distribution des embeddings texte. Ce module est entraîné sur l'embedding de sortie de l'encodeur multimodal figé et implémenté comme un réseau léger composé de trois blocs MLP résiduels. Pour évaluer l'effet de Diffusion-Link sur le couplage entre encodeur multimodal et LLM, nous testons sur la tâche de Description Automatique Audio (AAC) ; à notre connaissance, il s'agit de la première application d'un pontage de modalités basé sur la diffusion à l'AAC. Nous rapportons deux résultats. (1) Analyse de l'écart de modalité : sur des critères de similarité et géométriques, Diffusion-Link réduit davantage l'écart de modalité par rapport aux méthodes antérieures basées sur la diffusion et montre une migration collective des embeddings audio vers la distribution texte. (2) AAC en aval : l'ajout de Diffusion-Link au même modèle de base multimodal LLM atteint l'état de l'art sur AudioCaps, à la fois en description zéro-shot et entièrement supervisée, sans connaissances externes, avec des gains relatifs allant jusqu'à 52,5 % et 7,5 %, respectivement. Ces résultats montrent que la réduction de l'écart de modalité est cruciale pour un couplage efficace entre encodeurs multimodaux et LLM, et que le pontage de modalités basé sur la diffusion offre une voie prometteuse au-delà des conceptions centrées sur la récupération de connaissances. Le code sera publié après acceptation https://github.com/DevKiHyun/Diffusion-Link.
Les agents de recherche approfondie (Deep Research, DR) basés sur des modèles de langage de grande taille (Large Language Models, LLMs) sont capables d'effectuer des recherches complexes et multi-étapes en décomposant les tâches, en récupérant des informations en ligne et en synthétisant des rapports détaillés. Cependant, l'utilisation abusive des LLMs dotés de telles capacités puissantes peut entraîner des risques encore plus importants. Cela est particulièrement préoccupant dans des domaines à enjeux élevés et intensifs en connaissances, comme la biosécurité, où les DR peuvent générer un rapport professionnel contenant des connaissances interdites détaillées. Malheureusement, nous avons constaté de tels risques en pratique : simplement soumettre une requête nuisible, qu'un LLM autonome rejette directement, peut susciter un rapport détaillé et dangereux de la part des agents DR. Cela met en évidence les risques accrus et souligne la nécessité d'une analyse de sécurité plus approfondie. Pourtant, les méthodes de contournement conçues pour les LLMs ne parviennent pas à exposer ces risques uniques, car elles ne ciblent pas la capacité de recherche des agents DR. Pour combler cette lacune, nous proposons deux nouvelles stratégies de contournement : l'Injection de Plan, qui insère des sous-objectifs malveillants dans le plan de l'agent ; et le Détournement d'Intention, qui reformule les requêtes nuisibles en questions de recherche académique. Nous avons mené des expériences approfondies sur différents LLMs et divers benchmarks de sécurité, incluant des prompts interdits généraux et spécifiques à la biosécurité. Ces expériences révèlent trois conclusions clés : (1) L'alignement des LLMs échoue souvent dans les agents DR, où des prompts nuisibles formulés en termes académiques peuvent détourner l'intention de l'agent ; (2) La planification et l'exécution multi-étapes affaiblissent l'alignement, révélant des vulnérabilités systémiques que les protections au niveau des prompts ne peuvent pas résoudre ; (3) Les agents DR non seulement contournent les refus, mais produisent également un contenu plus cohérent, professionnel et dangereux, comparé aux LLMs autonomes. Ces résultats démontrent un désalignement fondamental dans les agents DR et appellent à de meilleures techniques d'alignement adaptées aux agents DR. Le code et les jeux de données sont disponibles à l'adresse https://chenxshuo.github.io/deeper-harm.
Les modèles génératifs de débruitage existants reposent sur la résolution d'équations différentielles stochastiques (EDS) ou d'équations différentielles ordinaires (EDO) inversées discrétisées. Dans cet article, nous identifions un problème longtemps négligé mais omniprésent dans cette famille de modèles : un désalignement entre le niveau de bruit prédéfini et le niveau de bruit réel encodé dans les états intermédiaires lors de l'échantillonnage. Nous désignons ce désalignement comme un décalage de bruit. À travers une analyse empirique, nous démontrons que ce décalage de bruit est répandu dans les modèles de diffusion modernes et présente un biais systématique, conduisant à une génération sous-optimale en raison à la fois d'une généralisation hors distribution et de mises à jour de débruitage inexactes. Pour résoudre ce problème, nous proposons le Noise Awareness Guidance (NAG), une méthode de correction simple mais efficace qui guide explicitement les trajectoires d'échantillonnage pour qu'elles restent cohérentes avec le calendrier de bruit prédéfini. Nous introduisons également une variante sans classifieur de NAG, qui entraîne conjointement un modèle conditionné par le bruit et un modèle non conditionné via l'abandon conditionné par le bruit, éliminant ainsi le besoin de classifieurs externes. Des expériences approfondies, incluant la génération sur ImageNet et diverses tâches de réglage fin supervisé, montrent que NAG atténue systématiquement le décalage de bruit et améliore considérablement la qualité de génération des modèles de diffusion grand public.
Les modèles de langage à grande échelle basés sur la diffusion (dLLMs) se sont imposés comme une alternative prometteuse aux modèles de langage autoregressifs (AR), en exploitant la génération basée sur le débruitage pour permettre un parallélisme inhérent. Bien que de plus en plus de modèles dLLM open source voient le jour, leur adoption généralisée reste limitée par l'absence d'un cadre d'inférence standardisé et efficace. Nous présentons dInfer, un cadre d'inférence efficace et extensible pour les dLLMs. dInfer décompose le pipeline d'inférence en quatre composants modulaires—le modèle, le gestionnaire d'itérations de diffusion, la stratégie de décodage et le gestionnaire de cache KV—et intègre de nouveaux algorithmes pour chaque composant ainsi que des optimisations au niveau système. Grâce à cette combinaison d'innovations algorithmiques et d'améliorations système, dInfer réalise des gains d'efficacité substantiels sans compromettre la qualité des sorties sur LLaDA-MoE. Avec une taille de lot de 1, il dépasse 1 100 tokens par seconde sur HumanEval et atteint en moyenne plus de 800 tokens par seconde sur six benchmarks avec 8 fois H800 GPUs. Par rapport aux systèmes précédents, dInfer offre une accélération de 10 fois par rapport à Fast-dLLM tout en maintenant des performances de modèle similaires. Même comparé au modèle AR (avec un nombre comparable de paramètres d'activation et de performances) QWen2.5-3B, qui est hautement optimisé avec le dernier moteur d'inférence vLLM, dInfer offre encore une accélération de 2 à 3 fois. L'implémentation de dInfer est open source à l'adresse https://github.com/inclusionAI/dInfer.