Articles de recherche IA sélectionnés quotidiennement avec traductions
Les humains perçoivent et comprennent les espaces du monde réel à travers un flux d’observations visuelles. Ainsi, la capacité à maintenir et mettre à jour de manière continue les preuves spatiales à partir de flux vidéo potentiellement illimités est essentielle pour l’intelligence spatiale. Le principal défi ne réside pas simplement dans l’extension des fenêtres de contexte, mais dans la manière dont l’information spatiale est sélectionnée, organisée et retenue dans le temps. Dans cet article, nous proposons Spatial-TTT, une approche visant une intelligence spatiale basée sur la vision en flux continu via l’apprentissage au moment du test (TTT), qui adapte un sous-ensemble de paramètres (poids rapides) pour capturer et organiser les preuves spatiales sur de longues séquences vidéo. Plus précisément, nous concevons une architecture hybride et adoptons des mises à jour par blocs étendus parallèlement à une attention par fenêtre glissante pour un traitement efficace des vidéos spatiales. Pour renforcer davantage la conscience spatiale, nous introduisons un mécanisme de prédiction spatiale appliqué aux couches TTT avec convolution spatiotemporelle 3D, encourageant le modèle à capturer les correspondances géométriques et la continuité temporelle entre les images. Au-delà de la conception architecturale, nous construisons un jeu de données avec des descriptions spatiales 3D denses, qui guide le modèle pour mettre à jour ses poids rapides afin de mémoriser et organiser les signaux spatiaux 3D globaux de manière structurée. Des expériences approfondies démontrent que Spatial-TTT améliore la compréhension spatiale à long terme et obtient des performances de pointe sur les benchmarks spatiaux vidéo. Page du projet : https://liuff19.github.io/Spatial-TTT.
Les agents multimodaux offrent une voie prometteuse pour automatiser les flux de travail complexes et gourmands en documents. Pourtant, une question cruciale demeure : ces agents font-ils preuve d'un raisonnement stratégique authentique ou se contentent-ils d'une recherche stochastique par essais et erreurs ? Pour y répondre, nous présentons MADQA, un benchmark de 2 250 questions rédigées par des humains et basées sur 800 documents PDF hétérogènes. Guidé par la théorie classique des tests, nous l'avons conçu pour maximiser le pouvoir discriminant entre différents niveaux de capacités agentielles. Pour évaluer le comportement agentiel, nous introduisons un nouveau protocole d'évaluation mesurant le compromis précision-effort. En utilisant ce cadre, nous montrons que si les meilleurs agents peuvent égaler les chercheurs humains en précision brute, ils réussissent sur des questions largement différentes et s'appuient sur une recherche par force brute pour compenser une planification stratégique faible. Ils ne parviennent pas à combler l'écart de près de 20 % avec la performance oracle, persistant dans des boucles improductives. Nous publions le jeu de données et la plateforme d'évaluation pour faciliter la transition d'une récupération par force brute vers un raisonnement calibré et efficace.
Les workflows agentiels à contexte long sont devenus un cas d'usage déterminant pour les grands modèles de langage, rendant l'efficacité de l'attention cruciale pour la vitesse d'inférence et le coût de service. L'attention éparse relève efficacement ce défi, et DeepSeek Sparse Attention (DSA) en est une solution représentative de qualité production : un indexeur léger sélectionne les k tokens les plus pertinents par requête, réduisant l'attention principale de O(L²) à O(Lk). Cependant, l'indexeur lui-même conserve une complexité O(L²) et doit s'exécuter indépendamment à chaque couche, bien que les sélections top-k résultantes soient très similaires entre couches consécutives. Nous présentons IndexCache, qui exploite cette redondance inter-couches en partitionnant les couches en un petit ensemble de couches Pleines exécutant leur propre indexeur et une majorité de couches Partagées réutilisant simplement les indices top-k de la couche Pleine la plus proche. Nous proposons deux approches complémentaires pour déterminer et optimiser cette configuration. IndexCache sans entraînement applique un algorithme de recherche gloutonne qui sélectionne les couches conservant leurs indexeurs en minimisant directement la perte de modélisation du langage sur un ensemble de calibration, sans mise à jour des poids. IndexCache avec entraînement introduit une perte de distillation multi-couches qui entraîne chaque indexeur conservé contre les distributions d'attention moyennes de toutes les couches qu'il dessert, permettant même à des motifs entrelacés simples d'égaler la précision des indexeurs complets. Les résultats expérimentaux sur un modèle DSA 30B montrent qu'IndexCache peut supprimer 75% des calculs d'indexation avec une dégradation de qualité négligeable, atteignant jusqu'à 1,82× d'accélération en préremplissage et 1,48× en décodage par rapport au DSA standard. Ces résultats positifs sont confirmés par nos expériences préliminaires sur le modèle à l'échelle production GLM-5 (Figure 1).
Les agents informatiques (CUA) deviennent de plus en plus performants ; cependant, il reste difficile d'évaluer de manière scalable si une trajectoire satisfait véritablement une instruction utilisateur. Dans ce travail, nous étudions la modélisation de la récompense à partir de vidéos d'exécution : une séquence d'images clés d'une trajectoire d'agent qui est indépendante du raisonnement interne ou des actions de l'agent. Bien que la modélisation par vidéo d'exécution soit agnostique aux méthodes, elle présente des défis majeurs, notamment des dispositions hautement redondantes et des indices subtils et localisés qui déterminent le succès. Nous présentons Execution Video Reward 53k (ExeVR-53k), un jeu de données de 53 000 triplets vidéo–tâche–récompense de haute qualité. Nous proposons en outre la traduction d'instructions adversariales pour synthétiser des échantillons négatifs avec des annotations au niveau des étapes. Pour permettre l'apprentissage à partir de vidéos d'exécution longues et en haute résolution, nous concevons un élagage de tokens spatio-temporels, qui supprime les régions homogènes et les tokens persistants tout en préservant les changements décisifs de l'interface utilisateur. En nous appuyant sur ces composants, nous affinons un modèle de récompense par vidéo d'exécution (ExeVRM) qui ne prend qu'une instruction utilisateur et une séquence vidéo d'exécution pour prédire le succès de la tâche. Notre ExeVRM 8B atteint une précision de 84,7 % et un rappel de 87,7 % sur l'évaluation par vidéo d'exécution, surpassant des modèles propriétaires solides tels que GPT-5.2 et Gemini-3 Pro sur Ubuntu, macOS, Windows et Android, tout en fournissant une attribution temporelle plus précise. Ces résultats montrent que la modélisation de la récompense par vidéo d'exécution peut servir d'évaluateur scalable et agnostique aux modèles pour les CUA.
La génération vidéo pilotée par texte a démocratisé la création cinématographique, mais le contrôle de la caméra dans les scénarios multi-plans reste un obstacle majeur. Les instructions textuelles implicites manquent de précision, tandis que le conditionnement par trajectoires explicites impose une charge manuelle prohibitive et déclenche souvent des échecs d'exécution dans les modèles actuels. Pour surmonter ce goulot d'étranglement, nous proposons un changement de paradigme axé sur les données, postulant que les triplets (Légende, Trajectoire, Vidéo) alignés forment une distribution conjointe intrinsèque capable de relier la planification automatisée et l'exécution précise. Guidés par cette intuition, nous présentons ShotVerse, un framework "Planifier-puis-Contrôler" qui découple la génération en deux agents collaboratifs : un Planificateur basé sur un modèle vision-langage qui exploite des prérequis spatiaux pour obtenir des trajectoires cinématographiques alignées globalement à partir du texte, et un Contrôleur qui restitue ces trajectoires en contenu vidéo multi-plans via un adaptateur de caméra. Au cœur de notre approche se trouve la construction d'un fondement data : nous concevons un pipeline automatisé d'étalonnage multi-plans qui aligne des trajectoires mono-plan disjointes dans un système de coordonnées global unifié. Cela facilite la curation de ShotVerse-Bench, un dataset cinématographique haute fidélité avec un protocole d'évaluation à trois pistes servant de socle à notre framework. Des expériences approfondies démontrent que ShotVerse comble efficacement l'écart entre le contrôle textuel peu fiable et la planification manuelle laborieuse, atteignant une esthétique cinématographique supérieure et générant des vidéos multi-plans à la fois précises au niveau caméra et cohérentes entre les plans.
Si les modèles de diffusion à grande échelle ont révolutionné la synthèse vidéo, le contrôle précis de l'identité multi-sujets et du mouvement multi-granularité reste un défi majeur. Les tentatives récentes pour combler cet écart souffrent souvent d'une granularité de mouvement limitée, d'une ambiguïté de contrôle et d'une dégradation identitaire, conduisant à des performances sous-optimales pour la préservation des identités et le contrôle du mouvement. Dans ce travail, nous présentons DreamVideo-Omni, un cadre unifié permettant une personnalisation harmonieuse multi-sujets avec un contrôle omni-mouvement via un paradigme d'apprentissage progressif en deux étapes. Dans la première étape, nous intégrons des signaux de contrôle complets pour un apprentissage conjoint, englobant les apparences des sujets, le mouvement global, la dynamique locale et les mouvements de caméra. Pour garantir une contrôlabilité robuste et précise, nous introduisons un encodage positionnel rotatif 3D conscient des conditions pour coordonner les entrées hétérogènes et une stratégie d'injection hiérarchique du mouvement pour renforcer le guidage du mouvement global. De plus, pour résoudre l'ambiguïté multi-sujets, nous introduisons des encodages de groupe et de rôle pour ancrer explicitement les signaux de mouvement à des identités spécifiques, désentrelaçant efficacement les scènes complexes en instances contrôlables indépendantes. Dans la deuxième étape, pour atténuer la dégradation identitaire, nous concevons un paradigme d'apprentissage par rétroaction de récompense identitaire latente en entraînant un modèle de récompense identitaire latente sur une architecture de diffusion vidéo pré-entraînée. Cela fournit des récompenses identitaires sensibles au mouvement dans l'espace latent, priorisant la préservation de l'identité alignée sur les préférences humaines. Soutenu par notre jeu de données à grande échelle soigneusement constitué et par le benchmark complet DreamOmni Bench pour l'évaluation du contrôle multi-sujets et omni-mouvement, DreamVideo-Omni démontre des performances supérieures dans la génération de vidéos de haute qualité avec une contrôlabilité précise.
L'apprentissage par renforcement (RL) s'est imposé comme un paradigme prometteur pour améliorer l'édition d'images et la génération de texte-à-image (T2I). Cependant, les modèles de récompense actuels, qui agissent comme des critiques durant le RL, souffrent souvent d'hallucinations et attribuent des scores bruités, induisant en erreur le processus d'optimisation. Dans cet article, nous présentons FIRM (Faithful Image Reward Modeling), un cadre complet développant des modèles de récompense robustes pour fournir un guidage précis et fiable envers une génération et une édition d'images fidèles. Premièrement, nous concevons des pipelines de curation de données sur mesure pour construire des ensembles de données de scoring de haute qualité. Spécifiquement, nous évaluons l'édition en utilisant à la fois l'exécution et la cohérence, tandis que la génération est principalement évaluée via le suivi des instructions. En utilisant ces pipelines, nous collectons les ensembles de données FIRM-Edit-370K et FIRM-Gen-293K, et entraînons des modèles de récompense spécialisés (FIRM-Edit-8B et FIRM-Gen-8B) qui reflètent fidèlement ces critères. Deuxièmement, nous introduisons FIRM-Bench, un benchmark complet spécialement conçu pour les critiques d'édition et de génération. Les évaluations démontrent que nos modèles atteignent une meilleure alignement avec le jugement humain comparé aux métriques existantes. De plus, pour intégrer de manière transparente ces critiques dans le pipeline RL, nous formulons une nouvelle stratégie de récompense « Base-et-Bonus » qui équilibre les objectifs concurrents : l'Exécution Modulée par la Cohérence (EMC) pour l'édition et l'Alignement Modulé par la Qualité (AMQ) pour la génération. Renforcés par ce cadre, nos modèles résultants FIRM-Qwen-Edit et FIRM-SD3.5 atteignent des avancées substantielles en termes de performances. Des expériences exhaustives démontrent que FIRM atténue les hallucinations, établissant un nouveau standard en matière de fidélité et de respect des instructions par rapport aux modèles généraux existants. L'ensemble de nos ensembles de données, modèles et code sont publics à l'adresse https://firm-reward.github.io.
Les agents multimodaux peuvent désormais traiter des tâches de raisonnement complexes avec divers outils, mais ils souffrent encore d'une utilisation inefficace des outils et d'une orchestration rigide dans des environnements ouverts. Un défi central consiste à permettre à ces agents de s'améliorer continuellement sans mise à jour des paramètres en apprenant des trajectoires passées. Nous identifions deux formes complémentaires de connaissances réutilisables essentielles pour cet objectif : les expériences, fournissant des conseils concis au niveau actionnel pour la sélection d'outils et la prise de décision, et les compétences, fournissant des conseils structurés au niveau tâche pour la planification et l'utilisation d'outils. À cette fin, nous proposons XSkill, un framework à double flux pour l'apprentissage continu à partir des expériences et des compétences dans les agents multimodaux. XSkill ancre à la fois l'extraction et la récupération des connaissances dans les observations visuelles. Pendant l'accumulation, XSkill distille et consolide les expériences et les compétences à partir de déploiements multi-chemins via une synthèse visuellement ancrée et une critique croisée entre les déploiements. Pendant l'inférence, il récupère et adapte ces connaissances au contexte visuel actuel et renvoie l'historique d'utilisation dans l'accumulation pour former une boucle d'apprentissage continu. Évalué sur cinq benchmarks couvrant divers domaines avec quatre modèles de base, XSkill surpasse constamment et substantiellement les lignes de base basées uniquement sur les outils et celles reposant sur l'apprentissage. Une analyse plus poussée révèle que les deux flux de connaissances jouent des rôles complémentaires dans l'influence des comportements de raisonnement des agents et démontrent une généralisation zero-shot supérieure.
L'estimation de profondeur vidéo actuelle est confrontée à un compromis fondamental : les modèles génératifs souffrent d'hallucinations géométriques stochastiques et de dérive d'échelle, tandis que les modèles discriminatifs exigent des ensembles de données étiquetées massifs pour résoudre les ambiguïtés sémantiques. Pour sortir de cette impasse, nous présentons DVD, le premier cadre permettant d'adapter de manière déterministe des modèles de diffusion vidéo pré-entraînés en régresseurs de profondeur en une seule passe. Plus précisément, DVD comporte trois conceptions fondamentales : (i) la réaffectation du pas de temps de diffusion comme ancre structurelle pour équilibrer la stabilité globale avec les détails haute fréquence ; (ii) la rectification de la variété latente (LMR) pour atténuer le lissage excessif induit par la régression, en appliquant des contraintes différentielles pour restaurer les contours nets et la cohérence du mouvement ; et (iii) la cohérence affine globale, une propriété inhérente qui borne la divergence inter-fenêtres, permettant une inférence vidéo longue sans nécessiter d'alignement temporel complexe. Des expériences approfondies démontrent que DVD atteint des performances state-of-the-art en généralisation zero-shot sur divers benchmarks. De plus, DVD déverrouille avec succès les profondes connaissances géométriques implicites dans les modèles de fondation vidéo en utilisant 163 fois moins de données spécifiques à la tâche que les meilleures méthodes de référence. Fait notable, nous publions entièrement notre pipeline, fournissant l'ensemble des outils d'entraînement pour l'estimation de profondeur vidéo state-of-the-art au profit de la communauté open-source.
L'édition d'images basée sur des instructions vise à modifier un contenu spécifique dans des images existantes selon les instructions de l'utilisateur, tout en préservant les régions non ciblées. Au-delà de la manipulation traditionnelle centrée sur les objets et les styles, l'édition d'images centrée sur le texte se concentre sur la modification, la traduction ou la réorganisation des éléments textuels intégrés dans les images. Cependant, les modèles leaders existants peinent souvent à exécuter avec précision des éditions textuelles complexes, produisant fréquemment des caractères flous ou hallucinés. Nous attribuons principalement ces échecs à l'absence de paradigmes d'entraînement spécialisés adaptés à l'édition centrée sur le texte, ainsi qu'au manque de jeux de données à grande échelle et de benchmarks standardisés nécessaires à un système d'entraînement et d'évaluation en boucle fermée. Pour résoudre ces limitations, nous présentons WeEdit, une solution systématique comprenant un pipeline de construction de données évolutif, deux benchmarks et une stratégie d'entraînement en deux étapes sur mesure. Spécifiquement, nous proposons un nouveau pipeline d'édition automatique basé sur HTML, qui génère 330 000 paires d'entraînement couvrant diverses opérations d'édition et 15 langues, accompagnées de benchmarks bilingues et multilingues standardisés pour une évaluation complète. Sur le plan algorithmique, nous utilisons un fine-tuning supervisé guidé par la glyphe pour injecter des préalables spatiaux et de contenu explicites, suivi d'une étape d'apprentissage par renforcement multi-objectif pour aligner la génération sur le respect des instructions, la clarté du texte et la préservation de l'arrière-plan. Des expériences approfondies démontrent que WeEdit surpasse les modèles open-source précédents par une marge significative sur diverses opérations d'édition.
Les modèles multimodaux unifiés visent une compréhension, un raisonnement et une génération conjoints, mais les benchmarks actuels en édition d'image se limitent largement aux images naturelles et à un raisonnement de bon sens superficiel, offrant une évaluation limitée de cette capacité sous des contraintes structurées et spécifiques à un domaine. Dans ce travail, nous présentons GRADE, le premier benchmark conçu pour évaluer les connaissances et le raisonnement disciplinaires en édition d'image. GRADE comprend 520 échantillons soigneusement sélectionnés couvrant 10 domaines académiques, des sciences naturelles aux sciences sociales. Pour supporter une évaluation rigoureuse, nous proposons un protocole d'évaluation multidimensionnel qui évalue conjointement le Raisonnement Disciplinaire, la Cohérence Visuelle et la Lisibilité Logique. Des expériences approfondies sur 20 modèles open-source et propriétaires de pointe révèlent des limitations substantielles des modèles actuels dans des contextes d'édition implicites et riches en connaissances, entraînant d'importants écarts de performance. Au-delà des scores quantitatifs, nous menons des analyses et ablations rigoureuses pour exposer les lacunes des modèles et identifier les contraintes propres à l'édition disciplinaire. GRADE identifie ainsi des directions clés pour le développement futur des modèles multimodaux unifiés, faisant progresser la recherche sur l'édition d'image et le raisonnement fondés sur les disciplines. Notre benchmark et notre code d'évaluation sont publiquement disponibles.
Les transformateurs de diffusion (DiT) atteignent une qualité générative élevée mais verrouillent les FLOPs à la résolution de l'image, limitant les compromis principés entre latence et qualité, et allouent le calcul uniformément sur les tokens spatiaux d'entrée, gaspillant ainsi l'allocation des ressources dans les régions non importantes. Nous présentons Elastic Latent Interface Transformer (ELIT), un mécanisme interchangeable et compatible DiT qui découple la taille de l'image d'entrée du calcul. Notre approche insère une interface latente, une séquence de tokens de longueur variable et apprenable sur laquelle des blocs transformeurs standards peuvent opérer. Des couches de lecture et d'écriture par attention croisée légères transfèrent l'information entre les tokens spatiaux et les latents, et hiérarchisent les régions importantes de l'entrée. En entraînant avec un abandon aléatoire des latents de queue, ELIT apprend à produire des représentations ordonnées par importance, les premiers latents capturant la structure globale tandis que les derniers contiennent l'information pour affiner les détails. Lors de l'inférence, le nombre de latents peut être ajusté dynamiquement pour correspondre aux contraintes de calcul. ELIT est délibérément minimal, n'ajoutant que deux couches d'attention croisée tout en laissant inchangés l'objectif de flux rectifié et l'architecture DiT. Sur divers ensembles de données et architectures (DiT, U-ViT, HDiT, MM-DiT), ELIT apporte des gains constants. Sur ImageNet-1K 512px, ELIT offre un gain moyen de 35,3 % et 39,6 % pour les scores FID et FDD. Page du projet : https://snap-research.github.io/elit/
Un élément clé de la créativité est le raisonnement associatif : la capacité à établir des connexions nouvelles mais significatives entre des concepts. Nous présentons CREATE, un benchmark conçu pour évaluer la capacité des modèles à effectuer un raisonnement associatif créatif. CREATE exige que les modèles génèrent des ensembles de chemins reliant des concepts au sein des connaissances paramétriques d'un modèle. Les chemins doivent présenter une haute spécificité (caractère distinctif et proximité de la connexion conceptuelle) et une grande diversité (dissimilarité par rapport aux autres chemins), et les modèles obtiennent un score plus élevé s'ils produisent un ensemble plus important de chemins solides et diversifiés. Cette tâche partage les exigences des véritables tâches de créativité comme la génération d'hypothèses, notamment un espace de recherche extrêmement vaste, mais permet la collecte d'un benchmark substantiel avec une évaluation objective des réponses. L'évaluation des modèles les plus avancés montre que les plus performants atteignent une utilité créative supérieure aux autres, la grande multiplicité des réponses et la complexité de la recherche rendant difficile la saturation du benchmark. De plus, nos résultats illustrent que les modèles de pensée ne sont pas toujours plus efficaces sur notre tâche, même avec des budgets de tokens élevés. Les approches récentes d'incitation créative apportent une amélioration supplémentaire, mais limitée. CREATE offre un environnement de test pour développer de nouvelles méthodes afin d'améliorer la capacité des modèles en matière de créativité associative.
Les modèles génératifs vidéo autorégressifs (AR) reposent sur des tokeniseurs vidéo qui compressent les pixels en séquences discrètes de tokens. La longueur de ces séquences de tokens est cruciale pour équilibrer la qualité de reconstruction et le coût computationnel de la génération en aval. Les tokeniseurs vidéo traditionnels appliquent une attribution uniforme de tokens sur des blocs temporels de différentes vidéos, gaspillant souvent des tokens sur des segments simples, statiques ou répétitifs, tout en sous-allouant les segments dynamiques ou complexes. Pour remédier à cette inefficacité, nous présentons EVATok, un cadre permettant de produire des tokeniseurs vidéo adaptatifs efficaces. Notre framework estime les attributions optimales de tokens pour chaque vidéo afin d'atteindre le meilleur compromis qualité-coût, développe des routeurs légers pour une prédiction rapide de ces attributions optimales, et entraîne des tokeniseurs adaptatifs qui encodent les vidéos en fonction des attributions prédites par les routeurs. Nous démontrons qu'EVATok apporte des améliorations substantielles en efficacité et en qualité globale pour la reconstruction vidéo et la génération AR en aval. Renforcé par notre méthode d'entraînement avancée qui intègre des encodeurs sémantiques vidéo, EVATok atteint une reconstruction supérieure et une génération classe-vers-vidéo de pointe sur UCF-101, avec au moins 24,4 % d'économie d'utilisation moyenne de tokens par rapport à l'état de l'art précédent (LARP) et à notre baseline à longueur fixe.
La génération dense de descriptions d'images est essentielle pour l'alignement intermodal dans le pré-entraînement vision-langage et la génération d'images à partir de texte, mais la mise à l'échelle des annotations de qualité experte est prohibitivement coûteuse. Si la génération synthétique de descriptions via des modèles vision-langage (VLM) performants constitue une alternative pratique, la distillation supervisée produit souvent une diversité de sorties limitée et une faible généralisation. L'apprentissage par renforcement (RL) pourrait surmonter ces limitations, mais ses succès se sont jusqu'ici concentrés dans des domaines vérifiables s'appuyant sur des vérificateurs déterministes – un luxe indisponible pour la description ouverte. Nous abordons ce goulot d'étranglement avec RubiCap, un nouveau cadre RL qui tire des signaux de récompense granulaires et spécifiques à chaque échantillon de grilles d'évaluation rédigées par des LLM. RubiCap assemble d'abord un comité diversifié de descriptions candidates, puis emploie un rédacteur de grille LLM pour extraire les points forts consensuels et diagnostiquer les carences de la politique actuelle. Ces insights sont convertis en critères d'évaluation explicites, permettant à un juge LLM de décomposer l'évaluation qualitative holistique et de remplacer les récompenses scalaires grossières par des évaluations structurées et multidimensionnelles. Sur de nombreux benchmarks, RubiCap atteint les taux de victoire les plus élevés sur CapArena, surpassant la distillation supervisée, les méthodes RL antérieures, les annotations d'experts humains et les sorties augmentées par GPT-4V. Sur CaptionQA, il démontre une efficacité lexicale supérieure : notre modèle 7B égale Qwen2.5-VL-32B-Instruct, et notre modèle 3B surpasse son homologue 7B. Fait remarquable, l'utilisation du compact RubiCap-3B comme générateur de descriptions produit des VLM pré-entraînés plus performants que ceux entraînés sur des descriptions issues de modèles propriétaires.
Récemment, les modèles de langage multimodaux de grande taille (MLLM) ont été largement intégrés aux architectures de diffusion, principalement en tant qu’encodeurs de texte, pour traiter des tâches complexes telles que le raisonnement spatial. Cependant, ce paradigme présente deux limites majeures : (i) la profondeur de raisonnement de l’encodeur de texte des MLLM est insuffisante. Un encodage en une seule étape ne permet pas d’activer le processus de chaîne de pensée (Chain-of-Thought), pourtant essentiel pour que les MLLM fournissent des guidages précis dans des tâches complexes. (ii) Le guidage reste invariant pendant le processus de décodage. Cette invariance empêche le modèle de diffusion transformeur (DiT) de décomposer progressivement des instructions complexes en étapes de débruitage actionnables, même avec un encodage MLLM correct. Pour remédier à ces problèmes, nous proposons Endogenous Chain-of-Thought (EndoCoT), un nouveau cadre qui active d’abord le potentiel de raisonnement des MLLM en affinant itérativement les états de pensée latents via un module de guidage itératif, puis relie ces états au processus de débruitage du DiT. Ensuite, un module d’ancrage terminal est appliqué pour garantir que la trajectoire de raisonnement reste ancrée dans la supervision textuelle, en alignant l’état final avec les réponses de référence. Grâce à ces deux composants, l’encodeur de texte du MLLM délivre un guidage finement raisonné, permettant au DiT de l’exécuter progressivement et ainsi de résoudre des tâches complexes étape par étape. Des évaluations approfondies sur divers benchmarks (par exemple, Maze, TSP, VSP et Sudoku) atteignent une précision moyenne de 92,1 %, surpassant la baseline la plus performante de 8,3 points de pourcentage.
Les agents visuels modernes nécessitent des représentations générales, causales et structurellement physiques pour fonctionner dans des environnements de flux en temps réel. Cependant, les modèles de fondation visuels actuels restent fragmentés, se spécialisant étroitement dans la perception sémantique d'images, la modélisation temporelle hors ligne ou la géométrie spatiale. Cet article présente OmniStream, un backbone visuel unifié pour le streaming qui perçoit, reconstruit et agit efficacement à partir de diverses entrées visuelles. En intégrant une attention spatiotemporelle causale et des encodages positionnels rotatifs 3D (3D-RoPE), notre modèle prend en charge un traitement en ligne efficace, image par image, des flux vidéo via un cache KV persistant. Nous pré-entraînons OmniStream à l'aide d'un cadre multitâche synergique couplant l'apprentissage de représentations statiques et temporelles, la reconstruction géométrique en flux continu et l'alignement vision-langue sur 29 jeux de données. Des évaluations approfondies montrent que, même avec un backbone strictement gelé, OmniStream atteint des performances constamment compétitives par rapport à des experts spécialisés dans des tâches variées : sondage d'images et de vidéos, reconstruction géométrique en streaming, raisonnement complexe sur la vidéo et l'espace, ainsi que la manipulation robotique (non vue pendant l'entraînement). Plutôt que de viser la dominance sur des benchmarks spécifiques, notre travail démontre la viabilité d'entraîner un unique backbone visuel polyvalent qui généralise à travers le raisonnement sémantique, spatial et temporel, c'est-à-dire une étape plus significative vers une compréhension visuelle générale pour les agents interactifs et incarnés.
La splatting gaussienne 3D (3DGS) s'est imposée comme une représentation puissante pour le rendu de haute qualité dans un large éventail d'applications. Cependant, ses exigences computationnelles élevées et ses coûts de stockage importants posent des défis majeurs pour son déploiement sur les appareils mobiles. Dans ce travail, nous proposons une méthode de splatting gaussienne en temps réel adaptée aux mobiles, baptisée Mobile-GS, permettant une inférence efficace de la splatting gaussienne sur les appareils embarqués. Plus précisément, nous identifions d'abord le mélange alpha (alpha blending) comme le principal goulot d'étranglement computationnel, car il repose sur le processus chronophage de tri par profondeur des gaussiennes. Pour résoudre ce problème, nous proposons un schéma de rendu indépendant de l'ordre et sensible à la profondeur qui élimine le besoin de tri, accélérant ainsi considérablement le rendu. Bien que ce rendu indépendant de l'ordre améliore la vitesse de rendu, il peut introduire des artefacts de transparence dans les régions où la géométrie se superpose en raison de la rareté de l'ordre de rendu. Pour résoudre ce problème, nous proposons une stratégie d'amélioration neuronale dépendante de la vue, permettant une modélisation plus précise des effets dépendants de la vue conditionnés par la direction d'observation, la géométrie gaussienne 3D et les attributs d'apparence. Ainsi, Mobile-GS peut atteindre à la fois un rendu de haute qualité et en temps réel. De plus, pour faciliter le déploiement sur des plates-formes mobiles à mémoire limitée, nous introduisons également une distillation des harmoniques sphériques du premier ordre, une technique de quantification vectorielle neuronale et une stratégie d'élagage basée sur la contribution pour réduire le nombre de primitives gaussiennes et compresser la représentation gaussienne 3D à l'aide de réseaux neuronaux. Des expériences approfondies démontrent que notre méthode Mobile-GS atteint un rendu en temps réel et une taille de modèle compacte tout en préservant une qualité visuelle élevée, la rendant ainsi particulièrement adaptée aux applications mobiles.
Les grands modèles de langage entraînés sur du texte naturel présentent une anisotropie marquée : un petit nombre de directions concentre une énergie disproportionnée, tandis que les dimensions restantes forment une large queue sémantique. Dans les régimes d'entraînement en basse précision, cette géométrie devient numériquement instable. Étant donné que les échelles de quantification par bloc sont déterminées par les magnitudes élémentaires extrêmes, les directions dominantes étirent la plage dynamique, comprimant les variations sémantiques de longue queue dans des intervalles numériques étroits. Nous montrons que cette instabilité est principalement pilotée par un biais de moyenne cohérent de rang un, qui constitue la composante dominante de l'anisotropie spectrale dans les représentations des LLM. Cette composante moyenne émerge systématiquement à travers les couches et les étapes d'entraînement et explique la majorité des magnitudes d'activation extrêmes, ce qui en fait le principal facteur d'inflation de la plage dynamique en basse précision. De manière cruciale, parce que l'instabilité dominante est de rang un, elle peut être éliminée par une simple opération de soustraction de la moyenne au niveau source. Ce conditionnement centré sur le biais retrouve la plupart des avantages de stabilité des méthodes spectrales basées sur la SVD tout en ne nécessitant que des opérations de réduction et des noyaux de quantification standard. Les résultats empiriques sur l'entraînement en FP4 (W4A4G4) montrent que la suppression de la moyenne réduit considérablement l'écart de perte par rapport au BF16 et restaure les performances en aval, offrant une voie matériellement efficace vers un entraînement stable des LLM en basse précision.
Cet article présente MR-Search, une formulation méta d'apprentissage par renforcement (RL) contextuelle pour la recherche agentique avec auto-réflexion. Au lieu d'optimiser une politique dans un épisode unique indépendant avec des récompenses éparses, MR-Search entraîne une politique qui se conditionne sur les épisodes passés et adapte sa stratégie de recherche d'un épisode à l'autre. MR-Search apprend à apprendre une stratégie de recherche avec auto-réflexion, permettant aux agents de recherche d'améliorer l'exploration contextuelle lors des tests. Plus précisément, MR-Search effectue une exploration inter-épisodes en générant des auto-réflexions explicites après chaque épisode et en les exploitant comme contexte supplémentaire pour guider les tentatives suivantes, favorisant ainsi une exploration plus efficace pendant les tests. Nous introduisons en outre un algorithme de RL multi-tours qui estime un avantage relatif dense au niveau du tour, permettant un attribution de crédit fine sur chaque épisode. Les résultats empiriques sur diverses benchmarks démontrent les avantages de MR-Search par rapport aux méthodes de RL de référence, affichant une forte généralisation et des améliorations relatives de 9,2 % à 19,3 % sur huit benchmarks. Notre code et nos données sont disponibles à l'adresse https://github.com/tengxiao1/MR-Search.
En situation de déploiement réel, les modèles vision-langage sont souvent confrontés à des perturbations telles que les conditions météorologiques, les occlusions et les mouvements de la caméra. Dans de telles conditions, leur compréhension et leur raisonnement se dégradent considérablement, révélant un écart entre les paramètres d'évaluation propres et contrôlés (c'est-à-dire non perturbés) et la robustesse requise dans le monde réel. Pour remédier à cette limitation, nous proposons ROVA, un nouveau cadre d'entraînement qui améliore la robustesse en modélisant une récompense de cohérence prenant en compte la robustesse sous l'effet de corruptions spatio-temporelles. ROVA introduit une stratégie d'entraînement en ligne adaptée à la difficulté qui priorise les échantillons informatifs en fonction des capacités évolutives du modèle. Plus précisément, il réévalue continuellement la difficulté des échantillons via une évaluation autoréflexive, permettant un entraînement adaptatif avec une récompense de cohérence axée sur la robustesse. Nous présentons également PVRBench, un nouveau benchmark qui injecte des perturbations du monde réel dans des ensembles de données vidéo incarnées pour évaluer à la fois la précision et la qualité du raisonnement sous des perturbations réalistes. Nous évaluons ROVA et les modèles de référence sur PVRBench, UrbanVideo et VisBench, où les modèles open source et propriétaires subissent des baisses allant jusqu'à 35 % en précision et 28 % en raisonnement sous des perturbations réalistes. ROVA atténue efficacement cette dégradation des performances, améliorant la précision relative d'au moins 24 % et le raisonnement de plus de 9 % par rapport aux modèles de référence (QWen2.5/3-VL, InternVL2.5, Embodied-R). Ces gains se transfèrent aux benchmarks standards propres, produisant des améliorations constantes.
Si les grands modèles de langage (LLM) ont obtenu des succès remarquables en génération de code, ils peinent souvent avec le raisonnement profond et à long terme requis pour l'ingénierie logicielle complexe. Nous attribuons cette limitation à la nature des données standard de pré-entraînement : les dépôts de logiciels statiques ne représentent que l'état final d'un processus intellectuel complexe, occultant la planification intermédiaire, le débogage et l'affinement itératif. Pour combler cette lacune, nous proposons un nouveau paradigme : la compréhension par reconstruction. Nous émettons l'hypothèse que la rétro-ingénierie des trajectoires agentielles latentes – les étapes de planification, de raisonnement et de débogage – sous-jacentes aux dépôts statiques fournit un signal de supervision bien plus riche que le code brut seul. Pour opérationnaliser cette idée, nous introduisons un cadre qui synthétise ces trajectoires à l'aide d'une simulation multi-agent. Ce processus s'ancre dans les réalités structurelles des dépôts sources (par exemple, les graphes de dépendances et les hiérarchies de fichiers) pour garantir la fidélité. De plus, pour assurer la rigueur logique des données synthétiques, nous utilisons une technique d'optimisation par recherche qui affine itérativement le raisonnement en chaîne de pensée (Chain-of-Thought) pour maximiser la vraisemblance du code de référence. Les résultats empiriques démontrent qu'un pré-entraînement continu sur ces trajectoires reconstruites améliore significativement les performances de Llama-3-8B sur divers benchmarks, incluant la compréhension de contexte long, la compétence en programmation et les capacités agentielles.
L'accent est une composante intégrante de la société, reflétant le multiculturalisme et façonnant la manière dont les individus expriment leur identité. La majorité des locuteurs anglais sont non-natifs (L2), pourtant les systèmes de synthèse vocale actuels modélisent principalement l'anglais avec un accent américain en raison du manque de données accentuées. Nous proposons Accent Vector, une représentation contrôlable permettant la manipulation de l'accent dans la synthèse vocale multilingue sans nécessiter de données d'entraînement accentuées. Accent Vector est obtenu en affinant un système de synthèse vocale sur de la parole native d'une langue différente (c'est-à-dire non anglaise) et en calculant des vecteurs de tâche capturant les caractéristiques accentuelles (c'est-à-dire en anglais). En mettant à l'échelle et en interpolant le vecteur, nous obtenons un contrôle granulaire sur l'intensité de l'accent et générons une parole à accent mixte. De plus, cette méthode se généralise au-delà de l'anglais, permettant un contrôle de l'accent à travers plusieurs langues. Les évaluations objectives et humaines confirment l'efficacité d'Accent Vector pour un contrôle accentuel granulaire et compositionnel.
Les modèles de raisonnement en tant que juges, qui peuvent bénéficier d'une mise à l'échelle au moment de l'inférence, offrent une voie prometteuse pour étendre le succès des modèles de raisonnement à des domaines non vérifiables où la justesse/qualité de la sortie ne peut pas être vérifiée directement. Cependant, bien que les juges de raisonnement aient démontré de meilleures performances sur des benchmarks d'évaluation statique, leur efficacité dans l'entraînement réel des politiques n'a pas été systématiquement examinée. Par conséquent, nous menons une étude rigoureuse pour investiguer l'impact réel des juges sans raisonnement et avec raisonnement dans l'alignement des LLM basé sur l'apprentissage par renforcement. Notre cadre synthétique contrôlé, où un juge "de référence" (gpt-oss-120b) fournit des annotations de préférence pour entraîner des juges plus petits, révèle des différences clés entre les juges sans raisonnement et avec raisonnement : les juges sans raisonnement mènent facilement à du détournement de récompense, tandis que les juges avec raisonnement peuvent conduire à des politiques qui obtiennent de solides performances lorsqu'elles sont évaluées par le juge de référence. Fait intéressant, nous constatons que les politiques entraînées par des juges avec raisonnement atteignent ces performances solides en apprenant à générer des sorties adverses très efficaces qui peuvent également bien réussir sur des benchmarks populaires tels qu'Arena-Hard en trompant d'autres juges-LLM. Combinée à notre analyse approfondie, notre étude met en lumière à la fois des résultats importants et des possibilités d'amélioration pour l'application des juges-LLM (avec raisonnement) dans le post-entraînement des LLM non vérifiables.
La traduction d'environnements complexes d'apprentissage par renforcement (RL) en implémentations haute performance nécessitait traditionnellement des mois d'ingénierie spécialisée. Nous présentons une méthode réutilisable – un modèle d'invite générique, une vérification hiérarchique et une réparation itérative assistée par agent – qui produit des environnements sémantiquement équivalents et haute performance pour moins de 10 $ en coût de calcul. Nous démontrons trois workflows distincts sur cinq environnements. Traduction directe (aucune implémentation performante préexistante) : EmuRust (accélération PPO de 1,5x via le parallélisme Rust pour un émulateur Game Boy) et PokeJAX, le premier simulateur de combat Pokémon parallélisé sur GPU (500M SPS action aléatoire, 15,2M SPS PPO ; 22 320x par rapport à la référence TypeScript). Traduction vérifiée contre des implémentations performantes existantes : débit équivalent à MJX (1,04x) et 5x supérieur à Brax pour des lots GPU de taille identique (HalfCheetah JAX) ; PPO 42x plus rapide (Puffer Pong). Création de nouveaux environnements : TCGJax, le premier moteur JAX déployable pour le jeu de cartes Pokémon (717K SPS action aléatoire, 153K SPS PPO ; 6,6x par rapport à la référence Python), synthétisé à partir d'une spécification extraite du web. À 200 millions de paramètres, la surcharge de l'environnement descend en dessous de 4 % du temps d'entraînement. La vérification hiérarchique (tests de propriété, d'interaction et de déploiement) confirme l'équivalence sémantique pour les cinq environnements ; le transfert de politiques entre backends confirme un écart sim-to-sim nul pour les cinq environnements. TCGJax, synthétisé à partir d'une référence privée absente des dépôts publics, sert de contrôle de contamination pour les problèmes de données de pré-entraînement des agents. L'article contient suffisamment de détails – incluant des invites représentatives, la méthodologie de vérification et les résultats complets – pour qu'un agent de codage puisse reproduire les traductions directement à partir du manuscrit.
La génération visuelle à guidage grossier, qui synthétise des échantillons visuels fins à partir de références dégradées ou de basse fidélité, est essentielle pour diverses applications réelles. Bien que les approches basées sur l'apprentissage soient efficaces, elles sont intrinsèquement limitées par des coûts d'entraînement élevés et une généralisation restreinte due à la collecte de données appariées. En conséquence, des travaux récents sans apprentissage proposent d'exploiter des modèles de diffusion pré-entraînés et d'incorporer un guidage durant le processus d'échantillonnage. Cependant, ces méthodes sans apprentissage nécessitent soit de connaître l'opérateur de transformation directe (fin-vers-grossier), par exemple le sous-échantillonnage bicubique, soit peinent à équilibrer le guidage et la qualité synthétique. Pour relever ces défis, nous proposons une nouvelle méthode guidée utilisant la h-transform, un outil capable de contraindre des processus stochastiques (par exemple, le processus d'échantillonnage) sous des conditions désirées. Spécifiquement, nous modifions la probabilité de transition à chaque pas de temps d'échantillonnage en ajoutant à l'équation différentielle originale une fonction de dérive, qui oriente approximativement la génération vers l'échantillon fin idéal. Pour pallier les erreurs d'approximation inévitables, nous introduisons un calendrier sensible au niveau de bruit qui pondère progressivement moins le terme à mesure que l'erreur augmente, garantissant à la fois l'adhérence au guidage et une synthèse de haute qualité. Des expériences approfondies sur diverses tâches de génération d'images et de vidéos démontrent l'efficacité et la généralisation de notre méthode.
Les travaux récents synthétisent des tâches agentiques pour l'utilisation d'outils par les LLM après entraînement, mais la robustesse de la généralisation face aux variations des tâches et des ensembles d'outils reste un défi non résolu. Nous attribuons cette fragilité à une diversité insuffisante dans les tâches synthétisées. Augmenter la diversité est difficile car l'entraînement exige que les tâches restent exécutables et vérifiables, tandis que la généralisation nécessite une couverture de types d'outils variés, de combinaisons d'ensembles d'outils et de patterns hétérogènes d'utilisation des outils. Nous proposons DIVE, une méthode fondée sur des preuves qui inverse l'ordre de synthèse : elle exécute d'abord des outils réels diversifiés, puis dérive de manière inverse les tâches strictement impliquées par les traces résultantes, fournissant ainsi un ancrage par construction. DIVE fait évoluer la diversité structurelle selon deux axes contrôlables : la couverture du pool d'outils et la variété des ensembles d'outils par tâche. Une boucle Collection de Preuves–Dérivation de Tâches induit en outre de riches patterns d'utilisation d'outils multi-étapes couvrant 373 outils dans cinq domaines. L'entraînement de Qwen3-8B sur les données DIVE (48k SFT + 3.2k RL) améliore les performances de +22 points en moyenne sur 9 benchmarks hors distribution (OOD) et surpasse de +68 points le plus performant des modèles de référence de 8B. Fait remarquable, une analyse contrôlée de l'échelle révèle que l'augmentation de la diversité surpasse constamment l'augmentation de la quantité de données pour la généralisation OOD, et ce même avec 4 fois moins de données.
Tiny Aya redéfinit les capacités des petits modèles de langage multilingues. Entraîné sur 70 langues et affiné par un post-entraînement tenant compte des régions, il offre une qualité de traduction de pointe, une solide compréhension multilingue et une génération de haute qualité en langue cible, le tout avec seulement 3,35 milliards de paramètres. Cette publication inclut un modèle de base pré-entraîné, une variante ajustée aux instructions et équilibrée mondialement, ainsi que trois modèles spécialisés par région ciblant les langues d'Afrique, d'Asie du Sud, d'Europe, d'Asie-Pacifique et d'Asie occidentale. Ce rapport détaille la stratégie d'entraînement, la composition des données et le cadre d'évaluation complet de Tiny Aya, et propose une alternative à la course à l'échelle pour l'IA multilingue : une approche axée sur l'efficacité, des performances équilibrées entre les langues et un déploiement pratique.
La distillation standard des grands modèles de langage gaspille des ressources computationnelles sur deux fronts : les problèmes que l'étudiant maîtrise déjà (gradients proches de zéro) et les problèmes bien au-delà de sa portée (gradients incohérents qui érodent les capacités existantes). Nous montrons que ce gaspillage n'est pas seulement intuitif mais structurellement inévitable : le rapport signal-bruit du gradient en distillation s'annule de manière prouvée aux deux extrêmes du taux de réussite. Cette observation théorique conduit à Paced, un cadre qui concentre la distillation sur la zone de développement proximal – la frontière de compétence d'un modèle étudiant – via un poids de taux de réussite principé w(p) = p^α(1 - p)^β dérivé de la structure d'annulation aux frontières des gradients de distillation. Résultats clés : (1) Théorie : Nous prouvons que le noyau Beta w(p) = p^α(1-p)^β est une famille de poids d'ordre principal découlant de la structure SNR de la distillation, et qu'il est minimax-robuste – sous une mauvaise spécification multiplicative bornée, la perte d'efficacité dans le pire cas n'est que O(δ²). (2) Distillation : Sur la distillation d'un grand modèle enseignant vers un petit modèle étudiant avec la KL forward, Paced obtient un gain significatif par rapport au modèle de base, tout en maintenant un faible niveau d'oubli sur les benchmarks. (3) Auto-distillation : Sur des modèles fine-tunés pour les instructions avec la KL reverse, les gains dépassent également les bases de référence. (4) Synergie à deux étapes : Un calendrier KL forward puis KL reverse produit les résultats les plus solides dans notre cadre, atteignant des améliorations substantielles sur les benchmarks de raisonnement standard – soutenant une interprétation de la distillation comme couverture des modes puis consolidation. Toutes les configurations ne nécessitent que des rollouts de l'étudiant pour estimer les taux de réussite, n'exigent aucune modification architecturale et sont compatibles avec toute direction de KL.
Nous présentons FireRedASR2S, un système industriel de pointe tout-en-un de reconnaissance automatique de la parole (ASR). Il intègre quatre modules dans un pipeline unifié : ASR, Détection d'Activité Vocale (VAD), Identification de la Langue Parlée (LID) et Prédiction de la Ponctuation (Punc). Tous les modules atteignent des performances de pointe sur les benchmarks évalués : **FireRedASR2** : Un module ASR avec deux variantes, FireRedASR2-LLM (8B+ paramètres) et FireRedASR2-AED (1B+ paramètres), prenant en charge la transcription de la parole et du chant pour le mandarin, les dialectes et accents chinois, l'anglais et l'alternance codique. Comparé à FireRedASR, FireRedASR2 offre une précision de reconnaissance améliorée et une couverture plus large des dialectes et accents. FireRedASR2-LLM atteint un CER moyen de 2,89 % sur 4 benchmarks publics de mandarin et de 11,55 % sur 19 benchmarks publics de dialectes et accents chinois, surpassant les bases de référence compétitives incluant Doubao-ASR, Qwen3-ASR et Fun-ASR. **FireRedVAD** : Un module ultraléger (0,6M paramètres) basé sur le Deep Feedforward Sequential Memory Network (DFSMN), prenant en charge le VAD en flux, le VAD non-streaming et le VAD multi-label (mVAD). Sur le benchmark FLEURS-VAD-102, il atteint un F1 au niveau frame de 97,57 % et une AUC-ROC de 99,60 %, surpassant Silero-VAD, TEN-VAD, FunASR-VAD et WebRTC-VAD. **FireRedLID** : Un module LID de type Encodeur-Décodeur prenant en charge plus de 100 langues et plus de 20 dialectes et accents chinois. Sur FLEURS (82 langues), il atteint une précision au niveau de l'énoncé de 97,18 %, surpassant Whisper et SpeechBrain. **FireRedPunc** : Un module de prédiction de la ponctuation de style BERT pour le chinois et l'anglais. Sur des benchmarks multi-domaines, il atteint un F1 moyen de 78,90 %, surpassant FunASR-Punc (62,77 %). Pour faire avancer la recherche dans le traitement de la parole, nous publions les poids des modèles et le code à l'adresse https://github.com/FireRedTeam/FireRedASR2S.
Les modèles de diffusion latente ont établi un nouvel état de l'art en génération visuelle haute résolution. L'intégration d'a priori issus de modèles de fondation visuelle améliore l'efficacité générative, mais les conceptions latentes existantes restent largement heuristiques. Ces approches peinent souvent à unifier la discriminabilité sémantique, la fidélité de reconstruction et la compacité latente. Dans cet article, nous proposons l'Autoencodeur Géométrique (GAE), un cadre théorique qui aborde systématiquement ces défis. En analysant divers paradigmes d'alignement, GAE construit une cible de supervision sémantique optimisée en basse dimension à partir des MFVs pour guider l'autoencodeur. De plus, nous exploitons une normalisation latente qui remplace la divergence KL restrictive des VAE standards, permettant une variété latente plus stable spécialement optimisée pour l'apprentissage par diffusion. Pour garantir une reconstruction robuste sous un bruit de haute intensité, GAE intègre un mécanisme dynamique d'échantillonnage de bruit. Empiriquement, GAE atteint des performances convaincantes sur le benchmark ImageNet-1K 256×256, obtenant un gFID de 1,82 après seulement 80 époques et 1,31 après 800 époques sans Guidage Sans Classifieur, surpassant significativement les méthodes état de l'art existantes. Au-delà de la qualité générative, GAE établit un équilibre supérieur entre compression, profondeur sémantique et stabilité de reconstruction robuste. Ces résultats valident nos considérations de conception, offrant un paradigme prometteur pour la modélisation par diffusion latente. Le code et les modèles sont disponibles publiquement à l'adresse https://github.com/freezing-index/Geometric-Autoencoder-for-Diffusion-Models.
Le pré-entraînement est crucial pour les grands modèles de langage (LLM), car c'est à cette étape que la plupart des représentations et capacités sont acquises. Cependant, le pré-entraînement sur langage naturel présente des problèmes : les textes de haute qualité sont limités, ils contiennent des biais humains, et ils entremêlent connaissances et raisonnement. Cela soulève une question fondamentale : le langage naturel est-il l'unique voie vers l'intelligence ? Nous proposons d'utiliser des automates cellulaires neuronaux (NCA) pour générer des données synthétiques non linguistiques pour le pré-pré-entraînement des LLM – un entraînement sur du langage synthétique puis naturel. Les données NCA présentent une riche structure spatio-temporelle et des statistiques similaires au langage naturel, tout en étant contrôlables et peu coûteuses à générer à grande échelle. Nous constatons qu'un pré-pré-entraînement sur seulement 164 millions de tokens NCA améliore la modélisation du langage en aval jusqu'à 6 % et accélère la convergence jusqu'à 1,6 fois. Étonnamment, cela surpasse même un pré-pré-entraînement sur 1,6 milliard de tokens de langage naturel issu de Common Crawl, avec plus de calcul. Ces gains se transfèrent également à des benchmarks de raisonnement, notamment GSM8K, HumanEval et BigBench-Lite. En étudiant ce qui favorise ce transfert, nous constatons que les couches d'attention sont les plus transférables, et que la complexité optimale des NCA varie selon le domaine : le code bénéficie de dynamiques plus simples, tandis que les mathématiques et le texte web favorisent des dynamiques plus complexes. Ces résultats permettent un réglage systématique de la distribution synthétique pour des domaines cibles. Plus largement, notre travail ouvre une voie vers des modèles plus efficaces avec un pré-entraînement entièrement synthétique.
Les modèles de langage de grande taille multimodaux (MLLM) sont largement adoptés en tant qu'évaluateurs (MLLM-as-a-Judge) en raison de leur forte alignement avec le jugement humain dans diverses tâches visuelles. Cependant, la plupart des modèles évaluateurs existants sont optimisés pour des scénarios à tâche unique et peinent à généraliser à des contextes diversifiés, ce qui constitue une exigence cruciale pour une évaluation fiable. Pour remédier à cette limitation, nous proposons MT-RL-Judge (Multi-Task Reinforcement Learning for MLLM-as-a-Judge), un cadre qui optimise conjointement le modèle évaluateur sur plusieurs tâches en exploitant les capacités de généralisation de l'apprentissage par renforcement. Les résultats expérimentaux comparés à plusieurs modèles de référence démontrent que MT-RL-Judge surpasse ces bases solides tant en cohérence des jugements qu'en corrélation avec les préférences humaines. De plus, notre approche présente une généralisation robuste sur des tâches hors distribution, validant ainsi davantage son efficacité.
Les modèles de diffusion texte-audio produisent des fichiers audio de haute fidélité mais nécessitent des dizaines d'évaluations de fonctions (NFE), entraînant une latence de plusieurs secondes et un débit limité. Nous présentons SoundWeaver, le premier système de service agnostique au modèle et ne nécessitant pas d'entraînement, qui accélère la diffusion texte-audio en amorçant le processus à partir d'audio similaire sémantiquement présent dans le cache. SoundWeaver introduit trois composants : un Sélecteur de Référence qui récupère et aligne temporellement les candidats du cache via un mécanisme de gating sémantique et sensible à la durée ; un Porte de Saut qui détermine dynamiquement le pourcentage de NFE à sauter ; et un Gestionnaire de Cache léger qui maintient l'utilité du cache via une éviction et un raffinement conscients de la qualité. Sur des traces audio du monde réel, SoundWeaver réalise une réduction de latence de 1,8 à 3,0 fois avec un cache de seulement ∼1 000 entrées, tout en préservant ou en améliorant la qualité perceptuelle.
Le pré-entraînement produit un vecteur de paramètres appris qui est généralement traité comme point de départ pour une adaptation itérative ultérieure. Dans ce travail, nous considérons plutôt le résultat du pré-entraînement comme une distribution sur les vecteurs de paramètres, dont le support contient déjà des experts spécifiques aux tâches. Nous montrons que dans les petits modèles, ces solutions expertes occupent une fraction négligeable du volume de cette distribution, rendant leur découverte dépendante de méthodes d'optimisation structurées comme la descente de gradient. En revanche, dans les grands modèles bien pré-entraînés, la densité d'experts par tâche augmente considérablement, de sorte que des spécialistes diversifiés améliorant les tâches peuplent une fraction substantielle du voisinage des poids pré-entraînés. Motivés par cette perspective, nous explorons une méthode simple et entièrement parallèle de post-traitement qui échantillonne N perturbations de paramètres aléatoirement, sélectionne les K meilleures et assemble les prédictions par vote majoritaire. Malgré sa simplicité, cette approche est compétitive avec les méthodes standards de post-traitement comme PPO, GRPO et ES pour les modèles à grande échelle contemporains.
L'apprentissage par renforcement continu (CRL) pour les modèles vision-langage-action (VLA) est une voie prometteuse vers la création d'agents incarnés auto-améliorants capables de s'adapter à des environnements ouverts et en évolution. Cependant, la sagesse conventionnelle en apprentissage continu suggère qu'un réglage fin séquentiel (Seq. FT) naïf entraîne un oubli catastrophique, nécessitant des stratégies de CRL complexes. Dans ce travail, nous prenons du recul et menons une étude systématique du CRL pour les grands modèles VLA pré-entraînés, à travers trois modèles et cinq benchmarks exigeants d'apprentissage par renforcement continu. Nous constatons que, contrairement aux idées reçues, le simple réglage fin séquentiel avec adaptation bas rang (LoRA) est remarquablement efficace : il offre une grande plasticité, présente peu ou pas d'oubli, et conserve une forte capacité de généralisation zero-shot, surpassant souvent des méthodes de CRL plus sophistiquées. Grâce à une analyse détaillée, nous montrons que cette robustesse émerge d'une synergie entre le grand modèle pré-entraîné, l'adaptation efficace en paramètres et l'apprentissage par renforcement on-policy. Ensemble, ces composants remodelent le compromis stabilité-plasticité, rendant l'adaptation continue à la fois stable et évolutive. Nos résultats positionnent le réglage fin séquentiel comme une méthode puissante pour le renforcement continu avec les VLA et offrent de nouvelles perspectives sur l'apprentissage continu à l'ère des grands modèles. Le code est disponible à l'adresse github.com/UT-Austin-RobIn/continual-vla-rl.
Nous proposons Neural Field Thermal Tomography (NeFTY), un cadre de physique différentiable pour la reconstruction quantitative 3D des propriétés des matériaux à partir de mesures thermiques transitoires de surface. Alors que la thermographie traditionnelle repose sur des approximations 1D par pixel qui négligent la diffusion latérale, et que les réseaux de neurones à contraintes physiques (PINNs) échouent souvent dans les scénarios de diffusion transitoire en raison de la raideur des gradients, NeFTY paramétrise le champ de diffusivité 3D comme un champ neuronal continu optimisé via un solveur numérique rigoureux. En tirant parti d'un solveur de physique différentiable, notre approche impose les lois de la thermodynamique comme des contraintes fortes tout en conservant l'efficacité mémoire nécessaire pour la tomographie 3D haute résolution. Notre paradigme de discrétisation puis d'optimisation atténue efficacement le biais spectral et le caractère mal posé inhérents au problème inverse de conduction thermique, permettant la détection de défauts sous-surface à des échelles arbitraires. La validation expérimentale sur des données synthétiques démontre que NeFTY améliore significativement la précision de la localisation des défauts sous-surface par rapport aux méthodes de référence. Détails supplémentaires sur https://cab-lab-princeton.github.io/nefty/
Le contrôle de humanoïdes basé sur la physique a réalisé des progrès remarquables dans la création de comportements réalistes et performants pour un agent unique, mais l'extension de ces capacités aux interactions coopératives humain-objet (HOI) reste un défi. Nous présentons TeamHOI, un cadre qui permet à une politique décentralisée unique de gérer les HOI coopératives avec un nombre quelconque d'agents coopérants. Chaque agent fonctionne à l'aide d'observations locales tout en prêtant attention aux autres coéquipiers via un réseau de politique basé sur un Transformeur avec des jetons de coéquipiers, permettant une coordination évolutive pour des tailles d'équipe variables. Pour garantir le réalisme du mouvement tout en palliant la rareté des données de HOI coopératives, nous introduisons en outre une stratégie masquée de Priorité Motrice Adversariale (AMP) qui utilise des mouvements de référence d'un humain unique tout en masquant les parties du corps interagissant avec l'objet pendant l'entraînement. Les régions masquées sont ensuite guidées par des récompenses de tâche pour produire des comportements coopératifs diversifiés et physiquement plausibles. Nous évaluons TeamHOI sur une tâche coopérative exigeante de portage impliquant de deux à huit agents humanoïdes et des géométries d'objets variées. Enfin, pour favoriser un portage stable, nous concevons une récompense de formation agnostique à la taille de l'équipe et à la forme. TeamHOI atteint des taux de réussite élevés et démontre une coopération cohérente dans diverses configurations avec une seule politique.
Nous présentons NerVE, un cadre eigenspectral unifié pour comprendre comment les réseaux feed-forward (FFN) dans les grands modèles de langage (LLM) organisent et régulent le flux d'information dans l'espace latent de haute dimension. Bien que les FFN dominent le budget de paramètres, leur dynamique en haute dimension reste mal comprise. NerVE comble cette lacune par un suivi léger et économe en mémoire de la dynamique du spectre propre via quatre métriques complémentaires : l'Entropie Spectrale (dispersion), le Ratio de Participation (dimensionalité effective), l'Enrichissement Précoce des Valeurs Propres (prédominance des valeurs hautes) et la divergence de Jensen-Shannon (changements distributionnels). Notre intuition clé est que les non-linéarités des FFN réinjectent de la variance à travers les modes propres, gouvernant fondamentalement l'utilisation des dimensions latentes, et que la géométrie de l'optimiseur module fortement l'ampleur de cette réinjection de variance. Nous validons NerVE à différentes échelles de modèles, et pour diverses configurations architecturales et d'optimiseurs, chacune façonnant de manière unique la dynamique des FFN : les schémas de normalisation contrôlant le flux de variance ; les géométries des poids des FFN contraignant l'espace latent ; l'encodage positionnel et les fonctions d'activation régulant le flux d'information ; et les choix d'optimiseur redistribuant la capacité effective selon la profondeur. Dans tous ces contextes, NerVE retrouve systématiquement des signatures spectrales stables qui corrèlent avec la capacité de généralisation du modèle et répondent de manière prévisible aux choix de conception, généralisant au-delà des transformers aux architectures MLP-Mixer, fournissant ainsi des insights actionnables pour les choix architecturaux et d'optimisation au-delà de la simple méthode essai-erreur.
Le modèle de langage fédéré (FedLM) permet un apprentissage collaboratif sans partage de données brutes, mais il introduit une vulnérabilité critique, car chaque client non digne de confiance peut divulguer l'instance modèle fonctionnelle reçue. Les schémas de tatouage actuels pour FedLM exigent souvent un accès en boîte blanche et une coopération côté client, fournissant uniquement une preuve de propriété au niveau du groupe plutôt qu'une traçabilité individuelle. Nous proposons EmbTracker, un cadre de tatouage en boîte noire traçable côté serveur, spécialement conçu pour les FedLM. EmbTracker atteint une vérifiabilité en boîte noire en incorporant un tatouage basé sur une porte dérobée détectable via de simples requêtes API. La traçabilité au niveau client est réalisée en injectant des tatouages uniques spécifiques à l'identité dans le modèle distribué à chaque client. Ainsi, un modèle divulgué peut être attribué à un coupable spécifique, garantissant une robustesse même contre les participants non coopératifs. Des expériences approfondies sur divers modèles de langage et vision-langage démontrent qu'EmbTracker atteint une traçabilité robuste avec des taux de vérification proches de 100 %, une haute résilience aux attaques de suppression (recalibrage, élagage, quantification) et un impact négligeable sur les performances de la tâche principale (généralement inférieur à 1-2 %).
La reconnaissance audio-visuelle de la parole (AVSR) exploite à la fois les informations acoustiques et visuelles pour une reconnaissance robuste en environnement bruité. Cependant, la manière dont les modèles équilibrent ces modalités reste peu claire. Nous présentons Dr. SHAP-AV, un cadre utilisant les valeurs de Shapley pour analyser les contributions des modalités dans l'AVSR. Par des expériences sur six modèles, deux benchmarks et différents niveaux de RSB, nous introduisons trois analyses : SHAP Global pour l'équilibre modal global, SHAP Générative pour la dynamique des contributions durant le décodage, et SHAP d'Alignement Temporel pour la correspondance entrée-sortie. Nos résultats révèlent que les modèles s'orientent vers une dépendance visuelle sous bruit, mais maintiennent une forte contribution audio même en cas de dégradation sévère. L'équilibre modal évolue durant la génération, l'alignement temporel est préservé sous bruit, et le RSB est le facteur dominant influençant la pondération modale. Ces résultats mettent en lumière un biais audio persistant, motivant des mécanismes de pondération modale ad hoc et l'attribution basée sur Shapley comme outil de diagnostic standard pour l'AVSR.
Les transformateurs présentent souvent un phénomène de puits d'attention : la masse de probabilité se concentre sur une position fixe et agnostique au contenu. Nous démontrons que le calcul d'un comportement conditionnel à un déclencheur simple induit nécessairement un puits dans les modèles d'auto-attention à softmax. Nos résultats formalisent une intuition familière : la normalisation sur un simplexe de probabilité doit forcer l'attention à s'effondrer sur une ancre stable pour réaliser un état par défaut (par exemple, lorsque le modèle doit ignorer l'entrée). Nous illustrons cela par une tâche concrète : lorsqu'un jeton déclencheur désigné apparaît, le modèle doit renvoyer la moyenne de toutes les représentations de jetons précédents, et sinon produire un zéro, une tâche qui reflète le fonctionnement des têtes d'attention en situation réelle (Barbero et al., 2025 ; Guo et al., 2024). Nous prouvons également que l'attention ReLU non normalisée peut résoudre la même tâche sans aucun puits, confirmant que la contrainte de normalisation est le facteur fondamental du comportement de puits. Les expériences valident nos prédictions et montrent qu'elles s'étendent au-delà du cadre théoriquement analysé : les modèles softmax développent des puits prononcés tandis que l'attention ReLU les élimine dans les variantes à tête unique et à têtes multiples.
L'estimation des effets de traitement hétérogènes (ETH) à partir de données de survie censurées à droite est cruciale dans des applications à haut risque telles que la médecine de précision et l'élaboration de politiques individualisées. Cependant, le cadre de l'analyse de survie pose des défis uniques pour l'estimation des ETH en raison de la censure, des contrefactuels non observés et des hypothèses d'identification complexes. Malgré des progrès récents, allant des Forêts de Survie Causales aux méta-apprenants de survie et aux approches par imputation des résultats, les pratiques d'évaluation restent fragmentées et incohérentes. Nous présentons SurvHTE-Bench, le premier benchmark complet pour l'estimation des ETH avec des résultats censurés. Ce benchmark couvre (i) une suite modulaire d'ensembles de données synthétiques avec une vérité terrain connue, faisant systématiquement varier les hypothèses causales et la dynamique de survie, (ii) des ensembles de données semi-synthétiques qui associent des covariables du monde réel à des traitements et des résultats simulés, et (iii) des ensembles de données réels provenant d'une étude sur des jumeaux (avec une vérité terrain connue) et d'un essai clinique sur le VIH. Dans des contextes synthétiques, semi-synthétiques et réels, nous fournissons la première comparaison rigoureuse des méthodes d'estimation des ETH en survie dans diverses conditions et sous des violations réalistes des hypothèses. SurvHTE-Bench établit une base pour une évaluation équitable, reproductible et extensible des méthodes de survie causale. Les données et le code de notre benchmark sont disponibles à l'adresse : https://github.com/Shahriarnz14/SurvHTE-Bench.
Malgré les performances impressionnantes des modèles de diffusion comme Stable Diffusion (SD) en génération d'images, leur inférence lente limite leur déploiement pratique. Des travaux récents accélèrent l'inférence en distillant une diffusion multi-étapes en des générateurs mono-étape. Pour mieux comprendre le mécanisme de distillation, nous analysons les changements des poids des U-Net/DiT entre les étudiants mono-étape et leurs homologues enseignants multi-étapes. Notre analyse révèle que les changements dans la direction des poids dépassent significativement ceux de leur norme, la désignant comme le facteur clé durant la distillation. Motivés par cette observation, nous proposons la Rotation de Bas Rang de la Direction des poids (LoRaD), un adaptateur efficace en paramètres conçu pour la distillation de diffusion mono-étape. LoRaD est conçu pour modéliser ces changements directionnels structurés à l'aide de matrices de rotation à bas rang apprenables. Nous intégrons ensuite LoRaD dans la Distillation de Score Variationnelle (VSD), donnant naissance à la Distillation Sensible à la Direction des Poids (WaDi) – un nouveau cadre de distillation mono-étape. WaDi atteint des scores FID state-of-the-art sur COCO 2014 et COCO 2017 tout en n'utilisant qu'environ 10 % des paramètres entraînables de l'U-Net/DiT. De plus, le modèle mono-étape distillé démontre une forte versatilité et évolutivité, généralisant bien à diverses tâches en aval telles que la génération contrôlable, l'inversion de relations et la synthèse haute résolution.
Les encodeurs visuels pré-entraînés comme DINOv2 ont démontré des performances exceptionnelles sur des tâches unimodales. Cependant, nous observons que leurs représentations de caractéristiques sont faiblement alignées entre les différentes modalités. Par exemple, l'incorporation de caractéristiques d'une image RVB et de sa carte de profondeur correspondante d'une même scène présente une similarité cosinus quasi identique à celle de deux images aléatoires et non liées. Pour remédier à cela, nous proposons l'Encodeur Vision Omnivore, un nouveau cadre d'apprentissage qui acquiert un espace de caractéristiques agnostique à la modalité. Nous entraînons l'encodeur avec un double objectif : premièrement, maximiser l'alignement des caractéristiques entre les différentes modalités d'une même scène ; et deuxièmement, un objectif de distillation qui ancre les représentations apprises à la sortie d'un enseignant entièrement figé tel que DINOv2. L'encodeur étudiant résultant devient « omnivore » en produisant une incorporation cohérente et puissante pour une scène donnée, quelle que soit la modalité d'entrée (RVB, profondeur, segmentation, etc.). Cette approche permet une compréhension multimodale robuste tout en conservant la sémantique discriminative du modèle de fondation original.
La reconstruction 4D d'équidés (par exemple, les chevaux) à partir de vidéos monoculaires est importante pour le bien-être animal. Les méthodes traditionnelles de reconstruction 4D animale nécessitent une optimisation conjointe du mouvement et de l'apparence sur l'intégralité d'une vidéo, ce qui est chronophage et sensible aux observations incomplètes. Dans ce travail, nous proposons une nouvelle architecture appelée 4DEquine qui décompose le problème de reconstruction 4D en deux sous-problèmes : la reconstruction du mouvement dynamique et celle de l'apparence statique. Pour le mouvement, nous introduisons un transformateur spatio-temporel simple mais efficace avec une étape d'optimisation a posteriori pour estimer des séquences de pose et de forme fluides et alignées au pixel à partir de la vidéo. Pour l'apparence, nous concevons un nouveau réseau à propagation avant qui reconstruit un avatar animable en Gaussiennes 3D de haute fidélité à partir d'une seule image. Pour faciliter l'entraînement, nous créons un vaste ensemble de données de mouvement synthétique, VarenPoser, qui propose des mouvements de surface de haute qualité et des trajectoires caméra variées, ainsi qu'un ensemble de données d'apparence synthétique, VarenTex, comprenant des images multi-vues réalistes générées par diffusion multi-vues. Bien qu'entraîné uniquement sur des données synthétiques, 4DEquine obtient des performances de pointe sur les ensembles de données réels APT36K et AiM, démontrant la supériorité de notre méthode et de nos nouveaux jeux de données pour la reconstruction géométrique et d'apparence. Des études d'ablation complètes valident l'efficacité des réseaux de reconstruction du mouvement et de l'apparence. Page du projet : https://luoxue-star.github.io/4DEquine_Project_Page/.
Les modèles génératifs sont largement utilisés pour améliorer le photoréalisme des données synthétiques afin d'entraîner des algorithmes de vision par ordinateur. Cependant, ils introduisent souvent des artéfacts visuels qui dégradent la précision de ces algorithmes et nécessitent des ressources computationnelles importantes, limitant leur applicabilité dans des scénarios d'entraînement ou d'évaluation en temps réel. Dans cet article, nous proposons HyPER-GAN (Hybrid Patch Enhanced Realism Generative Adversarial Network), une méthode légère de traduction image-à-image basée sur un générateur de type U-Net conçu pour l'inférence en temps réel. Le modèle est entraîné en utilisant des images synthétiques couplées à des images photoréalistes améliorées, complétées par une stratégie d'entraînement hybride qui intègre des patches appariés issus de données du monde réel pour améliorer le réalisme visuel et la cohérence sémantique. Les résultats expérimentaux démontrent qu'HyPER-GAN surpasse les méthodes état de l'art de traduction image-à-image appariée en termes de latence d'inférence, de réalisme visuel et de robustesse sémantique. De plus, il est illustré que la stratégie d'entraînement hybride proposée améliore effectivement la qualité visuelle et la cohérence sémantique par rapport à l'entraînement du modèle uniquement avec des images synthétiques et photoréalistes améliorées appariées. Le code et les modèles pré-entraînés sont librement disponibles au téléchargement à l'adresse : https://github.com/stefanos50/HyPER-GAN
L'interdiction d'exportation de minerai de nickel par l'Indonésie a entraîné une expansion rapide des capacités de fusion et de traitement hydrométallurgique au parc industriel de Morowali en Indonésie (IMIP), désormais le plus grand complexe intégré de traitement du nickel au monde, situé sur la côte de Sulawesi central. La question de savoir si cette industrialisation a dégradé l'environnement marin adjacent reste non quantifiée. Nous appliquons l'inférence causale par séries temporelles structurelles bayésiennes (BSTS) à un enregistrement océanographique de couleur de l'eau multi-décennal et multi-capteurs, portant sur le coefficient d'atténuation diffuse à 490 nm, K_d(490), pour tester l'existence d'un lien causal entre l'expansion de l'IMIP et l'évolution de la turbidité côtière. Un point de rupture structurel consensuel, un effet causal postérieur significatif estimé par rapport à un contrefactuel de la mer de Banda, et un test de rang placebo non paramétrique établissent collectivement que la clarté des eaux côtières s'est détériorée après la transition entre la production initiale de nickel fonte (NPI) et l'hyper-expansion des unités de lixiviation acide à haute pression pour la production de nickel de qualité batterie. Une analyse indépendante de la couverture terrestre par satellite corrobore cette chronologie, montrant une croissance substantielle des surfaces artificialisées et une perte simultanée de couvert arboré au sein de l'empreinte de l'IMIP. L'ensablement résultant de la zone euphotique se produit dans des eaux oligotrophes abritant une biodiversité marine élevée, où même une dégradation optique modérée peut compromettre la photosynthèse des coraux et réduire l'habitat récifal en fonction de la profondeur. Ces résultats quantifient un coût environnemental marin absent du discours politique indonésien sur la transformation des minéraux et démontrent un cadre quasi expérimental, transférable et basé sur l'imagerie satellite, pour l'évaluation causale des impacts sur les sites industriels côtiers dans des contextes tropicaux où les données sont limitées.