papers.description
La découverte scientifique autonome par des agents basés sur de grands modèles de langage (LLM) a récemment accompli des progrès substantiels, démontrant une capacité à automatiser des workflows de recherche de bout en bout. Cependant, les systèmes existants reposent largement sur des paradigmes d'exécution centrés sur le temps d'exécution, procédant à des relectures, synthèses et raisonnements répétés sur de vastes volumes de littérature scientifique en ligne. Cette stratégie de calcul immédiat entraîne un coût computationnel élevé, souffre des limitations de la fenêtre contextuelle et conduit souvent à un raisonnement fragile et à des hallucinations. Nous proposons Idea2Story, un cadre de découverte scientifique autonome piloté par le pré-calcul qui déplace la compréhension de la littérature d'un raisonnement en ligne vers une construction de connaissances hors ligne. Idea2Story collecte continuellement des articles évalués par les pairs ainsi que leurs retours d'évaluation, extrait les unités méthodologiques fondamentales, compose des modèles de recherche réutilisables et les organise en un graphe de connaissances méthodologiques structuré. Au moment de l'exécution, les intentions de recherche sous-spécifiées de l'utilisateur sont alignées sur des paradigmes de recherche établis, permettant une récupération et une réutilisation efficaces de modèles de recherche de haute qualité, plutôt qu'une génération ouverte et une approche par essais-erreurs. En ancrant la planification et l'exécution de la recherche dans un graphe de connaissances pré-construit, Idea2Story atténue le goulot d'étranglement de la fenêtre contextuelle des LLM et réduit substantiellement les raisonnements répétitifs en temps d'exécution sur la littérature. Nous menons des analyses qualitatives et des études empiriques préliminaires démontrant qu'Idea2Story peut générer des modèles de recherche cohérents, méthodologiquement fondés et novateurs, et produire plusieurs démonstrations de recherche de haute qualité dans un cadre de bout en bout. Ces résultats suggèrent que la construction de connaissances hors ligne fournit une base pratique et évolutive pour une découverte scientifique autonome fiable.
Les modèles texte-image (T2I) ont connu un succès remarquable dans la génération d'images à haute fidélité, mais ils échouent souvent à gérer les relations spatiales complexes, par exemple la perception, le raisonnement ou l'interaction spatiale. Ces aspects critiques sont largement négligés par les benchmarks actuels en raison de leur conception d'invites courtes ou pauvres en informations. Dans cet article, nous présentons SpatialGenEval, un nouveau benchmark conçu pour évaluer systématiquement l'intelligence spatiale des modèles T2I, couvrant deux aspects clés : (1) SpatialGenEval comprend 1 230 invites longues et denses en informations couvrant 25 scènes du monde réel. Chaque invite intègre 10 sous-domaines spatiaux et 10 paires correspondantes de questions à choix multiples, allant de la position et de la disposition des objets à l'occlusion et la causalité. Notre évaluation approfondie de 21 modèles de pointe révèle que le raisonnement spatial d'ordre supérieur reste un goulot d'étranglement majeur. (2) Pour démontrer que l'utilité de notre conception riche en informations va au-delà d'une simple évaluation, nous construisons également le jeu de données SpatialT2I. Il contient 15 400 paires texte-image avec des invites réécrites pour garantir la cohérence de l'image tout en préservant la densité informationnelle. Les résultats du fine-tuning sur les modèles de fondation actuels (à savoir Stable Diffusion-XL, Uniworld-V1, OmniGen2) entraînent des gains de performance constants (+4,2 %, +5,7 %, +4,4 %) et des effets plus réalistes dans les relations spatiales, mettant en lumière un paradigme axé sur les données pour atteindre l'intelligence spatiale dans les modèles T2I.
Alors que les architectures Mixture-of-Experts (MoE) sont devenues la norme pour la mise à l'échelle par sparseité des grands modèles de langage, elles sont confrontées à des rendements décroissants et à des goulots d'étranglement systémiques. Dans ce travail, nous explorons la mise à l'échelle des embeddings comme une dimension orthogonale et puissante pour augmenter la sparseité. Par une analyse approfondie et des expériences, nous identifions des régimes spécifiques où la mise à l'échelle des embeddings atteint une frontière de Pareto supérieure à celle de la mise à l'échelle des experts. Nous caractérisons systématiquement les facteurs architecturaux critiques qui gouvernent cette efficacité – allant de la répartition des paramètres à l'interaction avec la largeur et la profondeur du modèle. De plus, en intégrant des optimisations système sur mesure et un décodage spéculatif, nous convertissons efficacement cette sparseité en accélérations tangibles de l'inférence. Guidés par ces insights, nous présentons LongCat-Flash-Lite, un modèle de 68,5 milliards de paramètres avec environ 3 milliards de paramètres activés, entraîné à partir de zéro. Bien qu'il alloue plus de 30 milliards de paramètres aux embeddings, LongCat-Flash-Lite surpasse non seulement les modèles de référence MoE équivalents en paramètres, mais démontre aussi une compétitivité exceptionnelle face aux modèles existants d'échelle comparable, particulièrement dans les domaines agentiques et du codage.
La manipulation d'objets dynamiques reste un défi ouvert pour les modèles Vision-Langage-Action (VLA). Bien qu'ils présentent une forte généralisation dans les manipulations statiques, ils peinent dans les scénarios dynamiques qui nécessitent une perception rapide, une anticipation temporelle et un contrôle continu. Nous présentons DynamicVLA, un cadre pour la manipulation d'objets dynamiques qui intègre le raisonnement temporel et l'adaptation en boucle fermée grâce à trois conceptions clés : 1) un VLA compact de 0,4 milliard de paramètres utilisant un encodeur visuel convolutionnel pour un codage spatialement efficace et structurellement fidèle, permettant une inférence multimodale rapide ; 2) l'Inférence Continue, permettant un chevauchement du raisonnement et de l'exécution pour une latence réduite et une adaptation rapide au mouvement des objets ; et 3) le Flux d'Actions Conscient du Latent, qui comble le décalage perception-exécution en imposant une exécution temporellement alignée des actions. Pour combler le manque de données fondamentales sur la manipulation dynamique, nous introduisons le benchmark Dynamic Object Manipulation (DOM), construit ex nihilo avec un pipeline de collecte automatique de données qui recueille efficacement 200 000 épisodes synthétiques couvrant 2 800 scènes et 206 objets, et permet la collecte rapide de 2 000 épisodes en monde réel sans téléopération. Des évaluations approfondies démontrent des améliorations remarquables en termes de vitesse de réponse, de perception et de généralisation, positionnant DynamicVLA comme un cadre unifié pour la manipulation générale d'objets dynamiques, indépendamment des incarnations robotiques.
Le développement de grands modèles de vision et de langage stimule la demande pour la gestion et l'application de masses de données multimodales, rendant la technologie OCR, qui extrait l'information d'images visuelles, de plus en plus populaire. Cependant, les méthodes OCR existantes se concentrent principalement sur la reconnaissance d'éléments textuels à partir d'images ou de documents scannés (OCR centré texte), négligeant l'identification d'éléments visuels à partir de sources d'images denses en information visuelle (OCR centré vision), tels que les graphiques, les pages web et les tracés scientifiques. En réalité, ces images denses en information visuelle sont omniprésentes sur Internet et possèdent une valeur applicative significative dans le monde réel, comme pour la visualisation de données et l'analyse de pages web. Dans ce rapport technique, nous proposons OCRVerse, la première méthode OCR holistique de bout en bout permettant un OCR unifié centré texte et centré vision. Pour ce faire, nous avons construit une ingénierie de données exhaustive couvrant un large éventail de documents centrés texte, tels que journaux, magazines et livres, ainsi que des composites rendus centrés vision, incluant graphiques, pages web et tracés scientifiques. De plus, nous proposons une méthode d'entraînement multi-domaine SFT-RL en deux étapes pour OCRVerse. Le SFT mélange directement des données interdomaines pour entraîner et établir une connaissance initiale des domaines, tandis que le RL se concentre sur la conception de stratégies de récompense personnalisées selon les caractéristiques de chaque domaine. Spécifiquement, puisque différents domaines requièrent divers formats de sortie et résultats attendus, nous offrons une flexibilité suffisante lors de l'étape RL pour personnaliser des signaux de récompense flexibles par domaine, améliorant ainsi la fusion interdomaine et évitant les conflits de données. Les résultats expérimentaux démontrent l'efficacité d'OCRVerse, atteignant des performances compétitives sur les types de données centrés texte et centrés vision, comparables même à des modèles open source et propriétaires à grande échelle.
Les récents progrès des modèles de vision et langage (VLM) ont considérablement fait avancer le raisonnement visuel. Cependant, les VLM open-source restent à la traîne des systèmes propriétaires, en grande partie à cause du manque de données de raisonnement de haute qualité. Les jeux de données existants offrent une couverture limitée de domaines complexes tels que les diagrammes STEM et les énigmes visuelles, et manquent d'annotations cohérentes et détaillées de type Chaîne de Pensée (CoT), essentielles pour développer de solides capacités de raisonnement. Pour combler cette lacune, nous présentons MMFineReason, un jeu de données de raisonnement multimodal à grande échelle comprenant 1,8 million d'échantillons et 5,1 milliards de tokens de solution, avec des annotations de raisonnement de haute qualité distillées à partir de Qwen3-VL-235B-A22B-Thinking. Le jeu de données est constitué via un pipeline systématique en trois étapes : (1) collecte et standardisation de données à grande échelle, (2) génération de justifications CoT, et (3) sélection complète basée sur la qualité du raisonnement et la prise en compte de la difficulté. Le jeu de données résultant couvre des problèmes STEM, des énigmes visuelles, des jeux et des diagrammes complexes, chaque échantillon étant annoté avec des traces de raisonnement ancrées visuellement. Nous avons effectué un apprentissage fin de Qwen3-VL-Instruct sur MMFineReason pour développer les versions MMFineReason-2B/4B/8B. Nos modèles établissent de nouveaux records pour leur catégorie de taille. Notamment, MMFineReason-4B dépasse avec succès Qwen3-VL-8B-Thinking, et MMFineReason-8B surpasse même Qwen3-VL-30B-A3B-Thinking tout en approchant les performances de Qwen3-VL-32B-Thinking, démontrant une remarquable efficacité paramétrique. Fait crucial, nous mettons en évidence un phénomène de « moins c'est plus » via notre stratégie de filtrage tenant compte de la difficulté : un sous-ensemble de seulement 7 % (123 000 échantillons) atteint des performances comparables à celles du jeu de données complet. De manière notable, nous révélons un effet synergique où la composition de données axée sur le raisonnement améliore simultanément les capacités générales.
Les grands modèles de langage allouent uniformément les calculs sur tous les tokens, ignorant que certaines séquences sont trivialement prévisibles tandis que d'autres nécessitent un raisonnement profond. Nous présentons ConceptMoE, qui fusionne dynamiquement les tokens sémantiquement similaires en représentations conceptuelles, réalisant ainsi une allocation implicite des calculs au niveau token. Un module d'agrégation apprenable identifie les frontières optimales en mesurant la similarité inter-token, compressant les séquences par un ratio cible R avant qu'elles n'entrent dans le modèle conceptuel intensif en calculs. Crucialement, l'architecture MoE permet une évaluation contrôlée : nous réallouons les calculs économisés pour égaler les FLOPs activés de référence (excluant le calcul des matrices d'attention) et le nombre total de paramètres, isolant ainsi les bénéfices architecturaux réels. Dans ces conditions, ConceptMoE surpasse systématiquement le MoE standard sur des tâches linguistiques et vision-langage, obtenant +0,9 point en pré-entraînement linguistique, +2,3 points en compréhension de contexte long et +0,6 point sur les benchmarks multimodaux. Lors de la conversion d'un MoE pré-entrainé pendant un entraînement continu avec recyclage de couches, les gains atteignent +5,5 points, démontrant l'applicabilité pratique. Au-delà des performances, ConceptMoE réduit le calcul d'attention jusqu'à R² fois et le cache KV de R fois. Avec R=2, des mesures empiriques montrent des accélérations en pré-remplissage atteignant 175 % et des accélérations en décodage jusqu'à 117 % sur les longues séquences. Les modifications architecturales minimales permettent une intégration aisée dans les MoE existants, démontrant que le traitement adaptatif au niveau conceptuel améliore fondamentalement à la fois l'efficacité et l'efficience des grands modèles de langage.
La reconstruction en flux continu à partir de séquences d'images monoculaires reste difficile, car les méthodes existantes privilégient généralement soit le rendu de haute qualité, soit la précision géométrique, mais rarement les deux. Nous présentons PLANING, un cadre de reconstruction efficace à la volée construit sur une représentation hybride qui couple de manière lâche des primitives géométriques explicites avec des Gaussiennes neuronales, permettant de modéliser la géométrie et l'apparence de manière découplée. Ce découplage prend en charge une stratégie d'initialisation et d'optimisation en ligne qui sépare les mises à jour de géométrie et d'apparence, produisant une reconstruction en flux stable avec une redondance structurelle considérablement réduite. PLANING améliore la distance de Chamfer-L2 sur maillage dense de 18,52 % par rapport à PGSR, dépasse ARTDECO de 1,31 dB en PSNR, et reconstruit les scènes ScanNetV2 en moins de 100 secondes, soit plus de 5 fois plus vite que le *2D Gaussian Splatting*, tout en égalant la qualité de l'optimisation hors ligne par scène. Au-delà de la qualité de reconstruction, la clarté structurelle et l'efficacité computationnelle de PLANING le rendent particulièrement adapté à un large éventail d'applications en aval, telles que la modélisation de scènes à grande échelle et la création d'environnements prêts pour la simulation pour l'IA incarnée. Page du projet : https://city-super.github.io/PLANING/ .
Dans ce rapport, nous présentons la famille Qwen3-ASR, qui comprend deux modèles puissants de reconnaissance vocale tout-en-un et un nouveau modèle non-autorégressif d'alignement forcé audio-texte. Qwen3-ASR-1.7B et Qwen3-ASR-0.6B sont des modèles de reconnaissance vocale qui prennent en charge l'identification de langue et la reconnaissance vocale pour 52 langues et dialectes. Tous deux tirent parti de données d'entraînement vocales à grande échelle et des solides capacités de compréhension audio de leur modèle de base, Qwen3-Omni. Nous menons une évaluation interne exhaustive en plus des benchmarks open-source, car les modèles de reconnaissance vocale peuvent afficher des scores similaires sur les benchmarks publics mais présenter des différences de qualité significatives dans les scénarios réels. Les expériences révèlent que la version 1.7B obtient des performances à l'état de l'art parmi les modèles de reconnaissance vocale open-source et est compétitive avec les API propriétaires les plus performantes, tandis que la version 0.6B offre le meilleur compromis précision-efficacité. Qwen3-ASR-0.6B peut atteindre un TTFT moyen aussi faible que 92 ms et transcrire 2000 secondes d'audio en 1 seconde avec un niveau de concurrence de 128. Qwen3-ForcedAligner-0.6B est un prédicteur d'horodatage non-autorégressif basé sur un grand modèle de langage, capable d'aligner des paires texte-audio dans 11 langues. Les expériences sur la précision des horodatages montrent que le modèle proposé surpasse les trois modèles d'alignement forcé les plus performants et présente des avantages en termes d'efficacité et de polyvalence. Pour accélérer davantage la recherche communautaire sur la reconnaissance vocale et la compréhension audio, nous publions ces modèles sous licence Apache 2.0.
L'évolution des modèles de langage de grande taille (LLM) en agents autonomes nécessite la gestion de contextes étendus et dynamiques. Cependant, les benchmarks actuels restent largement statiques, reposant sur des tâches de récupération passive qui ne simulent pas les complexités de l'interaction agent-environnement, telles que le raisonnement non linéaire et la rétroaction itérative. Pour y remédier, nous présentons AgentLongBench, qui évalue les agents via des déploiements simulés dans des environnements basés sur des énigmes de pensée latérale. Ce cadre génère des trajectoires d'interaction rigoureuses à travers des scénarios intensifs en connaissances et sans connaissances. Les expériences avec des modèles et systèmes de mémoire de pointe (de 32K à 4M de tokens) révèlent une faiblesse critique : bien que compétents en récupération statique, les agents peinent à synthétiser dynamiquement l'information, compétence essentielle pour les flux de travail. Notre analyse indique que cette dégradation est causée par le nombre minimal de tokens requis pour résoudre une requête. Ce facteur explique pourquoi la densité informationnelle élevée inhérente aux réponses massives d'outils constitue un défi bien plus important que la fragmentation mémoire typique des dialogues à longs tours.
L'apprentissage par renforcement agentique (Agentic RL) a obtenu un succès notable en permettant aux agents d'effectuer des raisonnements complexes et d'utiliser des outils. Cependant, la plupart des méthodes reposent encore sur des récompenses éparses basées sur les résultats pour l'entraînement. Ce retour d'information ne permet pas de différencier la qualité du raisonnement intermédiaire, conduisant à des résultats d'entraînement sous-optimaux. Dans cet article, nous présentons l'Agent Reasoning Reward Model (Agent-RRM), un modèle de récompense multidimensionnel qui produit un retour structuré pour les trajectoires agentiques, incluant (1) une trace de raisonnement explicite, (2) une critique ciblée qui fournit des conseils de raffinement en mettant en lumière les défauts de raisonnement, et (3) un score global qui évalue la performance du processus. En tirant parti de ces signaux, nous étudions systématiquement trois stratégies d'intégration : Reagent-C (raffinement par augmentation textuelle), Reagent-R (guidage par augmentation des récompenses) et Reagent-U (intégration unifiée du retour). Des évaluations approfondies sur 12 benchmarks diversifiés démontrent que Reagent-U permet des bonds substantiels de performance, atteignant 43,7 % sur GAIA et 46,2 % sur WebWalkerQA, validant ainsi l'efficacité de notre modèle de récompense de raisonnement et de nos schémas d'entraînement. Le code, les modèles et les jeux de données sont tous publiés pour faciliter les recherches futures.
Les recherches récentes sur la génération de vidéos longues sont passées des modèles bidirectionnels aux modèles autorégressifs, mais ces méthodes souffrent généralement d'une accumulation d'erreurs et d'une perte de cohérence à long terme. Bien que des images de référence (attention sink frames) aient été introduites pour atténuer cette dégradation des performances, elles provoquent souvent un mode d'échec critique que nous nommons effondrement vers le sink : le contenu généré revient répétitivement à l'image de référence, entraînant des réinitialisations brutales de scène et des motifs de mouvement cycliques. Notre analyse révèle que cet effondrement provient d'un conflit intrinsèque entre la structure périodique de l'encodage positionnel rotatif (RoPE) et les mécanismes d'attention multi-têtes répandus dans les modèles génératifs actuels. Pour y remédier, nous proposons une approche légère, sans entraînement, qui supprime efficacement ce comportement en introduisant une perturbation RoPE multi-têtes qui brise l'homogénéisation de l'attention inter-têtes et atténue l'effondrement à long terme. Des expériences approfondies montrent que notre méthode atténue avec succès l'effondrement tout en préservant la qualité de génération. À notre connaissance, ce travail constitue la première démonstration de génération vidéo en temps réel, en flux continu et de longueur infinie avec une dégradation qualitative minime. Pour illustrer cette robustesse, nous avons généré des vidéos continues d'une durée allant jusqu'à 12 heures, ce qui représente, à notre connaissance, l'un des résultats les plus longs démontrés publiquement en génération vidéo en flux continu.
Les modèles de fondation en électroencéphalographie (EEG) sont récemment apparus comme un paradigme prometteur pour les interfaces cerveau-ordinateur (ICOs), visant à apprendre des représentations neurales transférables à partir d'enregistrements hétérogènes à grande échelle. Malgré des progrès rapides, il manque des comparaisons équitables et exhaustives des modèles de fondation EEG existants, en raison d'objectifs de pré-entraînement, de choix de prétraitement et de protocoles d'évaluation en aval incohérents. Cet article comble cette lacune. Nous passons d'abord en revue 50 modèles représentatifs et organisons leurs choix de conception dans un cadre taxonomique unifié incluant la standardisation des données, les architectures de modèles et les stratégies d'auto-supervision pour le pré-entraînement. Nous évaluons ensuite 12 modèles de fondation open-source et des modèles spécialistes de référence sur 13 jeux de données EEG couvrant neuf paradigmes d'ICOs. En mettant l'accent sur les déploiements en conditions réelles, nous considérons à la fois la généralisation inter-sujets selon un protocole "leave-one-subject-out" et l'étalonnage rapide dans un cadre intra-sujet à faible nombre d'exemples. Nous comparons en outre le réglage fin des paramètres avec l'évaluation linéaire pour estimer la transférabilité des représentations pré-entraînées, et examinons la relation entre l'échelle du modèle et les performances en aval. Nos résultats indiquent que : 1) l'évaluation linéaire est souvent insuffisante ; 2) les modèles spécialistes entraînés à partir de zéro restent compétitifs sur de nombreuses tâches ; et 3) les modèles de fondation plus grands ne produisent pas nécessairement de meilleures performances de généralisation avec les régimes de données et pratiques d'entraînement actuels.
Si les grands modèles de langage (LLM) excellent dans les tâches agentiques basées sur le langage, leur applicabilité à des environnements non linguistiques non vus auparavant (par exemple, des tâches symboliques ou spatiales) reste limitée. Les travaux antérieurs attribuent cet écart de performance à l'inadéquation entre la distribution de pré-entraînement et la distribution de test. Dans ce travail, nous démontrons que le principal goulot d'étranglement est le coût prohibitif de l'exploration : maîtriser ces tâches nécessite des essais et erreurs extensifs, ce qui est informatiquement insoutenable pour des LLM lourds en paramètres opérant dans un espace sémantique de haute dimension. Pour résoudre ce problème, nous proposons SCOUT (Sub-Scale Collaboration On Unseen Tasks), un nouveau cadre qui découple l'exploration de l'exploitation. Nous utilisons des « éclaireurs » légers (par exemple, des petits MLP) pour sonder la dynamique environnementale à une vitesse et une échelle dépassant largement celles des LLM. Les trajectoires collectées sont utilisées pour amorcer le LLM via du Fine-Tuning Supervisé (SFT), suivi par un Apprentissage par Renforcement (RL) multi-tours pour activer ses connaissances latentes du monde. Empiriquement, SCOUT permet à un modèle Qwen2.5-3B-Instruct d'atteindre un score moyen de 0,86, surpassant significativement des modèles propriétaires, incluant Gemini-2.5-Pro (0,60), tout en économisant environ 60 % de la consommation d'heures GPU.
Les dépôts publics hébergent des millions de modèles fine-tunés, mais leur utilisation par la communauté reste disproportionnellement concentrée sur un petit nombre de checkpoints fondamentaux. Nous examinons si cette concentration reflète une sélection efficace du marché ou si des modèles supérieurs sont systématiquement négligés. Par une évaluation approfondie de plus de 2 000 modèles, nous démontrons la prévalence de "pépites méconnues" - des modèles fine-tunés impopulaires qui surpassent significativement leurs homologues populaires. Notamment, dans la famille Llama-3.1-8B, nous identifions des checkpoints rarement téléchargés qui améliorent les performances en mathématiques de 83,2% à 96,0% sans augmenter les coûts d'inférence. Cependant, découvrir ces modèles par évaluation exhaustive de chaque modèle uploadé est computationnellement irréalisable. Nous formulons donc la découverte de modèles comme un problème de bandit manchot multi-bras et accélérons l'algorithme de recherche Sequential Halving en utilisant des ensembles de requêtes partagés et des calendriers d'élimination agressifs. Notre méthode retrouve les meilleurs modèles avec seulement 50 requêtes par candidat, accélérant la découverte d'un facteur supérieur à 50.
Les approches actuelles visant à réduire les capacités indésirables des modèles de langage sont largement post hoc et peuvent donc être facilement contournées par des adversaires. Une alternative naturelle consiste à façonner ces capacités durant le prétraitement lui-même. Sur la tâche proxy de suppression des capacités médicales, nous montrons que l'intervention simple du filtrage des données d'entraînement est très efficace, robuste et peu coûteuse à grande échelle. Inspirés par les travaux sur l'attribution des données, nous montrons que le filtrage des tokens est plus efficace que le filtrage des documents, atteignant une réduction similaire des capacités indésirables à un coût moindre pour les capacités bénignes. En entraînant des modèles couvrant deux ordres de grandeur, nous démontrons ensuite que le filtrage devient plus efficace avec l'échelle : pour nos plus grands modèles, le filtrage des tokens entraîne un ralentissement computationnel de 7000x sur le domaine ciblé. Nous montrons également que les modèles entraînés avec un filtrage des tokens peuvent toujours être alignés sur le domaine à oublier. Au passage, nous introduisons une méthodologie pour étiqueter les tokens à l'aide d'autoencodeurs épars et pour distiller des classifieurs peu coûteux et de haute qualité. Nous démontrons aussi que le filtrage peut rester robuste face à des étiquettes bruitées avec une puissance de calcul de prétraitement suffisante.
L'apprentissage à partir de retours humains repose généralement sur l'optimisation des préférences qui contraint les mises à jour de la politique via une régularisation au niveau des tokens. Cependant, l'optimisation des préférences pour les modèles de langage est particulièrement difficile car la similarité dans l'espace des tokens n'implique pas une similarité sémantique ou comportementale. Pour relever ce défi, nous exploitons la régularisation dans l'espace latent pour l'optimisation des préférences des modèles de langage. Nous présentons GANPO, qui réalise cette régularisation en pénalisant la divergence entre les représentations internes d'un modèle de politique et d'un modèle de référence. Étant donné que les représentations latentes ne sont pas associées à des densités de probabilité explicites, nous adoptons une approche adversariale inspirée des GANs pour minimiser la divergence dans l'espace latent. Nous intégrons GANPO comme régularisateur dans les objectifs existants d'optimisation des préférences hors-ligne. Les expériences menées sur diverses architectures de modèles et tâches montrent des améliorations constantes grâce à la régularisation dans l'espace latent. De plus, en comparant les biais inférentiels induits par GANPO avec ceux de la régularisation au niveau des tokens, nous constatons que GANPO fournit un retour structurel plus robuste sous changement de distribution et bruit, tout en maintenant des performances en aval comparables avec une surcharge computationnelle mineure.
L'apprentissage par renforcement (RL) en post-formation est une approche dominante pour améliorer les performances de raisonnement des grands modèles de langage (LLM), mais des preuves de plus en plus nombreuses suggèrent que ses gains proviennent principalement d'un resserrement de la distribution plutôt que de l'acquisition de nouvelles capacités. Des travaux récents ont montré que l'échantillonnage à partir de la distribution de puissance des LLM en utilisant les chaînes de Markov Monte Carlo (MCMC) peut permettre d'atteindre des performances comparables au RL en post-formation sans recourir à des récompenses externes ; cependant, le coût computationnel élevé des MCMC rend ces approches impraticables pour une adoption généralisée. Dans ce travail, nous proposons une alternative théoriquement fondée qui élimine le besoin d'itérations MCMC. Nous dérivons une nouvelle formulation montrant que la distribution de puissance globale peut être approximée par une distribution locale (au niveau des tokens) mise à l'échelle et à basse température, où le facteur d'échelle capture la qualité des trajectoires futures. En tirant parti de cette idée, nous introduisons un algorithme sans apprentissage et sans vérificateur qui resserre de manière autorégressive la distribution générative du modèle de base. Empiriquement, nous évaluons notre méthode sur des tâches de mathématiques, de questions-réponses et de code avec quatre LLM, et montrons que notre méthode égale ou dépasse le GRPO en un seul passage sans s'appuyer sur des récompenses externes, tout en réduisant la latence d'inférence de plus de 10 fois par rapport à l'échantillonnage basé sur les MCMC.
Les grands modèles de langage (LLM) ont progressé rapidement ; cependant, la plupart des modèles de pointe sont entraînés et évalués principalement dans des langues riches en ressources comme l'anglais et le chinois, et sont souvent développés par un petit nombre d'organisations ayant accès à des capacités de calcul et des données à grande échelle. Cette restriction crée une barrière pratique pour les contextes souverains dans lesquels une institution à l'échelle régionale ou nationale ou un propriétaire de domaine doit conserver le contrôle et la compréhension des poids du modèle, des données d'entraînement et du déploiement tout en opérant avec des ressources limitées et sous des contraintes strictes de transparence. À cette fin, nous identifions deux exigences fondamentales : (1) l'adoptabilité, la capacité à transformer un modèle de base en assistant à usage général, et (2) la capacité souveraine, la capacité à effectuer des tâches à enjeux élevés et spécifiques à une région (par exemple, le raisonnement juridique dans les langues locales et la connaissance culturelle). Nous étudions si ces exigences peuvent être atteintes sans mettre à l'échelle des corpus d'instructions massifs ou sans dépendre de pipelines complexes de réglage des préférences et de réglage fin par renforcement (RFT) à grande échelle. Nous présentons Typhoon S, une recette de post-formation minimale et ouverte qui combine un réglage fin supervisé, une distillation sur politique et un RFT à petite échelle. En utilisant le thaï comme étude de cas représentative, nous démontrons que notre approche transforme à la fois les modèles de base adaptés aux besoins souverains et les modèles à usage général en modèles réglés pour les instructions avec de solides performances générales. Nous montrons en outre qu'un RFT à petite échelle avec InK-GRPO -- une extension de GRPO qui augmente la perte GRPO avec une perte de prédiction du mot suivant -- améliore le raisonnement juridique en thaï et les connaissances spécifiques au thaï tout en préservant les capacités générales. Nos résultats suggèrent qu'une stratégie de post-formation soigneusement conçue peut réduire l'échelle requise des données d'instruction et des calculs, offrant ainsi une voie pratique vers des LLM souverains de haute qualité avec des ressources à l'échelle académique.
Nous présentons Foundation-Sec-8B-Reasoning, le premier modèle de raisonnement natif open-source dédié à la cybersécurité. Construit sur notre modèle de base Foundation-Sec-8B précédemment publié (dérivé de Llama-3.1-8B-Base), ce modèle est entraîné via un processus en deux étapes combinant le fine-tuning supervisé (SFT) et l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR). Notre entraînement exploite des données de raisonnement propriétaires couvrant l'analyse cybersécurité, le suivi d'instructions et le raisonnement mathématique. L'évaluation sur 10 benchmarks de cybersécurité et 10 benchmarks généralistes démontre des performances compétitives avec des modèles nettement plus volumineux sur les tâches de cybersécurité, tout en maintenant de solides capacités générales. Le modèle montre une généralisation efficace sur les tâches de raisonnement multi-étapes et d'excellentes performances en matière de sécurité lorsqu'il est déployé avec des invites système et des garde-fous appropriés. Ce travail démontre que les modèles de raisonnement spécialisés dans un domaine peuvent atteindre des performances élevées sur des tâches spécialisées tout en conservant des capacités générales étendues. Nous publions le modèle à l'adresse suivante : https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.
Le raisonnement à contexte long a considérablement renforcé la capacité des grands modèles de langage (LLM) à traiter des tâches complexes, mais il introduit de sévères goulots d'étranglement en termes d'efficacité en raison de la complexité computationnelle. Les approches efficaces existantes reposent souvent sur un apprentissage supplémentaire complexe ou sur des modèles externes pour la compression, ce qui limite l'évolutivité et supprime des informations fines critiques. Dans cet article, nous proposons VTC-R1, un nouveau paradigme de raisonnement efficace qui intègre la compression vision-texte dans le processus de raisonnement. Au lieu de traiter de longues traces textuelles, VTC-R1 convertit les segments de raisonnement intermédiaires en images compactes, qui sont réinjectées itérativement dans des modèles vision-langage sous forme de « mémoire optique ». Nous avons construit un jeu de données d'entraînement basé sur OpenR1-Math-220K, atteignant un taux de compression de 3,4x sur les tokens, et avons effectué un apprentissage fini sur des modèles vision-langage représentatifs – Glyph et Qwen3-VL. Des expériences approfondies sur des benchmarks tels que MATH500, AIME25, AMC23 et GPQA-D démontrent que VTC-R1 surpasse constamment le raisonnement standard à contexte long. De plus, notre approche améliore significativement l'efficacité de l'inférence, avec une accélération de 2,7x de la latence de bout en bout, soulignant son potentiel en tant que solution évolutive pour les applications nécessitant un raisonnement intensif. Notre code est disponible à l'adresse https://github.com/w-yibo/VTC-R1.
Les modèles de langage multimodaux (MLLM) souffrent d'hallucinations intermodales, où une modalité influence de manière inappropriée la génération concernant une autre, conduisant à une production fabriquée. Cela révèle une déficience plus fondamentale dans le contrôle de l'interaction entre modalités. Pour y remédier, nous proposons le décodage adaptatif aux modalités (MAD), une méthode sans entraînement qui pondère de manière adaptative les branches de décodage spécifiques aux modalités en fonction des exigences de la tâche. MAD exploite la capacité inhérente du modèle à auto-évaluer la pertinence des modalités en interrogeant quelles modalités sont nécessaires pour chaque tâche. Les probabilités de modalité extraites sont ensuite utilisées pour pondérer de manière adaptative les branches de décodage contrastif, permettant au modèle de se concentrer sur les informations pertinentes tout en supprimant les interférences intermodales. Des expériences approfondies sur CMM et AVHBench démontrent que MAD réduit significativement les hallucinations intermodales sur plusieurs modèles de langage audio-visuels (améliorations de 7,8 % et 2,0 % pour VideoLLaMA2-AV, de 8,7 % et 4,7 % pour Qwen2.5-Omni). Notre approche démontre qu'une conscience explicite des modalités par auto-évaluation est cruciale pour un raisonnement multimodal robuste, offrant une extension principielle aux méthodes de décodage contrastif existantes. Notre code est disponible à l'adresse https://github.com/top-yun/MAD.
Les modèles modernes de génération d'images basés sur la diffusion/le flux présentent généralement deux caractéristiques fondamentales : (i) l'utilisation d'un échantillonnage multi-étapes, et (ii) un fonctionnement dans un espace latent. Les avancées récentes ont réalisé des progrès encourageants sur chaque aspect individuellement, ouvrant la voie vers une diffusion/flux en une étape sans espace latent. Dans ce travail, nous franchissons une étape supplémentaire vers cet objectif et proposons le "pixel MeanFlow" (pMF). Notre principe directeur est de formuler séparément l'espace de sortie du réseau et l'espace de perte. La cible du réseau est conçue pour se situer sur une variété d'images présumée de faible dimension (c'est-à-dire une prédiction-x), tandis que la perte est définie via MeanFlow dans l'espace des vitesses. Nous introduisons une transformation simple entre la variété d'images et le champ de vitesse moyenne. Lors des expériences, pMF obtient des résultats solides pour la génération en une étape sans latent sur ImageNet à une résolution de 256x256 (FID de 2,22) et 512x512 (FID de 2,48), comblant une pièce manquante essentielle dans ce régime. Nous espérons que notre étude fera progresser davantage les limites des modèles génératifs basés sur la diffusion/le flux.
Assurer la sécurité, la véracité et la qualité globale des générations des grands modèles de langage est un défi crucial, surtout avec le déploiement croissant de ces modèles dans des applications réelles. L'approche prédominante pour résoudre ces problèmes consiste à collecter des jeux de données coûteux et soigneusement préparés, puis à appliquer plusieurs étapes de fine-tuning et d'alignement. Cependant, même ce pipeline complexe ne peut garantir la correction des schémas appris lors du pré-entraînement. Par conséquent, il est essentiel de traiter ces problèmes pendant le pré-entraînement, car celui-ci façonne les comportements fondamentaux d'un modèle et empêche que des sorties non sécurisées ou hallucinées ne deviennent profondément ancrées. Pour résoudre ce problème, nous introduisons une nouvelle méthode de pré-entraînement qui traite les documents en flux continu et utilise l'apprentissage par renforcement (RL) pour améliorer les K prochains tokens générés à chaque étape. Un modèle robuste, post-entraîné, évalue la qualité, la sécurité et la véracité des générations candidates – incluant des déroulements du modèle, le suffixe original et un suffixe réécrit. Tôt dans l'entraînement, le processus s'appuie sur les suffixes originaux et réécrits ; à mesure que le modèle s'améliore, le RL récompense les déroulements de haute qualité. Cette approche construit des modèles de meilleure qualité, plus sûrs et plus factuels dès la base. Lors d'expériences, notre méthode obtient des améliorations relatives de 36,2 % et 18,5 % par rapport au pré-entraînement standard en termes de véracité et de sécurité, et des taux de victoire allant jusqu'à 86,3 % pour la qualité globale de génération.
Nous présentons DeepSearchQA, un benchmark de 900 requêtes conçu pour évaluer les agents sur des tâches complexes de recherche d'informations en plusieurs étapes couvrant 17 domaines différents. Contrairement aux benchmarks traditionnels qui ciblent la récupération de réponses uniques ou une factualité à large spectre, DeepSearchQA se caractérise par un ensemble de tâches difficiles, élaborées manuellement, conçues pour évaluer la capacité d'un agent à exécuter des plans de recherche complexes afin de générer des listes de réponses exhaustives. Ce changement de conception teste explicitement trois capacités critiques mais sous-évaluées : 1) la compilation systématique d'informations fragmentées provenant de sources disparates, 2) la déduplication et la résolution d'entités pour garantir la précision, et 3) la capacité à raisonner sur les critères d'arrêt dans un espace de recherche ouvert. Chaque tâche est structurée comme une chaîne causale, où la découverte d'informations pour une étape dépend de la réussite de l'étape précédente, mettant l'accent sur la planification à long terme et la rétention du contexte. Toutes les tâches sont ancrées dans le web ouvert avec des ensembles de réponses objectivement vérifiables. Notre évaluation complète des architectures d'agents les plus avancées révèle des limitations significatives de performance : même les modèles les plus performants peinent à équilibrer un rappel élevé avec la précision. Nous observons des modes d'échec distincts, allant de l'arrêt prématuré (sous-récupération) à des comportements de couverture, où les agents lancent un filet excessivement large de réponses à faible confiance pour augmenter artificiellement le rappel. Ces résultats mettent en lumière une marge de progression critique dans les conceptions actuelles d'agents et positionnent DeepSearchQA comme un outil de diagnostic essentiel pour orienter les recherches futures vers des capacités de recherche approfondie plus robustes.
Dans le but d'obtenir un raisonnement en chaîne de pensée (CoT) efficace et dense, les méthodes de raisonnement latent optimisent les grands modèles de langage (LLM) pour substituer aux jetons linguistiques discrets des jetons latents continus. Ces méthodes consomment moins de jetons que le raisonnement CoT linguistique conventionnel et ont le potentiel de planifier dans un espace latent dense. Cependant, les jetons latents actuels sont généralement supervisés en imitant des étiquettes linguistiques. Étant donné qu'il peut exister plusieurs étiquettes CoT équivalentes mais diverses pour une question, imiter passivement l'une d'elles arbitrairement peut conduire à des représentations de jetons latents et des politiques de raisonnement latent sous-optimales, compromettant la capacité de planification potentielle et créant un écart notable entre l'entraînement et les tests. Dans ce travail, nous soulignons l'importance d'une planification active sur l'espace de représentation des jetons latents pour atteindre la politique de raisonnement latent optimale. Ainsi, nous proposons la méthode de Planification Latente Active (ATP-Latent), qui modélise le processus de supervision des jetons latents comme un auto-encodeur variationnel conditionnel (VAE) pour obtenir un espace latent plus lisse. De plus, pour favoriser la politique de raisonnement latent la plus raisonnable, ATP-Latent met en œuvre un apprentissage par renforcement (RL) avec une récompense de cohérence auxiliaire, calculée sur la base de la cohérence entre les contenus décodés par le VAE des jetons latents, permettant un processus de RL guidé. Lors d'expériences sur LLaMA-1B, ATP-Latent démontre une précision supérieure de +4,1 % et une réduction de 3,3 % du nombre de jetons sur quatre benchmarks par rapport aux méthodes de référence avancées. Les codes sont disponibles sur https://github.com/zz1358m/ATP-Latent-master.
Les architectures Transformer hybrides, qui combinent des blocs d'attention softmax et des réseaux de neurones récurrents (RNN), ont démontré un compromis performance-débit intéressant pour la modélisation de contextes longs. Cependant, leur adoption et leur étude sont entravées par le coût prohibitif du pré-entraînement à grande échelle à partir de zéro. Certaines études récentes ont montré que des blocs d'attention softmax pré-entraînés peuvent être convertis en blocs RNN via un transfert de paramètres et une distillation de connaissances. Néanmoins, ces méthodes de transfert nécessitent des quantités substantielles de données d'entraînement (plus de 10 milliards de tokens), et les modèles hybrides résultants présentent également de faibles performances sur les contextes longs, un scénario pourtant clé où ces modèles offrent des accélérations significatives à l'inférence par rapport aux modèles basés sur Transformer. Dans cet article, nous présentons HALO (Hybrid Attention via Layer Optimization), un pipeline pour distiller des modèles Transformer en modèles hybrides RNN-attention. Nous présentons ensuite HypeNet, une architecture hybride dotée d'une généralisation en longueur supérieure, rendue possible par un nouveau schéma de codage positionnel (nommé HyPE) et diverses modifications architecturales. Nous convertissons la série Qwen3 en HypeNet en utilisant HALO, obtenant des performances comparables aux modèles Transformer originaux tout en bénéficiant de performances et d'une efficacité supérieures sur les contextes longs. Cette conversion nécessite seulement 2,3 milliards de tokens, soit moins de 0,01 % de leurs données de pré-entraînement.
En raison du manque de données supervisées pour l’entraînement, les grands modèles de langage (LLM) sont généralement pré-entraînés via un objectif auto-supervisé de « prédiction du mot suivant » sur une vaste quantité de données textuelles non structurées. Pour rendre le modèle ainsi obtenu utile aux utilisateurs, il est ensuite entraîné sur un volume bien plus restreint de données d’« ajustement aux instructions », constituées d’exemples supervisés d’instructions et de réponses. Pour pallier le manque de données supervisées, nous proposons une méthode permettant de transformer les connaissances contenues dans les documents de pré-entraînement à l’échelle du web en des milliards de paires synthétiques d’instructions et de réponses pour l’entraînement. Le jeu de données résultant, appelé FineInstructions, utilise environ 18 millions de modèles d’instructions créés à partir de requêtes et d’invites réelles rédigées par des utilisateurs. Ces modèles d’instructions sont appariés à des documents sources rédigés par des humains provenant de corpus de pré-entraînement non structurés, puis instanciés avec ceux-ci. Grâce à des données d’entraînement synthétiques « supervisées » générées à cette échelle, un LLM peut être pré-entraîné dès le départ uniquement avec l’objectif d’ajustement aux instructions, ce qui correspond bien mieux à la distribution attendue lors de l’utilisation en aval des LLM (répondre aux invites des utilisateurs). Nous menons des expériences d’entraînement contrôlées token par token et constatons que le pré-entraînement sur FineInstructions surpasse l’entraînement standard et d’autres techniques de pré-entraînement synthétique proposées, sur des benchmarks standards mesurant la qualité des réponses en forme libre. Nos ressources sont disponibles à l’adresse https://huggingface.co/fineinstructions.
Le succès des Hyper-Connexions (HC) dans les réseaux de neurones (RN) a également mis en lumière des problèmes liés à leur instabilité lors de l'entraînement et à leur scalabilité limitée. Les Hyper-Connexions à Contrainte de Variété (mHC) atténuent ces difficultés en projetant l'espace de connexion résiduel sur un polytope de Birkhoff. Cependant, cette approche rencontre deux problèmes : 1) son algorithme itératif de Sinkhorn-Knopp (SK) ne produit pas toujours des matrices résiduelles doublement stochastiques exactes ; 2) mHC induit une complexité paramétrique prohibitrice de O(n³C), où n est la largeur du flux résiduel et C la dimension des caractéristiques. La méthode mHC-lite, proposée récemment, reparamétrise la matrice résiduelle via le théorème de Birkhoff-von Neumann pour garantir la double stochasticité, mais elle est également confrontée à une explosion factorielle de sa complexité paramétrique, O(nC · n!). Pour relever ces deux défis, nous proposons KromHC, qui utilise les produits de Kronecker de matrices doublement stochastiques plus petites pour paramétrer la matrice résiduelle dans mHC. En imposant des contraintes de variété sur les matrices résiduelles factorielles le long de chaque mode du flux résiduel tensorisé, KromHC garantit une double stochasticité exacte des matrices résiduelles tout en réduisant la complexité paramétrique à O(n²C). Des expériences approfondies démontrent que KromHC égalise ou même surpasse les variantes mHC de pointe (state-of-the-art, SOTA), tout en nécessitant un nombre de paramètres entraînables significativement moindre. Le code est disponible à l'adresse https://github.com/wz1119/KromHC.
Si l'interprétabilité mécaniste a permis d'identifier des circuits interprétables dans les LLM, leurs origines causales dans les données d'entraînement demeurent insaisissables. Nous présentons l'Attribution Mécaniste des Données (MDA), un cadre évolutif qui utilise les Fonctions d'Influence pour retracer les unités interprétables jusqu'à des échantillons d'entraînement spécifiques. Par des expériences approfondies sur la famille de modèles Pythia, nous validons causalement qu'une intervention ciblée – supprimer ou augmenter une petite fraction d'échantillons à forte influence – module significativement l'émergence de têtes interprétables, alors que des interventions aléatoires n'ont aucun effet. Notre analyse révèle que les données structurelles répétitives (par exemple, LaTeX, XML) agissent comme un catalyseur mécaniste. De plus, nous observons que les interventions ciblant la formation des têtes d'induction provoquent un changement concomitant dans la capacité d'apprentissage en contexte (ICL) du modèle. Cela fournit une preuve causale directe de l'hypothèse de longue date concernant le lien fonctionnel entre les têtes d'induction et l'ICL. Enfin, nous proposons un pipeline d'augmentation mécaniste des données qui accélère constamment la convergence des circuits à travers différentes échelles de modèles, offrant une méthodologie rigoureuse pour orienter les trajectoires développementales des LLM.
Les agents basés sur des modèles de langage opérant sur des horizons d'interaction prolongés sont confrontés à des défis persistants pour préserver les informations temporellement ancrées et maintenir une cohérence comportementale entre les sessions, un mode de défaillance que nous nommons érosion de l'âme. Nous présentons BMAM (Mémoire Multi-Agents Inspirée du Cerveau), une architecture mémoire à usage général qui modélise la mémoire de l'agent comme un ensemble de sous-systèmes fonctionnellement spécialisés plutôt que comme un stock unique non structuré. S'inspirant des systèmes de mémoire cognitifs, BMAM décompose la mémoire en composants épisodique, sémantique, sensible à la saillance et orienté contrôle, qui opèrent à des échelles de temps complémentaires. Pour prendre en charge un raisonnement à long terme, BMAM organise les souvenirs épisodiques le long de chronologies explicites et récupère des preuves en fusionnant plusieurs signaux complémentaires. Les expériences sur le benchmark LoCoMo montrent que BMAM atteint une précision de 78,45 % dans le cadre d'évaluation standard à long horizon, et les analyses d'ablation confirment que le sous-système de mémoire épisodique inspiré de l'hippocampe joue un rôle crucial dans le raisonnement temporel.
La quantification a considérablement amélioré l'efficacité computationnelle et mémoire de l'entraînement des grands modèles de langage (LLM). Cependant, les approches existantes reposent toujours sur l'accumulation de leurs mises à jour en haute précision : concrètement, les mises à jour des gradients doivent être appliquées à un tampon de poids en haute précision, appelés poids maîtres. Ce tampon introduit une surcharge mémoire substantielle, particulièrement pour les modèles à mélange épars d'experts (SMoE), où les paramètres du modèle et les états de l'optimiseur dominent l'utilisation de la mémoire. Pour résoudre ce problème, nous présentons l'Optimiseur à Compensation d'Erreur (ECO), qui élimine les poids maîtres en appliquant les mises à jour directement aux paramètres quantifiés. ECO quantifie les poids après chaque étape et injecte soigneusement l'erreur de quantification résultante dans la dynamique de l'optimiseur, formant une boucle de rétroaction d'erreur sans mémoire supplémentaire. Nous prouvons que, sous des hypothèses standard et avec un taux d'apprentissage décroissant, ECO converge vers un voisinage de rayon constant de l'optimum, tandis qu'une suppression naïve des poids maîtres peut entraîner une erreur inversement proportionnelle au taux d'apprentissage. Nous présentons des résultats empiriques pour le pré-entraînement de petits Transformers (30-800M), d'un modèle Gemma-3 1B, et d'un modèle SMoE à 2,1B de paramètres avec quantification FP8, ainsi que pour le fine-tuning de DeepSeek-MoE-16B en précision INT4. Dans tous les cas, ECO atteint des performances équivalentes aux bases de référence utilisant des poids maîtres, avec une précision quasi sans perte, déplaçant significativement la frontière de Pareto entre la mémoire statique et la perte de validation.
La mise à l'échelle a alimenté les récentes avancées des modèles de fondation en vision, mais l'extension de ce paradigme à l'estimation métrique de la profondeur reste difficile en raison du bruit hétérogène des capteurs, des biais dépendants de la caméra et de l'ambiguïté métrique dans les données 3D multi-sources bruitées. Nous présentons Metric Anything, un cadre d'apprentissage préalable simple et évolutif qui apprend la profondeur métrique à partir de sources 3D diverses et bruitées, sans invites conçues manuellement, modélisation spécifique à la caméra ou architectures dédiées à une tâche. Au cœur de notre approche se trouve l'Invite Métrique Éparse, créée en masquant aléatoirement les cartes de profondeur, qui sert d'interface universelle découplant le raisonnement spatial des biais du capteur et de la caméra. En utilisant environ 20 millions de paires image-profondeur couvrant des données 3D reconstruites, capturées et synthétisées, provenant de 10 000 modèles de caméras, nous démontrons - pour la première fois - une tendance claire de mise à l'échelle dans le domaine de la profondeur métrique. Le modèle pré-entraîné excelle dans les tâches pilotées par invite telles que la complétion de profondeur, la super-résolution et la fusion Radar-caméra, tandis que son étudiant "sans invite" distillé obtient des résultats state-of-the-art en estimation de profondeur monoculaire, récupération des paramètres intrinsèques de la caméra, reconstruction 3D métrique mono/multi-vues et planification VLA. Nous montrons également que l'utilisation du ViT pré-entraîné de Metric Anything comme encodeur visuel améliore significativement les capacités des Grands Modèles Linguistiques Multimodaux en intelligence spatiale. Ces résultats montrent que l'estimation métrique de la profondeur peut bénéficier des mêmes lois d'échelle qui animent les modèles de fondation modernes, ouvrant une nouvelle voie vers une perception métrique du monde réel évolutive et efficace. Nous ouvrons le code de MetricAnything à http://metric-anything.github.io/metric-anything-io/ pour soutenir la recherche communautaire.
Les modèles multimodaux unifiés (UMM) intègrent à la fois la compréhension et la génération visuelles au sein d'un même cadre. Leur aspiration ultime est de créer un cycle où compréhension et génération se renforcent mutuellement. Bien que des méthodes de post-formation récentes aient exploité avec succès la compréhension pour améliorer la génération, la direction inverse consistant à utiliser la génération pour améliorer la compréhension demeure largement inexplorée. Dans ce travail, nous proposons UniMRG (Génération de Représentations Multiples Unifiée), une méthode de post-formation simple mais efficace, indépendante de l'architecture. UniMRG améliore les capacités de compréhension des UMM en intégrant des tâches de génération auxiliaires. Plus précisément, nous entraînons les UMM à générer plusieurs représentations intrinsèques des images d'entrée, à savoir les pixels (reconstruction), la profondeur (géométrie) et la segmentation (structure), parallèlement aux objectifs standards de compréhension visuelle. En synthétisant ces représentations diverses, les UMM capturent des informations complémentaires concernant l'apparence, les relations spatiales et la disposition structurelle. Par conséquent, les UMM développent une compréhension plus profonde et plus complète des entrées visuelles. Des expériences approfondies sur diverses architectures d'UMM démontrent que notre méthode améliore notablement la perception fine, réduit les hallucinations et améliore la compréhension spatiale, tout en renforçant simultanément les capacités de génération.
Nous proposons FROST, une méthode attentive pour un raisonnement efficace. Contrairement aux approches traditionnelles, FROST exploite les poids d'attention pour élaguer les chemins de raisonnement non critiques, produisant ainsi des trajectoires de raisonnement plus courtes et plus fiables. Sur le plan méthodologique, nous introduisons le concept d'atypiques de raisonnement et concevons un mécanisme basé sur l'attention pour les supprimer. Théoriquement, FROST préserve et améliore la capacité de raisonnement du modèle tout en éliminant les atypiques au niveau de la phrase. Empiriquement, nous validons FROST sur quatre benchmarks en utilisant deux modèles de raisonnement performants (Phi-4-Reasoning et GPT-OSS-20B), surpassant les méthodes de pointe telles que TALE et ThinkLess. Notamment, FROST réalise une réduction moyenne de 69,68 % de l'utilisation de tokens et une amélioration de 26,70 % de la précision par rapport au modèle de base. De plus, dans les évaluations des métriques d'atypiques d'attention, FROST réduit la norme infinie maximale de 15,97 % et l'aplatissement moyen de 91,09 % par rapport au modèle de base. Le code est disponible à l'adresse https://github.com/robinzixuan/FROST.
Les modèles de fondation audio-visuels, pré-entraînés pour générer conjointement du contenu sonore et visuel, ont récemment démontré une capacité sans précédent à modéliser la génération et l'édition multimodales, ouvrant de nouvelles opportunités pour les tâches en aval. Parmi ces tâches, le doublage vidéo pourrait grandement bénéficier de tels modèles préalables, mais la plupart des solutions existantes reposent encore sur des pipelines complexes et spécifiques qui peinent dans des conditions réelles. Dans ce travail, nous présentons une approche à modèle unique qui adapte un modèle de diffusion audio-vidéo fondamental pour le doublage vidéo-à-vidéo via un LoRA léger. Le LoRA permet au modèle de se conditionner sur une entrée audio-vidéo tout en générant conjointement l'audio traduit et le mouvement facial synchronisé. Pour entraîner ce LoRA, nous exploitons le modèle génératif lui-même pour synthétiser des vidéos multilingues appariées du même locuteur. Concrètement, nous générons des vidéos multilingues avec des changements de langue au sein d'un même clip, puis nous restaurons le visage et l'audio dans chaque moitié pour correspondre à la langue de l'autre moitié. En tirant parti de la riche connaissance préalable générative du modèle audio-visuel, notre approche préserve l'identité du locuteur et la synchronisation labiale tout en restant robuste aux mouvements complexes et aux dynamiques du monde réel. Nous démontrons que notre approche produit des vidéos doublées de haute qualité avec une fidélité visuelle, une synchronisation labiale et une robustesse améliorées par rapport aux pipelines de doublage existants.
La plupart des méthodes d'apprentissage par renforcement (RL) pour l'entraînement des grands modèles de langage (LLM) nécessitent des étiquettes de vérité terrain ou des vérificateurs spécifiques à la tâche, ce qui limite leur extensibilité lorsque la notion de correction est ambiguë ou coûteuse à obtenir. Nous présentons l'Apprentissage par Renforcement à partir de Méta-Évaluation (RLME), qui optimise un générateur en utilisant une récompense dérivée des réponses d'un évaluateur à des méta-questions en langage naturel (par exemple, « La réponse est-elle correcte ? » ou « Le raisonnement est-il logiquement cohérent ? »). RLME traite la probabilité d'un jugement positif par l'évaluateur comme une récompense et met à jour le générateur via une optimisation de politique relative au groupe, permettant un apprentissage sans étiquettes. À travers une série d'expériences, nous montrons que RLME atteint une précision et une efficacité d'échantillonnage comparables à un entraînement basé sur des étiquettes, permet des compromis contrôlables entre plusieurs objectifs, oriente les modèles vers des schémas de raisonnement fiables plutôt que vers une rationalisation a posteriori, et généralise à des contextes en domaine ouvert où les étiquettes de vérité terrain sont indisponibles, élargissant ainsi les domaines dans lesquels les LLM peuvent être entraînés avec du RL.
Les progrès récents en apprentissage par renforcement pour la génération de code ont rendu les environnements robustes essentiels pour prévenir le détournement de récompense. Alors que les LLM servent de plus en plus d'évaluateurs dans l'apprentissage par renforcement basé sur le code, leur capacité à détecter ce détournement reste peu étudiée. Dans cet article, nous proposons une nouvelle taxonomie des exploits de récompense couvrant 54 catégories et présentons TRACE (Testing Reward Anomalies in Code Environments), un benchmark synthétiquement constitué et vérifié par des humains contenant 517 trajectoires de test. Contrairement aux travaux antérieurs qui évaluent la détection des détournements dans des scénarios de classification isolés, nous contrastons ces évaluations avec une configuration plus réaliste de détection d'anomalies contrastives sur TRACE. Nos expériences révèlent que les modèles capturent plus efficacement les détournements dans des contextes contrastifs que dans des paramètres de classification isolés, GPT-5.2 avec le mode de raisonnement le plus élevé atteignant le meilleur taux de détection à 63 %, contre 45 % dans des configurations isolées sur TRACE. Sur cette base, nous démontrons que les modèles de pointe éprouvent nettement plus de difficultés avec les détournements sémantiquement contextualisés qu'avec ceux syntaxiquement contextualisés. Nous menons en outre des analyses qualitatives des comportements des modèles, ainsi que des études d'ablation montrant que le ratio des trajectoires bénignes aux trajectoires piratées et la taille des clusters d'analyse impactent significativement les performances de détection. Nous publions le benchmark et son cadre d'évaluation pour permettre à la communauté d'étendre TRACE et d'évaluer ses modèles.
La découverte de structures extrémales en mathématiques nécessite de naviguer dans des paysages vastes et non convexes où les méthodes analytiques offrent peu de guidance et la recherche par force brute devient insoluble. Nous présentons FlowBoost, un cadre génératif en boucle fermée qui apprend à découvrir des structures géométriques rares et extrémales en combinant trois composants : (i) un modèle conditionnel d'appariement de flux (« flow-matching ») sensible à la géométrie qui apprend à échantillonner des configurations de haute qualité, (ii) une optimisation de politique guidée par récompense avec exploration d'actions qui optimise directement le processus de génération vers l'objectif tout en maintenant la diversité, et (iii) une recherche locale stochastique utilisée à la fois pour la génération des données d'apprentissage et pour l'affinage final. Contrairement aux approches en boucle ouverte antérieures, telles que PatternBoost qui ré-entraîne sur des échantillons discrets filtrés, ou AlphaEvolve qui repose sur des modèles de langage volumineux (LLM) figés comme opérateurs de mutation évolutive, FlowBoost impose la faisabilité géométrique pendant l'échantillonnage et propage le signal de récompense directement dans le modèle génératif, refermant la boucle d'optimisation. Cela nécessite des ensembles d'apprentissage beaucoup plus petits et des temps d'entraînement plus courts, réduit le nombre d'itérations de boucle externe de plusieurs ordres de grandeur, et élimine la dépendance aux LLM. Nous démontrons le cadre sur quatre problèmes d'optimisation géométrique : l'empilement de sphères dans des hypercubes, l'empilement de cercles maximisant la somme des rayons, le problème du triangle de Heilbronn et la minimisation de la discrépance étoilée. Dans plusieurs cas, FlowBoost découvre des configurations qui égalent ou surpassent les meilleurs résultats connus. Pour les empilements de cercles, nous améliorons les meilleures bornes inférieures connues, surpassant le système basé sur les LLM AlphaEvolve tout en utilisant des ressources de calcul substantiellement moindres.
L'empreinte audio fournit une représentation identifiable des signaux acoustiques, qui peut ensuite être utilisée pour des systèmes d'identification et de recherche. Pour obtenir une représentation discriminante, l'audio d'entrée est généralement segmenté en intervalles temporels plus courts, permettant l'extraction et l'analyse de caractéristiques acoustiques locales. Les approches neuronales modernes opèrent typiquement sur des segments audio courts et de durée fixe, pourtant le choix de la durée des segments est souvent fait de manière heuristique et rarement examiné en profondeur. Dans cet article, nous étudions comment la longueur des segments affecte les performances de l'empreinte audio. Nous étendons une architecture neuronale existante d'empreinte audio pour adopter différentes longueurs de segments et évaluons la précision de la recherche sur différentes longueurs de segments et durées de requête. Nos résultats montrent que les courtes longueurs de segments (0,5 seconde) obtiennent généralement de meilleures performances. De plus, nous évaluons la capacité des LLM à recommander la meilleure longueur de segment, ce qui montre que GPT-5-mini donne systématiquement les meilleures suggestions parmi cinq considérations chez les trois LLM étudiés. Nos résultats fournissent des conseils pratiques pour sélectionner la durée des segments dans les systèmes neuronaux de recherche audio à grande échelle.
La conception graphique implique souvent l'exploration de différentes directions stylistiques, ce qui peut être chronophage pour les non-experts. Nous abordons ce problème d'amélioration stylistique des conceptions basée sur des instructions en langage naturel. Bien que les modèles de vision et langage (VLM) aient connu un succès initial en design graphique, leurs connaissances pré-entraînées sur les styles sont souvent trop générales et non alignées avec les données spécifiques au domaine. Par exemple, les VLM peuvent associer le minimalisme à des designs abstraits, tandis que les designers mettent l'accent sur les choix de formes et de couleurs. Notre idée clé est d'exploiter les données de conception - une collection de designs réels qui capturent implicitement les principes des designers - pour apprendre les connaissances en design et guider l'amélioration stylistique. Nous proposons PRISM (PRior-Informed Stylistic Modification) qui construit et applique une base de connaissances en design à travers trois étapes : (1) le regroupement de designs à haute variance pour capturer la diversité au sein d'un style, (2) la synthèse de chaque groupe en connaissances de conception actionnables, et (3) la récupération des connaissances pertinentes lors de l'inférence pour permettre une amélioration consciente du style. Les expériences sur le jeu de données Crello montrent que PRISM obtient le rang moyen le plus élevé de 1,49 (plus proche de 1 étant meilleur) par rapport aux lignes de base en alignement stylistique. Les études utilisateurs valident davantage ces résultats, montrant que PRISM est systématiquement préféré par les designers.
Les agents web présentent un potentiel considérable pour automatiser des tâches informatiques complexes, mais leurs interactions impliquent une prise de décision séquentielle à long terme avec des actions irréversibles. Dans de tels contextes, la supervision basée sur les résultats est parcimonieuse et retardée, récompensant souvent des trajectoires incorrectes et échouant à soutenir la mise à l'échelle lors de l'inférence. Cela motive l'utilisation de modèles de récompense de processus (WebPRMs) pour la navigation web, mais les approches existantes restent limitées : les WebPRMs scalaires réduisent le progrès à des signaux grossiers et faiblement fondés, tandis que les WebPRMs basés sur des listes de contrôle reposent sur un appariement de modèles fragile qui échoue face à des changements de mise en page ou sémantiques, étiquetant souvent des actions superficiellement correctes comme réussies, offrant ainsi peu de perspicacité ou d'interprétabilité. Pour relever ces défis, nous présentons WebArbiter, un WebPRM axé sur le raisonnement et inducteur de principes, qui formule la modélisation de la récompense comme une génération de texte, produisant des justifications structurées concluant par un verdict de préférence et identifiant l'action la plus propice à l'accomplissement de la tâche dans le contexte actuel. L'entraînement suit un pipeline en deux étapes : la distillation du raisonnement dote le modèle d'un raisonnement cohérent guidé par des principes, et l'apprentissage par renforcement corrige les biais de l'enseignant en alignant directement les verdicts sur la justesse, permettant une généralisation plus forte. Pour soutenir une évaluation systématique, nous publions WebPRMBench, un benchmark complet couvrant quatre environnements web diversifiés avec des tâches riches et des annotations de préférence de haute qualité. Sur WebPRMBench, WebArbiter-7B surpasse le plus solide des modèles de référence, GPT-5, de 9,1 points. Dans la recherche de trajectoires guidée par les récompenses sur WebArena-Lite, il dépasse le meilleur WebPRM antérieur jusqu'à 7,2 points, soulignant sa robustesse et sa valeur pratique dans des tâches web complexes réelles.
Les modèles visuels de fondation fournissent des caractéristiques perceptives solides pour la robotique, mais leurs représentations denses manquent de structure explicite au niveau des objets, limitant la robustesse et la contractilité dans les tâches de manipulation. Nous proposons STORM (Représentation Objet-centrique Consciente de la Tâche basée sur Slots pour la Manipulation robotique), un module d'adaptation léger et objet-centrique qui augmente les modèles visuels de fondation figés avec un petit ensemble de slots sémantiquement conscients pour la manipulation robotique. Plutôt que de réentraîner de grands modèles de base, STORM utilise une stratégie d'entraînement multi-phase : les slots objet-centriques sont d'abord stabilisés via un pré-entraînement visuo-sémantique utilisant des embeddings linguistiques, puis adaptés conjointement avec une politique de manipulation en aval. Cet apprentissage par étapes empêche la formation de slots dégénérés et préserve la cohérence sémantique tout en alignant la perception avec les objectifs de la tâche. Les expériences sur des benchmarks de découverte d'objets et des tâches de manipulation simulées montrent que STORM améliore la généralisation aux distracteurs visuels et les performances de contrôle par rapport à l'utilisation directe des caractéristiques de modèles de fondation figés ou à l'entraînement de représentations objet-centriques de bout en bout. Nos résultats soulignent l'adaptation multi-phase comme un mécanisme efficace pour transformer les caractéristiques génériques des modèles de fondation en représentations objet-centriques conscientes de la tâche pour le contrôle robotique.
La capacité de généralisation des politiques de manipulation robotique est fortement influencée par le choix des représentations visuelles. Les approches existantes reposent généralement sur des représentations extraites d'encodeurs pré-entraînés, utilisant deux types de caractéristiques dominants : les caractéristiques globales, qui résument une image entière via un seul vecteur agrégé, et les caractéristiques denses, qui préservent un embedding par patch provenant de la couche finale de l'encodeur. Bien que largement utilisés, ces deux types de caractéristiques mélangent des informations pertinentes et non pertinentes pour la tâche, conduisant à une mauvaise généralisation face à des décalages de distribution, tels que des changements d'éclairage, de texture ou la présence de distracteurs. Dans ce travail, nous explorons une alternative structurée intermédiaire : les représentations centrées sur les objets par slots (SBOCR), qui regroupent les caractéristiques denses en un ensemble fini d'entités de type objet. Cette représentation permet de réduire naturellement le bruit fourni à la politique de manipulation robotique tout en conservant suffisamment d'informations pour accomplir la tâche efficacement. Nous comparons un éventail de représentations globales et denses aux représentations intermédiaires basées sur les slots, à travers une série de tâches de manipulation simulées et réelles, allant du simple au complexe. Nous évaluons leur généralisation dans diverses conditions visuelles, incluant des changements d'éclairage, de texture et la présence de distracteurs. Nos résultats révèlent que les politiques basées sur les SBOCR surpassent les politiques basées sur les représentations denses et globales dans des scénarios de généralisation, même sans pré-entraînement spécifique à la tâche. Ces observations suggèrent que les SBOCR constituent une voie prometteuse pour concevoir des systèmes visuels qui généralisent efficacement dans des environnements robotiques dynamiques et réels.
Les récents progrès des modèles génératifs fondamentaux, souvent appelés « modèles du monde », ont suscité un intérêt croissant pour leur application à des tâches critiques comme la planification robotique et l'entraînement de systèmes autonomes. Pour un déploiement fiable, ces modèles doivent présenter une haute fidélité physique, simulant avec précision la dynamique du monde réel. Cependant, les benchmarks vidéo existants basés sur la physique souffrent d'un problème d'enchevêtrement, où un seul test évalue simultanément plusieurs lois et concepts physiques, limitant fondamentalement leur capacité diagnostique. Nous présentons WorldBench, un nouveau benchmark vidéo conçu spécifiquement pour une évaluation désenchevêtrée et concept-spécifique, nous permettant d'isoler et d'évaluer rigoureusement la compréhension d'un seul concept ou loi physique à la fois. Pour rendre WorldBench exhaustif, nous concevons des benchmarks à deux niveaux distincts : 1) une évaluation de la compréhension intuitive de la physique avec des concepts tels que la permanence de l'objet ou l'échelle/la perspective, et 2) une évaluation des constantes physiques de bas niveau et des propriétés des matériaux, comme les coefficients de frottement ou la viscosité des fluides. Lorsque les modèles du monde basés sur la vidéo à l'état de l'art sont évalués sur WorldBench, nous identifions des schémas d'échec spécifiques pour des concepts physiques particuliers, tous les modèles testés manquant de la cohérence physique nécessaire pour générer des interactions fiables dans le monde réel. Grâce à son évaluation concept-spécifique, WorldBench offre un cadre plus nuancé et évolutif pour évaluer rigoureusement les capacités de raisonnement physique des modèles de génération vidéo et des modèles du monde, ouvrant la voie à un apprentissage piloté par des modèles du monde plus robuste et généralisable.