papers.description
Un objectif à long terme des agents linguistiques est d'apprendre et de s'améliorer grâce à leur propre expérience, surpassant finalement les humains dans des tâches complexes et réalistes. Cependant, l'entraînement des agents à partir de données d'expérience avec l'apprentissage par renforcement reste difficile dans de nombreux environnements, qui manquent soit de récompenses vérifiables (par exemple, les sites web), soit nécessitent des déploiements inefficaces sur le long terme (par exemple, l'utilisation d'outils en plusieurs étapes). En conséquence, la plupart des agents actuels s'appuient sur un ajustement supervisé à partir de données expertes, ce qui est difficile à mettre à l'échelle et généralise mal. Cette limitation découle de la nature des démonstrations expertes : elles ne capturent qu'un éventail restreint de scénarios et exposent l'agent à une diversité limitée d'environnements. Nous abordons cette limitation avec un paradigme intermédiaire que nous appelons l'expérience précoce : des données d'interaction générées par les actions de l'agent lui-même, où les états futurs résultants servent de supervision sans signaux de récompense. Dans ce paradigme, nous étudions deux stratégies d'utilisation de ces données : (1) la modélisation implicite du monde, qui utilise les états collectés pour ancrer la politique dans la dynamique de l'environnement ; et (2) l'auto-réflexion, où l'agent apprend de ses actions sous-optimales pour améliorer son raisonnement et sa prise de décision. Nous évaluons ces approches dans huit environnements divers et plusieurs familles de modèles. Nos méthodes améliorent systématiquement l'efficacité et la généralisation hors domaine, soulignant la valeur de l'expérience précoce. De plus, dans les environnements avec des récompenses vérifiables, nos résultats fournissent des signaux prometteurs que l'expérience précoce offre une base solide pour un apprentissage par renforcement ultérieur, la positionnant comme un pont pratique entre l'apprentissage par imitation et les agents entièrement pilotés par l'expérience.
Bien que les modèles de langage multimodaux de grande taille (MLLMs) actuels aient démontré une compétence dans des tâches de raisonnement telles que les mathématiques et la logique, leur capacité à effectuer un raisonnement réflexif en chaîne longue, une condition préalable pour résoudre des problèmes complexes du monde réel, reste largement sous-explorée. Dans ce travail, nous menons d’abord une investigation empirique approfondie pour évaluer cette capacité. En exploitant un moteur de synthèse de données soigneusement conçu, nous construisons MM-HELIX, un benchmark multimodal composé de 1 260 échantillons répartis en 42 tâches synthétiques complexes nécessitant une pensée itérative et un retour en arrière. Les résultats empiriques sur ce benchmark révèlent que les MLLMs existants présentent des déficits de performance significatifs dans le raisonnement réflexif en chaîne longue. Pour pallier cette limitation, nous générons des données post-entraînement et explorons des paradigmes d’apprentissage pour exploiter ces données. Nous développons d’abord le pipeline de génération de réponses par étapes (Step-Elicited Response Generation) pour créer MM-HELIX-100K, un ensemble de données à grande échelle de 100 000 traces de raisonnement réflexif de haute qualité destinées à l’étape de réglage par instruction. Étant donné que l’apprentissage par renforcement standard échoue sur des tâches complexes en raison de signaux de récompense épars et d’un oubli catastrophique après le réglage fin supervisé, nous proposons l’Optimisation de Politique Hybride Adaptative (AHPO), une stratégie d’entraînement novatrice qui unifie dynamiquement la supervision hors ligne et l’optimisation en ligne en une seule étape. Cette stratégie permet au modèle d’apprendre à partir de données expertes lorsque les récompenses sont rares et de mener une exploration indépendante une fois qu’il est compétent. Appliquée au modèle de référence Qwen2.5-VL-7B, notre méthode obtient une amélioration de précision de +18,6 % sur le benchmark MM-HELIX et démontre une forte généralisation avec un gain de performance moyen de +5,7 % sur des tâches générales de mathématiques et de logique. Notre travail montre que le raisonnement réflexif dans les MLLMs peut être efficacement appris et généralisé, ouvrant la voie au développement de MLLMs plus performants.
Avec l'explosion des données, la modélisation de séquences longues est devenue de plus en plus cruciale dans des tâches telles que le traitement du langage naturel et la bioinformatique. Cependant, les méthodes existantes sont confrontées à des compromis inhérents entre efficacité et mémoire. Les réseaux de neurones récurrents souffrent de problèmes de disparition et d'explosion des gradients, ce qui les rend difficiles à mettre à l'échelle. Les Transformers peuvent modéliser des dépendances globales, mais sont limités par une complexité quadratique. Récemment, des modèles à espace d'états sélectifs tels que Mamba ont démontré une grande efficacité avec un temps O(n) et une inférence récurrente O(1), mais leur mémoire à long terme décroît de manière exponentielle. Dans ce travail, nous menons des dérivations mathématiques et une analyse informationnelle pour systématiquement révéler le mécanisme de décroissance de la mémoire de Mamba, répondant à une question fondamentale : quelle est la nature de la mémoire à long terme de Mamba et comment conserve-t-elle l'information ? Pour quantifier la perte d'information clé, nous introduisons des métriques de fidélité mémoire horizontale-verticale qui capturent la dégradation à la fois au sein et entre les couches. Inspirés par la manière dont les humains distillent et retiennent les informations saillantes lors de la lecture de documents longs, nous proposons MemMamba, un nouveau cadre architectural qui intègre un mécanisme de synthèse d'état ainsi qu'une attention inter-couches et inter-tokens, atténuant ainsi l'oubli à long terme tout en préservant une complexité linéaire. MemMamba obtient des améliorations significatives par rapport aux variantes existantes de Mamba et aux Transformers sur des benchmarks de séquences longues tels que PG19 et Passkey Retrieval, tout en offrant une accélération de 48 % en efficacité d'inférence. L'analyse théorique et les résultats empiriques démontrent que MemMamba réalise une percée dans le compromis complexité-mémoire, offrant un nouveau paradigme pour la modélisation de séquences ultra-longues.
Les modèles multimodaux unifiés ont montré des résultats prometteurs dans la génération et l'édition de contenu multimodal, mais restent largement limités au domaine de l'image. Dans ce travail, nous présentons UniVideo, un cadre polyvalent qui étend la modélisation unifiée au domaine vidéo. UniVideo adopte une conception à double flux, combinant un modèle de langage multimodal de grande envergure (MLLM) pour la compréhension des instructions avec un DiT multimodal (MMDiT) pour la génération vidéo. Cette conception permet une interprétation précise des instructions multimodales complexes tout en préservant la cohérence visuelle. Basé sur cette architecture, UniVideo unifie diverses tâches de génération et d'édition vidéo sous un seul paradigme d'instruction multimodal et est conjointement entraîné sur celles-ci. Des expériences approfondies démontrent qu'UniVideo égale ou dépasse les références spécifiques à une tâche de pointe dans la génération texte/image vers vidéo, la génération vidéo en contexte et l'édition vidéo en contexte. Notamment, la conception unifiée d'UniVideo permet deux formes de généralisation. Premièrement, UniVideo prend en charge la composition de tâches, comme combiner l'édition avec le transfert de style, en intégrant plusieurs capacités dans une seule instruction. Deuxièmement, même sans entraînement explicite sur l'édition vidéo libre, UniVideo transfère sa capacité d'édition à partir de données d'édition d'images à grande échelle à ce contexte, gérant des instructions inédites telles que l'incrustation de personnages sur fond vert ou la modification de matériaux dans une vidéo. Au-delà de ces capacités principales, UniVideo prend également en charge la génération vidéo basée sur des invites visuelles, où le MLLM interprète les invites visuelles et guide le MMDiT pendant la synthèse. Pour favoriser les recherches futures, nous publierons notre modèle et notre code.
Nous introduisons la tâche de complétion vidéo spatio-temporelle arbitraire, où une vidéo est générée à partir de patches arbitraires spécifiés par l'utilisateur, placés à n'importe quel emplacement spatial et instantané, similaire à peindre sur une toile vidéo. Cette formulation flexible unifie naturellement de nombreuses tâches existantes de génération vidéo contrôlable—y compris la génération vidéo à partir d'une première image, l'inpainting, l'extension et l'interpolation—sous un paradigme unique et cohérent. Cependant, la réalisation de cette vision se heurte à un obstacle fondamental dans les modèles modernes de diffusion vidéo latente : l'ambiguïté temporelle introduite par les VAEs causaux, où plusieurs trames de pixels sont compressées en une seule représentation latente, rendant difficile structurellement un conditionnement précis au niveau de la trame. Nous relevons ce défi avec VideoCanvas, un cadre novateur qui adapte le paradigme de conditionnement in-context (ICC) à cette tâche de contrôle fin sans ajouter de nouveaux paramètres. Nous proposons une stratégie de conditionnement hybride qui découple le contrôle spatial et temporel : le placement spatial est géré via un remplissage par zéros, tandis que l'alignement temporel est réalisé grâce à l'interpolation temporelle RoPE, qui attribue à chaque condition une position fractionnaire continue dans la séquence latente. Cela résout l'ambiguïté temporelle du VAE et permet un contrôle conscient des trames de pixels sur un modèle figé. Pour évaluer cette nouvelle capacité, nous développons VideoCanvasBench, le premier benchmark pour la complétion vidéo spatio-temporelle arbitraire, couvrant à la fois la fidélité intra-scène et la créativité inter-scène. Les expériences démontrent que VideoCanvas surpasse significativement les paradigmes de conditionnement existants, établissant un nouvel état de l'art dans la génération vidéo flexible et unifiée.
La recommandation de réaction chimique consiste à sélectionner les paramètres appropriés des conditions de réaction, ce qui est essentiel pour accélérer les progrès en chimie. Avec le développement rapide des modèles de langage à grande échelle (LLMs), l'intérêt croît pour exploiter leurs capacités de raisonnement et de planification dans la recommandation des conditions de réaction. Malgré leurs succès, les méthodes existantes expliquent rarement le raisonnement derrière les conditions de réaction recommandées, limitant ainsi leur utilité dans les workflows scientifiques à enjeux élevés. Dans ce travail, nous proposons ChemMAS, un système multi-agents qui reformule la prédiction des conditions comme une tâche de raisonnement basée sur des preuves. ChemMAS décompose la tâche en ancrage mécanistique, rappel multi-canaux, débat agentique tenant compte des contraintes et agrégation des justifications. Chaque décision est soutenue par des justifications interprétables fondées sur des connaissances chimiques et des précédents récupérés. Les expériences montrent que ChemMAS obtient des gains de 20 à 35 % par rapport aux méthodes de référence spécifiques au domaine et surpasse les LLMs à usage général de 10 à 15 % en précision Top-1, tout en fournissant des justifications falsifiables et dignes de confiance pour les humains, établissant ainsi un nouveau paradigme pour l'IA explicable dans la découverte scientifique.
Les modèles de langage à contexte étendu récents (LCLMs) peuvent traiter des centaines de milliers de tokens en une seule requête, ouvrant de nouvelles opportunités pour le raisonnement multi-étapes intensif en connaissances en intégrant de grands ensembles de documents récupérés ou, dans certains cas, directement toutes les informations nécessaires. Cependant, simplement alimenter plus de documents dans la fenêtre contextuelle ne parvient pas à capturer la manière dont les preuves devraient être connectées. Nous comblons cette lacune avec des modèles de pensée, qui reformulent le raisonnement en caches de pensée réutilisables, dérivés de traces de résolution de problèmes antérieures, structurant la manière dont les preuves sont combinées et guidant l'inférence multi-étapes avec des documents factuels. Pour maintenir l'efficacité de ces modèles, nous proposons une stratégie de mise à jour qui affine itérativement les modèles dérivés des données d'entraînement grâce à des retours en langage naturel. Sur divers benchmarks et familles de LCLMs, notre approche apporte des gains constants par rapport à des bases de référence solides, tant dans des contextes basés sur la récupération que sans récupération. De plus, nous montrons que les modèles optimisés peuvent être distillés dans des modèles open-source plus petits, démontrant ainsi leur applicabilité étendue et la réutilisation transparente du raisonnement. Nous désignons notre cadre sous le nom de LCLMs Augmentés par Modèles de Pensée (ToTAL).
Les études récentes sur les modèles de raisonnement explorent la méta-conscience des modèles de langage, c'est-à-dire leur capacité à savoir comment penser par eux-mêmes. Nous soutenons que les grands modèles de raisonnement manquent de cette propriété de méta-conscience en démontrant un grave désalignement entre les déroulements réels et les méta-informations prédites. Nous postulons qu'aligner les méta-prédictions avec les déroulements réels entraînera des gains de performance significatifs. Pour vérifier cette hypothèse, nous concevons un pipeline d'entraînement qui améliore la Méta-Conscience par Auto-Alignement (MASA), et prouvons qu'une méta-conscience accrue se traduit directement par une amélioration de la précision. Contrairement aux modèles de raisonnement méta-cognitifs existants, notre méthode ne nécessite pas de sources d'entraînement externes mais exploite des signaux auto-générés pour entraîner la méta-conscience. De plus, notre méthode permet un entraînement efficace en i) filtrant les prompts à variance nulle qui sont soit triviaux, soit insolubles, et ii) en interrompant les déroulements longs lorsqu'ils sont peu susceptibles de mener à des réponses correctes. Les résultats sont encourageants : notre stratégie apporte des améliorations significatives à la fois en précision et en efficacité d'entraînement sur des tâches intra-domaines et montre une forte généralisation sur des benchmarks hors-domaines. Plus précisément, notre méthode peut accélérer l'entraînement GRPO de plus de 1,28x pour atteindre la même performance, et obtenir un gain de précision de 19,3 % sur AIME25, et un gain moyen de 6,2 % sur six benchmarks mathématiques. L'entraînement avec guidage méta-cognitif améliore la généralisation hors-domaines, offrant une augmentation de 3,87 % sur GPQA-Diamond et un gain de précision global de 2,08 % sur 13 benchmarks couvrant les domaines logiques, scientifiques et de codage.
Exploiter la puissance des LLM nécessite un équilibre délicat entre être utile et inoffensif. Cela crée une tension fondamentale entre deux défis concurrents : la vulnérabilité aux attaques adverses qui suscitent du contenu dangereux, et une tendance à refuser excessivement des requêtes bénignes mais sensibles. Les approches actuelles naviguent souvent cet équilibre avec des modèles de sécurité qui rejettent complètement tout contenu contenant des parties dangereuses. Cette approche coupe la musique entièrement - elle peut exacerber les refus excessifs et ne parvient pas à fournir des conseils nuancés pour les requêtes qu'elle refuse. Pour enseigner aux modèles une chorégraphie plus coordonnée, nous proposons WaltzRL, un nouveau cadre d'apprentissage par renforcement multi-agent qui formule l'alignement de la sécurité comme un jeu collaboratif à somme positive. WaltzRL entraîne conjointement un agent de conversation et un agent de feedback, ce dernier étant incité à fournir des suggestions utiles qui améliorent la sécurité et l'utilité des réponses de l'agent de conversation. Au cœur de WaltzRL se trouve une Récompense d'Amélioration Dynamique (DIR) qui évolue dans le temps en fonction de la manière dont l'agent de conversation intègre le feedback. Au moment de l'inférence, les réponses dangereuses ou excessivement refusantes de l'agent de conversation sont améliorées plutôt que rejetées. L'agent de feedback est déployé avec l'agent de conversation et ne s'engage de manière adaptative que lorsque nécessaire, préservant ainsi l'utilité et une faible latence pour les requêtes sûres. Nos expériences, menées sur cinq ensembles de données diversifiés, démontrent que WaltzRL réduit significativement à la fois les réponses dangereuses (par exemple, de 39,0 % à 4,6 % sur WildJailbreak) et les refus excessifs (de 45,3 % à 9,9 % sur OR-Bench) par rapport à diverses méthodes de référence. En permettant aux agents de conversation et de feedback de co-évoluer et d'appliquer de manière adaptative le feedback, WaltzRL améliore la sécurité des LLM sans dégrader leurs capacités générales, faisant ainsi progresser la frontière de Pareto entre utilité et innocuité.
Les récents progrès dans l'édition d'images basée sur des instructions et la génération pilotée par des sujets ont suscité un intérêt considérable, mais ces deux tâches rencontrent encore des limites pour répondre aux besoins pratiques des utilisateurs. L'édition basée sur des instructions repose uniquement sur des instructions textuelles, qui échouent souvent à capturer des détails spécifiques d'édition, rendant nécessaire l'utilisation d'images de référence. Par ailleurs, la génération pilotée par des sujets se limite à combiner des objets ou des personnes concrets, négligeant des concepts plus larges et abstraits. Pour relever ces défis, nous proposons deux nouvelles tâches : l'édition et la génération multimodales basées sur des instructions. Ces tâches prennent en charge à la fois des instructions textuelles et visuelles et étendent leur portée pour inclure des concepts à la fois concrets et abstraits, améliorant ainsi considérablement leurs applications pratiques. Nous présentons DreamOmni2, qui aborde deux défis principaux : la création de données et la conception du cadre du modèle. Notre pipeline de synthèse de données se compose de trois étapes : (1) l'utilisation d'une méthode de mélange de caractéristiques pour créer des données d'extraction pour des concepts abstraits et concrets, (2) la génération de données d'entraînement pour l'édition basée sur des instructions multimodales à l'aide de modèles d'édition et d'extraction, et (3) l'application supplémentaire du modèle d'extraction pour créer des données d'entraînement pour l'édition basée sur des instructions multimodales. Pour le cadre, afin de gérer une entrée multi-images, nous proposons un schéma d'encodage d'index et de décalage d'encodage de position, qui aide le modèle à distinguer les images et à éviter la confusion des pixels. De plus, nous introduisons un entraînement conjoint avec le VLM et notre modèle de génération/édition pour mieux traiter des instructions complexes. Par ailleurs, nous avons proposé des benchmarks complets pour ces deux nouvelles tâches afin de stimuler leur développement. Les expériences montrent que DreamOmni2 a obtenu des résultats impressionnants. Les modèles et les codes seront rendus publics.
Les grands modèles de langage émergent comme des outils puissants pour la découverte de lois scientifiques, un défi fondamental dans la science pilotée par l'IA. Cependant, les benchmarks existants pour cette tâche souffrent d'un trilemme méthodologique fondamental, imposant un compromis entre pertinence scientifique, évolutivité et résistance à la mémorisation. De plus, ils simplifient à l'excès la découverte en la réduisant à un ajustement statique de fonctions, ne parvenant pas à capturer le processus scientifique authentique consistant à révéler des lois intégrées à travers l'exploration interactive de systèmes modèles complexes. Pour combler ces lacunes critiques, nous introduisons NewtonBench, un benchmark comprenant 324 tâches de découverte de lois scientifiques réparties dans 12 domaines de la physique. Notre conception atténue le trilemme d'évaluation en utilisant des décalages métaphysiques - des altérations systématiques des lois canoniques - pour générer une vaste gamme de problèmes qui sont évolutifs, scientifiquement pertinents et résistants à la mémorisation. Par ailleurs, nous élevons l'évaluation de l'ajustement statique de fonctions à la découverte interactive de modèles, exigeant que les agents sondent expérimentalement des systèmes complexes simulés pour découvrir des principes cachés. Nos expériences approfondies révèlent une capacité claire mais fragile de découverte dans les LLM de pointe : cette capacité se dégrade rapidement avec l'augmentation de la complexité du système et montre une extrême sensibilité au bruit observationnel. Notamment, nous mettons en évidence un effet paradoxal de l'assistance par outils : fournir un interpréteur de code peut entraver les modèles les plus performants en induisant un passage prématuré de l'exploration à l'exploitation, les amenant à se contenter de solutions sous-optimales. Ces résultats démontrent que la découverte robuste et généralisable dans des environnements complexes et interactifs reste le défi central. En fournissant un banc d'essai évolutif, robuste et scientifiquement authentique, NewtonBench offre un outil crucial pour mesurer les véritables progrès et guider le développement de la prochaine génération d'agents IA capables de découvertes scientifiques authentiques.
L'optimisation post-entraînement pour le raisonnement des grands modèles de langage (LLMs) repose de plus en plus sur des récompenses vérifiables : des vérificateurs déterministes qui fournissent des signaux de correction binaires (0-1). Bien que fiables, ces retours binaires sont rigides—de nombreuses tâches admettent des réponses partiellement correctes ou alternatives que les vérificateurs sous-évaluent, et cette supervision tout-ou-rien limite l'apprentissage. Les modèles de récompense offrent un retour plus riche et continu, qui peut servir de signal de supervision complémentaire aux vérificateurs. Nous présentons HERO (Hybrid Ensemble Reward Optimization), un cadre d'apprentissage par renforcement qui intègre de manière structurée les signaux des vérificateurs avec les scores des modèles de récompense. HERO utilise une normalisation stratifiée pour borner les scores des modèles de récompense au sein de groupes définis par les vérificateurs, préservant ainsi la correction tout en affinant les distinctions de qualité, et un pondération tenant compte de la variance pour mettre l'accent sur les prompts difficiles où les signaux denses sont les plus importants. Sur divers benchmarks de raisonnement mathématique, HERO surpasse systématiquement les bases de référence utilisant uniquement des modèles de récompense ou des vérificateurs, avec des gains significatifs sur les tâches vérifiables et difficiles à vérifier. Nos résultats montrent que la conception hybride des récompenses conserve la stabilité des vérificateurs tout en exploitant la nuance des modèles de récompense pour faire progresser le raisonnement.
La reconstruction 3D en temps réel à partir de séquences d'images monoculaires constitue un défi de longue date en vision par ordinateur, crucial pour des applications telles que la conversion réel-vers-simulé, la réalité augmentée/virtuelle (AR/VR) et la robotique. Les méthodes existantes se heurtent à un compromis majeur : l'optimisation par scène offre une haute fidélité mais est coûteuse en calcul, tandis que les modèles de base à propagation directe permettent une inférence en temps réel mais peinent à atteindre précision et robustesse. Dans ce travail, nous proposons ARTDECO, un cadre unifié qui combine l'efficacité des modèles à propagation directe avec la fiabilité des pipelines basés sur SLAM. ARTDECO utilise des modèles de base 3D pour l'estimation de pose et la prédiction de points, couplés à un décodeur gaussien qui transforme des caractéristiques multi-échelles en Gaussiennes 3D structurées. Pour maintenir à la fois fidélité et efficacité à grande échelle, nous concevons une représentation gaussienne hiérarchique avec une stratégie de rendu adaptée aux niveaux de détail (LoD), améliorant ainsi la fidélité du rendu tout en réduisant la redondance. Les expériences menées sur huit benchmarks variés, en intérieur et extérieur, montrent qu'ARTDECO offre des performances interactives comparables à SLAM, une robustesse similaire aux systèmes à propagation directe, et une qualité de reconstruction proche de l'optimisation par scène, ouvrant une voie pratique vers la numérisation en temps réel d'environnements réels avec une géométrie précise et une haute fidélité visuelle. Découvrez plus de démonstrations sur notre page de projet : https://city-super.github.io/artdeco/.
Les récentes avancées dans les agents de modèles de langage à grande échelle (LLM) ont démontré leurs capacités générales prometteuses. Cependant, leurs performances dans des domaines spécialisés du monde réel se dégradent souvent en raison des difficultés à intégrer efficacement des outils externes et des stratégies d’incitation spécifiques. Bien que des méthodes comme l'apprentissage par renforcement agentique aient été proposées pour résoudre ce problème, elles reposent généralement sur des mises à jour de paramètres coûteuses, par exemple, via un processus utilisant un réglage fin supervisé (SFT) suivi d'une phase d'apprentissage par renforcement (RL) avec une optimisation de politique relative par groupe (GRPO) pour modifier la distribution des sorties. Cependant, nous soutenons que les LLM peuvent obtenir un effet similaire sur la distribution des sorties en apprenant des connaissances expérientielles comme un a priori de token, une approche bien plus légère qui non seulement aborde la rareté pratique des données, mais évite également le problème courant de surajustement. À cette fin, nous proposons l'Optimisation de Politique Relative par Groupe sans Entraînement (Training-Free GRPO), une solution économique qui améliore les performances des agents LLM sans aucune mise à jour de paramètres. Notre méthode exploite l'avantage sémantique relatif par groupe plutôt que numérique au sein de chaque groupe de déploiements, distillant itérativement des connaissances expérientielles de haute qualité lors d'un apprentissage multi-époques sur un ensemble minimal de données de référence. Ces connaissances servent d'a priori de token appris, qui est intégré de manière transparente lors des appels d'API LLM pour guider le comportement du modèle. Les expériences sur des tâches de raisonnement mathématique et de recherche sur le web démontrent que Training-Free GRPO, appliqué à DeepSeek-V3.1-Terminus, améliore significativement les performances hors domaine. Avec seulement quelques dizaines d'échantillons d'entraînement, Training-Free GRPO surpasse les petits LLM finement ajustés avec des données et des coûts d'entraînement marginaux.
Le parallélisme d'échelle est apparu comme un paradigme puissant pour améliorer les capacités de raisonnement des grands modèles de langage (LLM) en générant simultanément plusieurs traces de Chaîne de Pensée (CoT). Cependant, cette approche introduit une inefficacité computationnelle significative due à la redondance inter-traces — notre analyse révèle que plus de 80 % des traces de raisonnement parallèles produisent des réponses finales identiques, représentant un gaspillage substantiel de calcul. Pour résoudre ce goulot d'étranglement critique en matière d'efficacité, nous proposons DeepPrune, un cadre novateur qui permet un parallélisme d'échelle efficace grâce à l'élagage dynamique. Notre méthode intègre un modèle juge spécialisé, entraîné avec une fonction de perte focale et des techniques de suréchantillonnage, pour prédire avec précision l'équivalence des réponses à partir de traces partielles de raisonnement, atteignant un AUROC de 0,87 pour la prédiction d'équivalence, combiné à un algorithme de clustering glouton en ligne qui élimine dynamiquement les chemins redondants tout en préservant la diversité des réponses. Des évaluations approfondies sur trois benchmarks exigeants (AIME 2024, AIME 2025 et GPQA) et plusieurs modèles de raisonnement démontrent que DeepPrune réalise une réduction remarquable des tokens de plus de 80 % par rapport à l'échantillonnage par consensus conventionnel dans la plupart des cas, tout en maintenant une précision compétitive à moins de 3 points de pourcentage. Notre travail établit une nouvelle norme pour un raisonnement parallèle efficace, rendant le raisonnement haute performance plus efficient. Notre code et nos données sont disponibles ici : https://deepprune.github.io/
Les grands modèles de langage ont récemment démontré des progrès significatifs en matière de capacité de raisonnement, souvent attribués à leur aptitude à générer des chaînes de pensée plus longues et à s'engager dans un raisonnement réflexif. Cependant, la contribution des réflexions à l'amélioration des performances reste incertaine. Dans cet article, nous analysons systématiquement les déploiements de huit modèles de raisonnement sur cinq ensembles de données mathématiques. Nous nous concentrons sur les comportements réflexifs où le modèle a déjà produit une réponse mais continue à réfléchir avant de finaliser sa sortie. Notre analyse révèle que les réflexions sont principalement confirmatoires et modifient rarement la réponse initiale du modèle, un schéma cohérent à travers les modèles et les ensembles de données. Pour comprendre le rôle des réflexions dans l'entraînement, nous construisons des ensembles de données de fine-tuning supervisé (SFT) avec des quantités variables d'étapes de réflexion. Nous observons que l'entraînement des modèles sur des déploiements avec plus d'étapes de réflexion améliore principalement la justesse de la première réponse plutôt que la capacité à corriger des réponses initialement erronées grâce aux réflexions. Cela nous motive à proposer une méthode d'arrêt précoce adaptée à la question, qui améliore l'efficacité des tokens lors de l'inférence en arrêtant le processus de raisonnement une fois que quelques réponses candidates plausibles sont générées, réduisant ainsi les étapes de réflexion inutiles. Motivés par cela, nous proposons en outre de tronquer dynamiquement les réflexions après l'apparition d'une réponse candidate lors de la génération, ce qui réduit les tokens de raisonnement de 24,5 % sur cinq ensembles de données mathématiques, avec une baisse de précision de seulement 2,9 %.
Des recherches antérieures ont montré que les modèles de langage (LLMs) affinés sur des complétions malveillantes ou incorrectes dans des domaines restreints (par exemple, du code non sécurisé ou des conseils médicaux erronés) peuvent devenir largement désalignés et adopter des comportements nuisibles, un phénomène appelé désalignement émergent. Dans cette étude, nous examinons si ce phénomène peut s'étendre au-delà des comportements liés à la sécurité pour englober un spectre plus large de malhonnêteté et de tromperie dans des scénarios à enjeux élevés (par exemple, mentir sous pression ou adopter un comportement trompeur). Pour explorer cette question, nous affinons des LLMs open-source sur des complétions désalignées dans divers domaines. Les résultats expérimentaux montrent que les LLMs présentent un comportement largement désaligné en matière de malhonnêteté. De plus, nous approfondissons ce phénomène dans un contexte d'affinage combiné en aval, et constatons que l'introduction d'aussi peu que 1 % de données désalignées dans une tâche standard en aval suffit à réduire le comportement honnête de plus de 20 %. Par ailleurs, nous considérons un environnement plus pratique d'interaction humain-IA où nous simulons des utilisateurs à la fois bienveillants et biaisés interagissant avec l'assistant LLM. De manière notable, nous observons que l'assistant peut être désaligné involontairement, exacerbant sa malhonnêteté avec seulement 10 % d'utilisateurs biaisés. En résumé, nous étendons l'étude du désalignement émergent au domaine de la malhonnêteté et de la tromperie dans des scénarios à enjeux élevés, et démontrons que ce risque survient non seulement par un affinage direct, mais aussi dans des tâches mixtes en aval et des interactions pratiques entre humains et IA.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a propulsé les modèles de langage de grande envergure dans le raisonnement complexe, mais sa scalabilité est souvent entravée par un goulot d'étranglement lors de l'entraînement, où les performances plafonnent à mesure que l'entropie de la politique s'effondre, signalant une perte d'exploration. Les méthodes précédentes abordent généralement ce problème en maintenant une entropie de politique élevée, mais les mécanismes précis qui régissent une exploration significative restent sous-explorés. Notre analyse suggère qu'une focalisation non sélective sur l'entropie risque d'amplifier des tokens non pertinents et de déstabiliser l'entraînement. Cet article étudie la dynamique d'exploration au sein du RLVR et identifie un problème clé : l'élimination progressive de tokens exploratoires de faible probabilité mais précieux, que nous appelons \textit{étincelles de raisonnement}. Nous constatons que, bien qu'abondants dans les modèles pré-entraînés, ces étincelles sont systématiquement éteintes pendant le RLVR en raison d'une sur-pénalisation, conduisant à une dégénérescence de l'exploration. Pour y remédier, nous introduisons la régularisation des faibles probabilités (Lp-Reg). Son mécanisme central régularise la politique vers une distribution heuristique de substitution. Cette substitution est construite en filtrant les tokens supposés être du bruit et en renormalisant la distribution sur les candidats restants. Le résultat est une substitution moins bruitée où la probabilité des étincelles de raisonnement est amplifiée, servant ensuite de cible de régularisation douce pour protéger ces tokens précieux de l'élimination via la divergence de KL. Les expériences montrent que Lp-Reg permet un entraînement stable sur la politique pendant environ 1 000 étapes, un régime où les méthodes de contrôle de l'entropie de référence s'effondrent. Cette exploration soutenue conduit à des performances de pointe, atteignant une précision moyenne de 60,17 % sur cinq benchmarks mathématiques, soit une amélioration de 2,66 % par rapport aux méthodes précédentes. Le code est disponible à l'adresse https://github.com/CarlanLark/Lp-Reg.
La super-résolution vidéo en cascade s'est imposée comme une technique prometteuse pour découpler la charge computationnelle associée à la génération de vidéos haute résolution à l'aide de grands modèles de base. Cependant, les études existantes se limitent largement aux tâches de texte-à-vidéo et ne parviennent pas à exploiter des conditions génératives supplémentaires au-delà du texte, qui sont pourtant cruciales pour garantir la fidélité dans la génération vidéo multi-modale. Nous abordons cette limitation en présentant UniMMVSR, le premier cadre unifié de super-résolution vidéo générative intégrant des conditions hybrides, incluant le texte, les images et les vidéos. Nous menons une exploration approfondie des stratégies d'injection de conditions, des schémas d'entraînement et des techniques de mélange de données au sein d'un modèle de diffusion vidéo latente. Un défi majeur a été de concevoir des méthodes distinctes de construction des données et d'utilisation des conditions pour permettre au modèle d'exploiter précisément tous les types de conditions, compte tenu de leurs corrélations variées avec la vidéo cible. Nos expériences démontrent qu'UniMMVSR surpasse significativement les méthodes existantes, produisant des vidéos avec des détails supérieurs et un degré de conformité plus élevé aux conditions multi-modales. Nous validons également la faisabilité de combiner UniMMVSR avec un modèle de base pour réaliser une génération guidée multi-modale de vidéos 4K, un exploit jusqu'alors inaccessible avec les techniques existantes.
L'entraînement compositionnel a été le paradigme de facto dans les modèles de langage multimodaux de grande taille (MLLMs) existants, où des encodeurs visuels pré-entraînés sont connectés à des modèles de langage pré-entraînés via un pré-entraînement multimodal continu. Cependant, les propriétés de mise à l'échelle multimodale de ce paradigme restent difficiles à explorer en raison de l'entraînement séparé. Dans cet article, nous nous concentrons sur l'entraînement natif des MLLMs de manière end-to-end et étudions systématiquement leur espace de conception et leurs propriétés de mise à l'échelle dans un cadre pratique, c'est-à-dire sous contrainte de données. À travers une étude minutieuse de divers choix dans les MLLMs, nous obtenons la méta-architecture optimale qui équilibre le mieux les performances et le coût d'entraînement. Par la suite, nous explorons davantage les propriétés de mise à l'échelle des MLLMs natifs et mettons en évidence la relation de mise à l'échelle positivement corrélée entre les encodeurs visuels et les modèles de langage. Sur la base de ces découvertes, nous proposons un MLLM natif appelé NaViL, combiné à une recette simple et rentable. Les résultats expérimentaux sur 14 benchmarks multimodaux confirment la performance compétitive de NaViL par rapport aux MLLMs existants. En outre, nos découvertes et résultats fournissent des insights approfondis pour l'étude future des MLLMs natifs.
L'auto-évolution est un sujet de recherche central pour permettre aux agents basés sur des modèles de langage de grande taille (LLM) d'améliorer continuellement leurs capacités après le pré-entraînement. Les recherches récentes ont observé une transition des méthodes sans apprentissage par renforcement (RL) vers des méthodes basées sur le RL. Les méthodes actuelles basées sur le RL s'appuient soit sur des signaux de récompense externes denses, soit extraient des signaux de récompense intrinsèques des LLM eux-mêmes. Cependant, ces approches s'écartent des mécanismes d'auto-évolution observés dans l'intelligence humaine, où les individus apprennent et s'améliorent par la discussion et la collaboration mutuelles. Dans ce travail, nous introduisons les Systèmes Multi-Agents Co-Évolutifs (CoMAS), un cadre novateur qui permet aux agents de s'améliorer de manière autonome en apprenant des interactions inter-agents sans supervision externe. CoMAS génère des récompenses intrinsèques à partir de dynamiques de discussion riches, utilise un mécanisme de LLM-comme-juge pour formuler ces récompenses, et optimise la politique de chaque agent via le RL, permettant ainsi une co-évolution décentralisée et évolutive. Les résultats expérimentaux montrent que CoMAS surpasse systématiquement les agents non entraînés et atteint des performances de pointe dans la plupart des configurations d'évaluation. Les études d'ablation confirment la nécessité des signaux de récompense basés sur l'interaction et révèlent une prometteuse évolutivité à mesure que le nombre et la diversité des agents augmentent. Ces résultats établissent CoMAS comme un paradigme novateur et efficace pour l'auto-évolution des agents basés sur des LLM.
Nous abordons la tâche de transfert de style vidéo avec des modèles de diffusion, où l'objectif est de préserver le contexte d'une vidéo d'entrée tout en la rendant dans un style cible spécifié par une invite textuelle. Un défi majeur est l'absence de données vidéo appariées pour la supervision. Nous proposons PickStyle, un cadre de transfert de style vidéo-à-vidéo qui enrichit des modèles de diffusion vidéo pré-entraînés avec des adaptateurs de style et tire parti de données d'images fixes appariées avec des correspondances source-style pour l'entraînement. PickStyle insère des adaptateurs de bas rang dans les couches d'auto-attention des modules de conditionnement, permettant une spécialisation efficace pour le transfert de style-mouvement tout en maintenant un alignement fort entre le contenu vidéo et le style. Pour combler l'écart entre la supervision d'images statiques et la vidéo dynamique, nous construisons des clips d'entraînement synthétiques à partir d'images appariées en appliquant des augmentations partagées qui simulent le mouvement de la caméra, assurant que les priorités temporelles sont préservées. De plus, nous introduisons le Guidance Sans Classificateur Contexte-Style (CS-CFG), une nouvelle factorisation du guidage sans classificateur en directions indépendantes de texte (style) et vidéo (contexte). CS-CFG garantit que le contexte est préservé dans la vidéo générée tout en transférant efficacement le style. Les expériences sur des benchmarks montrent que notre approche réalise des traductions vidéo temporellement cohérentes, fidèles au style et préservant le contenu, surpassant les baselines existantes à la fois qualitativement et quantitativement.
Avec les récents progrès des modèles de langage multimodaux de grande envergure (MLLMs) démontrant une compréhension et un raisonnement visuels solides, l'intérêt grandit pour leur utilisation afin d'améliorer les performances d'édition des modèles de diffusion. Malgré des avancées rapides, la plupart des études manquent d'une analyse approfondie des choix de conception des MLLMs. De plus, l'intégration des MLLMs et des modèles de diffusion reste un défi ouvert dans certaines tâches complexes, telles que l'édition vidéo. Dans cet article, nous présentons InstructX, un cadre unifié pour l'édition d'images et de vidéos. Plus précisément, nous menons une étude approfondie sur l'intégration des MLLMs et des modèles de diffusion pour l'édition pilotée par instructions dans diverses tâches. Sur la base de cette étude, nous analysons la coopération et la distinction entre les images et les vidéos dans une modélisation unifiée. (1) Nous montrons que l'entraînement sur des données d'images peut conduire à des capacités émergentes d'édition vidéo sans supervision explicite, atténuant ainsi les contraintes imposées par la rareté des données d'entraînement vidéo. (2) En incorporant des caractéristiques spécifiques aux modalités des MLLMs, notre approche unifie efficacement les tâches d'édition d'images et de vidéos au sein d'un seul modèle. Des expériences approfondies démontrent que notre méthode peut gérer un large éventail de tâches d'édition d'images et de vidéos et atteint des performances de pointe.
Le modèle de récompense (RM) joue un rôle central dans l'alignement des grands modèles de langage (LLM) avec les préférences humaines. Alors que les applications réelles impliquent de plus en plus des trajectoires historiques longues, par exemple dans le cas des agents LLM, il devient indispensable d'évaluer si les réponses d'un modèle sont non seulement de haute qualité, mais également ancrées et cohérentes avec le contexte fourni. Pourtant, les RM actuels restent limités à des contextes courts et se concentrent principalement sur des attributs au niveau de la réponse (par exemple, la sécurité ou l'utilité), tout en négligeant largement la dimension critique de la cohérence entre le contexte long et la réponse. Dans ce travail, nous introduisons Long-RewardBench, un benchmark spécifiquement conçu pour l'évaluation des RM en contexte long, comprenant à la fois des tâches de comparaison par paires et des tâches de sélection du meilleur parmi N. Notre étude préliminaire révèle que même les RM génératifs les plus avancés présentent une fragilité significative dans les scénarios à contexte long, échouant à maintenir des jugements de préférence conscients du contexte. Motivés par l'analyse des modèles d'échec observés dans les sorties des modèles, nous proposons une stratégie d'entraînement multi-étapes générale qui permet de transformer efficacement des modèles arbitraires en RM robustes pour contextes longs (LongRMs). Les expériences montrent que notre approche améliore considérablement les performances dans les évaluations en contexte long tout en préservant une forte capacité en contexte court. Notamment, notre LongRM de 8 milliards de paramètres surpasse des modèles de référence beaucoup plus grands (70 milliards de paramètres) et atteint des performances comparables à celles du modèle propriétaire Gemini 2.5 Pro.
La génération augmentée par récupération multimodale (MM-RAG) est une approche clé pour appliquer les grands modèles de langage (LLMs) et les agents à des bases de connaissances du monde réel. Cependant, les évaluations actuelles sont fragmentées, se concentrant soit sur le texte, soit sur les images de manière isolée, ou sur des configurations multimodales simplifiées qui ne parviennent pas à capturer les cas d'utilisation multimodaux centrés sur les documents. Dans cet article, nous présentons UniDoc-Bench, le premier benchmark à grande échelle et réaliste pour la MM-RAG, construit à partir de 70 000 pages PDF réelles couvrant huit domaines. Notre pipeline extrait et relie des preuves issues du texte, des tableaux et des figures, puis génère 1 600 paires de questions-réponses multimodales couvrant des requêtes de récupération factuelle, de comparaison, de synthèse et de raisonnement logique. Pour garantir la fiabilité, 20 % des paires de questions-réponses sont validées par plusieurs annotateurs et un arbitrage expert. UniDoc-Bench permet une comparaison directe entre quatre paradigmes : (1) texte uniquement, (2) image uniquement, (3) fusion multimodale texte-image, et (4) récupération multimodale conjointe — sous un protocole unifié avec des pools de candidats standardisés, des prompts et des métriques d'évaluation. Nos expériences montrent que les systèmes MM-RAG de fusion texte-image surpassent systématiquement à la fois les récupérations unimodales et celles basées sur des embeddings multimodaux conjoints, indiquant que ni le texte ni les images seuls ne suffisent et que les embeddings multimodaux actuels restent inadéquats. Au-delà du benchmarking, notre analyse révèle quand et comment le contexte visuel complète les preuves textuelles, identifie des modes d'échec systématiques et propose des conseils pratiques pour développer des pipelines MM-RAG plus robustes.
Les grands modèles de langage ont démontré des capacités remarquables dans divers domaines, mais des défis importants persistent lors de leur déploiement en tant qu'agents d'IA pour des tâches à long terme dans le monde réel. Les agents LLM existants souffrent d'une limitation critique : ils sont statiques au moment du test et ne peuvent pas apprendre de l'expérience, manquant ainsi de la capacité à accumuler des connaissances et à s'améliorer continuellement en cours de travail. Pour relever ce défi, nous proposons MUSE, un nouveau cadre d'agent qui introduit un système évolutif et piloté par l'expérience, centré autour d'un module de mémoire hiérarchique. MUSE organise divers niveaux d'expérience et les exploite pour planifier et exécuter des tâches à long terme dans de multiples applications. Après chaque exécution de sous-tâche, l'agent réfléchit de manière autonome à sa trajectoire, convertissant la trajectoire brute en expérience structurée et l'intégrant dans le module de mémoire. Ce mécanisme permet à l'agent d'évoluer au-delà de ses paramètres prédéfinis statiques, favorisant un apprentissage continu et une auto-évolution. Nous évaluons MUSE sur le benchmark de productivité à long terme TAC. Il atteint de nouvelles performances de pointe avec une marge significative en utilisant uniquement un modèle léger Gemini-2.5 Flash. Des expériences approfondies démontrent qu'à mesure que l'agent accumule de l'expérience de manière autonome, il présente des capacités de réalisation de tâches de plus en plus supérieures, ainsi que des capacités robustes d'apprentissage continu et d'auto-évolution. De plus, l'expérience accumulée par MUSE présente de fortes propriétés de généralisation, permettant une amélioration en zero-shot sur de nouvelles tâches. MUSE établit un nouveau paradigme pour les agents d'IA capables d'automatiser des tâches de productivité dans le monde réel.
Cette étude se concentre sur une tâche complexe mais prometteuse, la génération de vidéos sonores à partir de texte (Text-to-Sounding-Video, T2SV), qui vise à produire une vidéo avec un audio synchronisé à partir de conditions textuelles, tout en garantissant que les deux modalités sont alignées avec le texte. Malgré les progrès réalisés dans l'entraînement conjoint audio-vidéo, deux défis critiques restent non résolus : (1) une seule légende textuelle partagée, où le texte pour la vidéo est identique à celui pour l'audio, crée souvent une interférence modale, perturbant les modèles pré-entraînés, et (2) le mécanisme optimal pour l'interaction des caractéristiques intermodales reste incertain. Pour relever ces défis, nous proposons d'abord le cadre de légendage visuel hiérarchique (Hierarchical Visual-Grounded Captioning, HVGC) qui génère des paires de légendes dissociées, une légende pour la vidéo et une pour l'audio, éliminant ainsi les interférences au stade du conditionnement. Sur la base de HVGC, nous introduisons ensuite BridgeDiT, un nouveau transformeur de diffusion à double tour, qui utilise un mécanisme de Double Attention Croisée (Dual CrossAttention, DCA) agissant comme un « pont » robuste pour permettre un échange bidirectionnel et symétrique d'informations, atteignant une synchronisation à la fois sémantique et temporelle. Des expériences approfondies sur trois ensembles de données de référence, soutenues par des évaluations humaines, démontrent que notre méthode obtient des résultats de pointe sur la plupart des métriques. Des études d'ablation complètes valident en outre l'efficacité de nos contributions, offrant des insights clés pour la future tâche T2SV. Tous les codes et points de contrôle seront rendus publics.
Bien que les méthodes d'apprentissage par renforcement telles que l'Optimisation des Préférences Relatives par Groupe (GRPO) aient considérablement amélioré les modèles de langage de grande taille, leur adaptation aux modèles de diffusion reste un défi. En particulier, GRPO nécessite une politique stochastique, alors que les échantillonneurs de diffusion les plus économiques sont basés sur des équations différentielles ordinaires (EDO) déterministes. Des travaux récents abordent ce problème en utilisant des échantillonneurs basés sur des équations différentielles stochastiques (EDS) inefficaces pour induire une stochasticité, mais cette dépendance au bruit gaussien indépendant du modèle entraîne une convergence lente. Pour résoudre ce conflit, nous proposons l'Optimisation Directe des Préférences par Groupe (DGPO), un nouvel algorithme d'apprentissage par renforcement en ligne qui abandonne entièrement le cadre des gradients de politique. DGPO apprend directement à partir des préférences au niveau du groupe, qui exploitent les informations relatives des échantillons au sein des groupes. Cette conception élimine le besoin de politiques stochastiques inefficaces, permettant l'utilisation d'échantillonneurs EDO déterministes efficaces et un entraînement plus rapide. Des résultats approfondis montrent que DGPO s'entraîne environ 20 fois plus vite que les méthodes de pointe existantes et obtient des performances supérieures sur les métriques de récompense intra-domaines et extra-domaines. Le code est disponible à l'adresse https://github.com/Luo-Yihong/DGPO.
Les modèles multimodaux de grande envergure (LMMs) ont réalisé des progrès remarquables dans diverses capacités ; cependant, le raisonnement complexe sur des vidéos dans le domaine scientifique reste une frontière importante et difficile. Les benchmarks vidéo actuels ciblent principalement des scénarios généraux où la perception/reconnaissance est fortement sollicitée, tout en proposant des tâches de raisonnement relativement simples, conduisant à une saturation et échouant ainsi à évaluer efficacement les compétences cognitives multimodales avancées. Pour combler cette lacune critique, nous introduisons SciVideoBench, un benchmark rigoureux spécialement conçu pour évaluer le raisonnement vidéo avancé dans des contextes scientifiques. SciVideoBench se compose de 1 000 questions à choix multiples soigneusement élaborées, dérivées de vidéos d'expériences scientifiques de pointe couvrant plus de 25 disciplines académiques spécialisées et vérifiées par un système semi-automatique. Chaque question exige une connaissance approfondie du domaine, une perception spatiotemporelle précise et un raisonnement logique complexe, mettant ainsi efficacement à l'épreuve les capacités cognitives d'ordre supérieur des modèles. Notre évaluation met en lumière des déficits de performance significatifs chez les LMMs propriétaires et open-source de pointe, y compris Gemini 2.5 Pro et Qwen2.5-VL, indiquant une marge substantielle d'amélioration dans les capacités de raisonnement vidéo. Des analyses détaillées de facteurs critiques tels que la complexité du raisonnement et l'ancrage visuel fournissent des insights précieux et une orientation claire pour les développements futurs des LMMs, propulsant l'évolution de véritables co-scientifiques IA multimodaux compétents. Nous espérons que SciVideoBench répondra aux intérêts de la communauté et contribuera à repousser les limites de l'IA de pointe pour une science plus large.
Ce travail représente la première tentative de mise à l'échelle de la distillation de cohérence en temps continu pour des modèles de diffusion d'images et de vidéos à l'échelle applicative. Bien que le modèle de cohérence en temps continu (sCM) soit théoriquement fondé et empiriquement puissant pour accélérer la diffusion à l'échelle académique, son applicabilité aux tâches de génération d'images et de vidéos à grande échelle reste incertaine en raison des défis infrastructurels liés au calcul des produits Jacobien-vecteur (JVP) et des limitations des benchmarks d'évaluation standards. Nous développons d'abord un noyau JVP compatible avec le parallélisme basé sur FlashAttention-2, permettant l'entraînement de sCM sur des modèles de plus de 10 milliards de paramètres et des tâches vidéo de haute dimension. Notre étude révèle des limitations fondamentales de sCM dans la génération de détails fins, que nous attribuons à l'accumulation d'erreurs et à la nature "mode-couvrante" de son objectif de divergence avant. Pour y remédier, nous proposons le modèle de cohérence en temps continu régularisé par score (rCM), qui intègre la distillation de score comme régularisateur à saut long. Cette intégration complète sCM avec la divergence inverse "mode-recherchante", améliorant efficacement la qualité visuelle tout en maintenant une grande diversité de génération. Validé sur des modèles à grande échelle (Cosmos-Predict2, Wan2.1) allant jusqu'à 14 milliards de paramètres et des vidéos de 5 secondes, rCM égale ou dépasse la méthode de distillation de pointe DMD2 sur les métriques de qualité tout en offrant des avantages notables en termes de diversité, le tout sans réglage GAN ou recherche extensive d'hyperparamètres. Les modèles distillés génèrent des échantillons de haute fidélité en seulement 1 à 4 étapes, accélérant l'échantillonnage par diffusion de 15 à 50 fois. Ces résultats positionnent rCM comme un cadre pratique et théoriquement fondé pour faire progresser la distillation de diffusion à grande échelle.
Alors que les récents progrès dans les modèles de raisonnement ont démontré des comportements cognitifs grâce à l'apprentissage par renforcement, les approches existantes peinent à susciter des capacités de raisonnement approfondi dans les agents multi-tours avec des interactions à long horizon. Nous proposons DeepMiner, un cadre novateur qui suscite de telles capacités en introduisant des tâches d'entraînement de haute difficulté et une fenêtre contextuelle dynamique. DeepMiner présente une méthode de construction inverse pour générer des paires question-réponse complexes mais vérifiables à partir de sources web authentiques, ce qui garantit le défi et la fiabilité des données d'entraînement tout en injectant des capacités cognitives dans les scénarios de raisonnement multi-tours. Nous concevons en outre une stratégie de gestion contextuelle dynamique à la fois élégante et efficace pour l'entraînement et l'inférence, utilisant des mécanismes de fenêtre glissante tout en éliminant la dépendance aux modèles de synthèse externes, permettant ainsi au modèle de gérer efficacement des contextes à long horizon en expansion continue. Grâce à l'apprentissage par renforcement sur Qwen3-32B, nous développons DeepMiner-32B, qui réalise des améliorations substantielles de performance sur plusieurs benchmarks d'agents de recherche. DeepMiner atteint une précision de 33,5 % sur BrowseComp-en, surpassant le meilleur agent open-source précédent de près de 20 points de pourcentage, et démontre des améliorations constantes sur BrowseComp-zh, XBench-DeepSearch et GAIA. Notamment, notre gestion contextuelle dynamique permet des interactions soutenues de près de 100 tours dans une longueur de contexte standard de 32k, résolvant efficacement les limitations de contexte qui contraignent les systèmes d'interaction multi-tours existants.
La modélisation des récompenses est au cœur de l'apprentissage par renforcement à partir de retours humains (RLHF), mais la plupart des modèles de récompense existants reposent sur des jugements scalaires ou par paires qui ne parviennent pas à capturer la nature multidimensionnelle des préférences humaines. Des études récentes ont exploré les "rubrics-as-rewards" (RaR), qui utilisent des critères structurés en langage naturel pour saisir plusieurs dimensions de la qualité des réponses. Cependant, la production de rubriques à la fois fiables et évolutives reste un défi majeur. Dans ce travail, nous présentons OpenRubrics, une collection diversifiée et à grande échelle de paires (prompt, rubrique) pour entraîner des modèles de génération de rubriques et des modèles de récompense basés sur des rubriques. Pour obtenir des signaux d'évaluation discriminants et complets, nous introduisons la Génération de Rubriques Contrastive (CRG), qui dérive à la fois des règles strictes (contraintes explicites) et des principes (qualités implicites) en contrastant les réponses préférées et rejetées. Nous améliorons encore la fiabilité en imposant une cohérence des étiquettes de préférence via un échantillonnage par rejet pour éliminer les rubriques bruyantes. Sur plusieurs benchmarks de modélisation des récompenses, notre modèle de récompense basé sur des rubriques, Rubric-RM, surpasse des modèles de référence de taille comparable de 6,8 %. Ces gains se transfèrent aux modèles de politique sur des benchmarks de suivi d'instructions et biomédicaux. Nos résultats montrent que les rubriques fournissent des signaux d'alignement évolutifs qui réduisent l'écart entre l'évaluation humaine coûteuse et la modélisation automatisée des récompenses, permettant un nouveau paradigme d'alignement des LLM axé sur les principes.
Nous proposons ERA, un nouveau paradigme qui contraint l'entropie d'échantillonnage au-dessus de seuils donnés en appliquant des fonctions d'activation spécialement conçues aux sorties des modèles. Notre approche démontre une efficacité étendue à travers différents domaines : 1) pour les grands modèles de langage (LLMs), en augmentant le score AIME 2025 pour Qwen2.5-Math-7B de 37,4 % ; 2) pour les agents d'apprentissage par renforcement en contrôle continu, en améliorant les performances de plus de 30 % par rapport à des bases de référence solides telles que SAC sur le benchmark difficile HumanoidBench ; 3) pour la classification d'images, en augmentant la précision top-1 sur ImageNet de 0,69 % pour ResNet-50. Ces gains sont obtenus avec une surcharge computationnelle de moins de 7 %. Notre travail valide l'activation de sortie comme un outil puissant pour le contrôle de l'entropie, ouvrant une nouvelle direction pour la conception d'algorithmes plus simples et plus robustes.
Le succès remarquable des grands modèles de langage (LLMs) découle de leur capacité à consolider de vastes quantités de connaissances dans leur mémoire pendant le pré-entraînement et à les récupérer de cette mémoire lors de l'inférence, permettant ainsi des capacités avancées telles que la mémorisation de connaissances, le suivi d'instructions et le raisonnement. Cependant, les mécanismes de récupération et de consolidation de la mémoire dans les LLMs restent mal compris. Dans cet article, nous proposons l'hypothèse des tokens fonctionnels pour expliquer le fonctionnement des LLMs : pendant l'inférence, les tokens fonctionnels activent les caractéristiques les plus prédictives à partir du contexte et gouvernent la prédiction du token suivant (récupération de la mémoire). Pendant le pré-entraînement, la prédiction des tokens suivants (généralement des tokens de contenu) qui suivent les tokens fonctionnels augmente le nombre de caractéristiques apprises par les LLMs et met à jour les paramètres du modèle (consolidation de la mémoire). Les tokens fonctionnels correspondent ici approximativement aux mots fonctionnels en linguistique, y compris les signes de ponctuation, les articles, les prépositions et les conjonctions, par opposition aux tokens de contenu. Nous fournissons de nombreuses preuves expérimentales soutenant cette hypothèse. En utilisant l'analyse de graphes bipartis, nous montrons qu'un petit nombre de tokens fonctionnels active la majorité des caractéristiques. Des études de cas révèlent en outre comment les tokens fonctionnels activent les caractéristiques les plus prédictives à partir du contexte pour orienter la prédiction du token suivant. Nous constatons également que pendant le pré-entraînement, la perte d'entraînement est dominée par la prédiction des tokens de contenu suivants après les tokens fonctionnels, ce qui force les tokens fonctionnels à sélectionner les caractéristiques les plus prédictives à partir du contexte.
L'augmentation rapide des coûts computationnels liés au pré-entraînement des grands modèles de langage nécessite des approches plus efficaces. D'importants coûts computationnels ont été investis dans des points de contrôle bien entraînés existants, mais beaucoup d'entre eux restent sous-utilisés en raison de contraintes techniques ou d'une capacité limitée du modèle. Pour réutiliser efficacement ce coût « irrécupérable », nous proposons de recycler les points de contrôle pré-entraînés en augmentant leur nombre de paramètres et en poursuivant l'entraînement. Nous proposons une méthode de croissance orthogonale adaptée aux modèles convergents de type Mixture-of-Experts : la copie interpositionnelle de couches pour la croissance en profondeur et la duplication d'experts avec injection de bruit pour la croissance en largeur. Pour déterminer le moment optimal d'une telle croissance dans les séquences de points de contrôle, nous réalisons des expériences d'échelle approfondies révélant que la précision finale est fortement corrélée positivement au coût irrécupérable, indiquant qu'un investissement antérieur plus important conduit à de meilleures performances. Nous appliquons notre approche à des modèles de 70 milliards de paramètres et plus de 1 000 milliards de tokens d'entraînement, obtenant un gain de précision de 10,66 % par rapport à un entraînement à partir de zéro avec le même budget computationnel supplémentaire. Notre approche de recyclage des points de contrôle jette les bases d'un pré-entraînement économiquement efficace des grands modèles de langage.
Nous présentons UP2You, la première solution sans réglage pour la reconstruction de portraits 3D habillés en haute fidélité à partir de photos 2D extrêmement non contraintes prises en conditions réelles. Contrairement aux approches précédentes qui nécessitent des entrées "propres" (par exemple, des images du corps entier avec des occlusions minimales, ou des captures multi-vues bien calibrées), UP2You traite directement des photographies brutes et non structurées, qui peuvent varier considérablement en termes de pose, de point de vue, de cadrage et d'occlusion. Au lieu de compresser les données en tokens pour une optimisation lente en ligne de texte à 3D, nous introduisons un paradigme de rectification des données qui convertit efficacement les entrées non contraintes en images multi-vues propres et orthogonales en une seule passe avant en quelques secondes, simplifiant ainsi la reconstruction 3D. Au cœur d'UP2You se trouve un module d'agrégation de caractéristiques corrélées à la pose (PCFA), qui fusionne sélectivement les informations provenant de plusieurs images de référence par rapport aux poses cibles, permettant une meilleure préservation de l'identité et une empreinte mémoire quasi constante, avec davantage d'observations. Nous introduisons également un prédicteur de forme multi-référence basé sur un perceveur, éliminant ainsi le besoin de modèles corporels pré-capturés. Des expériences approfondies sur 4D-Dress, PuzzleIOI et des captures en conditions réelles démontrent qu'UP2You surpasse systématiquement les méthodes précédentes en termes de précision géométrique (Chamfer-15%, P2S-18% sur PuzzleIOI) et de fidélité texturale (PSNR-21%, LPIPS-46% sur 4D-Dress). UP2You est efficace (1,5 minute par personne) et polyvalent (supporte un contrôle de pose arbitraire et un essayage virtuel 3D multi-vêtements sans entraînement), le rendant pratique pour des scénarios réels où les humains sont capturés de manière informelle. Les modèles et le code seront publiés pour faciliter les recherches futures sur cette tâche peu explorée. Page du projet : https://zcai0612.github.io/UP2You
La réalisation d'une rotation généralisée d'objets en main reste un défi majeur en robotique, principalement en raison de la difficulté à transférer les politiques de la simulation au monde réel. Les dynamiques complexes et riches en contacts de la manipulation dextre créent un "fossé de réalité" qui a limité les travaux antérieurs à des scénarios contraints impliquant des géométries simples, des tailles et des rapports d'aspect limités, des poses de poignet contraintes ou des mains personnalisées. Nous abordons ce défi de transfert simulation-réalité avec un nouveau cadre qui permet à une seule politique, entraînée en simulation, de généraliser à une grande variété d'objets et de conditions dans le monde réel. Le cœur de notre méthode est un modèle de dynamique articulaire qui apprend à combler le fossé de réalité en ajustant efficacement une quantité limitée de données collectées dans le monde réel, puis en adaptant les actions de la politique de simulation en conséquence. Le modèle est très économe en données et généralisable à différentes distributions d'interaction de la main entière en factorisant la dynamique à travers les articulations, en comprimant les influences à l'échelle du système en variables de faible dimension, et en apprenant l'évolution de chaque articulation à partir de son propre profil dynamique, capturant implicitement ces effets nets. Nous combinons cela avec une stratégie de collecte de données entièrement autonome qui recueille des données d'interaction réelles diversifiées avec une intervention humaine minimale. Notre pipeline complet démontre une généralité sans précédent : une seule politique réussit à faire tourner des objets difficiles avec des formes complexes (par exemple, des animaux), des rapports d'aspect élevés (jusqu'à 5,33) et de petites tailles, tout en gérant diverses orientations de poignet et axes de rotation. Des évaluations approfondies dans le monde réel et une application de téléopération pour des tâches complexes valident l'efficacité et la robustesse de notre approche. Site web : https://meowuu7.github.io/DexNDM/
Les récents progrès dans les modèles de langage à grande échelle (LLMs) et l'apprentissage par renforcement (RL) ont conduit à des performances solides dans le domaine des systèmes de question-réponse (QA) ouverts. Cependant, les modèles existants peinent encore à répondre à des questions admettant plusieurs réponses valides. Les benchmarks standard de QA, qui supposent généralement une seule réponse de référence, négligent cette réalité et produisent ainsi des signaux d'entraînement inappropriés. Les tentatives existantes pour gérer l'ambiguïté reposent souvent sur une annotation manuelle coûteuse, difficile à étendre à des ensembles de données multi-sauts tels que HotpotQA et MuSiQue. Dans cet article, nous présentons A²Search, un cadre d'entraînement sans annotation et de bout en bout pour reconnaître et gérer l'ambiguïté. Au cœur de ce système se trouve un pipeline automatisé qui détecte les questions ambiguës et recueille des réponses alternatives via un échantillonnage de trajectoires et une vérification des preuves. Le modèle est ensuite optimisé avec RL en utilisant une récompense AnsF1 soigneusement conçue, qui intègre naturellement plusieurs réponses. Les expériences menées sur huit benchmarks de QA ouverts démontrent que A²Search atteint de nouvelles performances de pointe. Avec un seul déploiement, A²Search-7B obtient un score AnsF1@1 moyen de 48,4 % sur quatre benchmarks multi-sauts, surpassant toutes les bases de référence solides, y compris le ReSearch-32B nettement plus volumineux (46,2 %). Des analyses approfondies montrent en outre que A²Search résout l'ambiguïté et généralise à travers les benchmarks, soulignant que l'acceptation de l'ambiguïté est essentielle pour construire des systèmes de QA plus fiables. Notre code, données et poids de modèle sont disponibles à l'adresse suivante : https://github.com/zfj1998/A2Search.
L'apprentissage par renforcement a été largement appliqué pour améliorer les capacités de raisonnement des grands modèles de langage. L'extension des limites d'inférence des modèles plus petits est devenue un axe de recherche majeur. Cependant, des algorithmes tels que l'Optimisation de Politique Relative par Groupe (Group Relative Policy Optimization, GRPO) présentent un inconvénient évident : la limite supérieure des réponses générées par le modèle est entièrement déterminée par le modèle lui-même, empêchant ainsi l'acquisition de connaissances à partir d'échantillons qui sont soit tous incorrects, soit tous corrects. Dans cet article, nous introduisons l'Optimisation de Politique Contrastive par Groupe (Group Contrastive Policy Optimization, GCPO), une méthode qui intègre des réponses de référence externes standardisées. Lorsque le modèle ne parvient pas à résoudre un problème, la réponse de référence fournit la solution correcte, orientant ainsi le modèle vers une direction de mise à jour clairement précise. Cette approche offre deux avantages principaux : (1) elle améliore l'efficacité de l'entraînement en exploitant pleinement chaque échantillon ; (2) elle permet au modèle d'imiter la stratégie de résolution de problèmes de la réponse de référence pendant l'entraînement, améliorant ainsi la généralisation dans le raisonnement. GCPO obtient des résultats exceptionnels sur plusieurs ensembles de données de référence, apportant des améliorations substantielles par rapport au modèle de base. Notre code est disponible à l'adresse suivante : https://github.com/AchoWu/GCPO.
L'utilisation efficace des grands modèles de langage (LLM) est cruciale pour un déploiement à grande échelle : sans routage adaptatif, les systèmes paient trop cher pour des modèles puissants ou risquent une performance médiocre avec des modèles plus faibles. Sélectionner le bon LLM pour chaque requête est fondamentalement un problème de décision en ligne : les modèles diffèrent par leurs forces, les prix fluctuent, et les utilisateurs valorisent différemment la précision et le coût. Pourtant, la plupart des routeurs sont entraînés hors ligne avec des étiquettes pour tous les modèles candidats, une hypothèse qui ne tient pas lors du déploiement, où seul le résultat du modèle choisi est observé. Nous comblons cet écart avec BaRP, une approche de Routage avec Préférences basée sur le feedback de bandit, qui s'entraîne sous la même restriction de feedback partiel que le déploiement, tout en supportant une inférence ajustable par préférence : les opérateurs peuvent ajuster le compromis performance/coût au moment du test sans réentraînement. Cadré comme un bandit contextuel sur les caractéristiques des prompts et un vecteur de préférences utilisateur, notre méthode simule un environnement de feedback en ligne pendant l'entraînement et adapte ses décisions de routage à chaque nouveau prompt, plutôt que de dépendre d'une supervision hors ligne en information complète. Des expériences approfondies montrent que notre méthode surpasse systématiquement les routeurs hors ligne les plus performants d'au moins 12,46 % et le plus grand LLM d'au moins 2,45 %, et généralise de manière robuste pour des tâches inédites.
Malgré leurs capacités remarquables de compréhension du langage naturel, les modèles de langage de grande taille (LLMs) ont été sous-utilisés pour les tâches de recherche. Nous présentons Search-R3, un cadre novateur qui aborde cette limitation en adaptant les LLMs pour générer des embeddings de recherche comme résultat direct de leur processus de raisonnement. Notre approche exploite les capacités de chaîne de pensée des LLMs, leur permettant de produire des embeddings plus efficaces en raisonnant étape par étape à travers des analyses sémantiques complexes. Nous mettons en œuvre cela grâce à trois mécanismes complémentaires. (1) une étape d'apprentissage supervisé permet au modèle de produire des embeddings de qualité, (2) une méthodologie d'apprentissage par renforcement (RL) qui optimise la génération d'embeddings parallèlement au raisonnement, et (3) un environnement RL spécialisé qui gère efficacement les représentations d'embeddings en évolution sans nécessiter un ré-encodage complet du corpus à chaque itération d'entraînement. Nos évaluations approfondies sur divers benchmarks démontrent que Search-R3 surpasse significativement les méthodes antérieures en unifiant les processus de raisonnement et de génération d'embeddings. Cette approche intégrée post-entraînement représente une avancée substantielle dans la gestion de tâches complexes et intensives en connaissances qui nécessitent à la fois un raisonnement sophistiqué et une récupération d'information efficace. Page du projet : https://github.com/ytgui/Search-R3
Les récentes avancées dans les modèles génératifs ont ouvert de nouvelles perspectives passionnantes dans le domaine des véhicules autonomes. Plus précisément, les modèles de génération vidéo sont désormais explorés comme des environnements de test virtuels contrôlables. Parallèlement, les modèles de conduite de bout en bout (E2E) se sont imposés comme une alternative simplifiée aux systèmes de conduite autonome modulaires traditionnels, gagnant en popularité grâce à leur simplicité et leur évolutivité. Cependant, l'application de ces techniques à la simulation et à la planification soulève des questions importantes. Premièrement, bien que les modèles de génération vidéo puissent produire des vidéos de plus en plus réalistes, ces vidéos peuvent-elles respecter fidèlement les conditions spécifiées et être suffisamment réalistes pour l'évaluation des planificateurs autonomes E2E ? Deuxièmement, étant donné que les données sont cruciales pour comprendre et contrôler les planificateurs E2E, comment pouvons-nous obtenir des insights plus approfondis sur leurs biais et améliorer leur capacité à généraliser à des scénarios hors distribution ? Dans ce travail, nous comblons le fossé entre les modèles de conduite et les modèles génératifs de monde (Drive&Gen) pour répondre à ces questions. Nous proposons de nouvelles mesures statistiques exploitant les conducteurs E2E pour évaluer le réalisme des vidéos générées. En tirant parti de la contrôlabilité du modèle de génération vidéo, nous menons des expériences ciblées pour étudier les écarts de distribution affectant les performances des planificateurs E2E. Enfin, nous montrons que les données synthétiques produites par le modèle de génération vidéo offrent une alternative rentable à la collecte de données réelles. Ces données synthétiques améliorent efficacement la généralisation des modèles E2E au-delà des Domaines de Conception Opérationnelle existants, facilitant ainsi l'expansion des services de véhicules autonomes dans de nouveaux contextes opérationnels.
Un paradigme dominant pour enseigner des compétences complexes aux robots humanoïdes consiste à retargeter les mouvements humains comme références cinématiques pour entraîner des politiques d'apprentissage par renforcement (RL). Cependant, les pipelines de retargeting existants peinent souvent à combler le fossé significatif entre les corps humains et robotiques, produisant des artefacts physiquement invraisemblables comme le glissement des pieds et les interpénétrations. Plus important encore, les méthodes de retargeting courantes négligent les riches interactions humain-objet et humain-environnement, essentielles pour une locomotion et une loco-manipulation expressives. Pour résoudre ce problème, nous présentons OmniRetarget, un moteur de génération de données préservant les interactions, basé sur un maillage d'interaction qui modélise et préserve explicitement les relations spatiales et de contact cruciales entre un agent, le terrain et les objets manipulés. En minimisant la déformation laplacienne entre les maillages humains et robotiques tout en imposant des contraintes cinématiques, OmniRetarget génère des trajectoires cinématiquement réalisables. De plus, la préservation des interactions pertinentes pour la tâche permet une augmentation efficace des données, d'une seule démonstration à différentes incarnations de robots, terrains et configurations d'objets. Nous évaluons de manière exhaustive OmniRetarget en retargetant des mouvements provenant des ensembles de données OMOMO, LAFAN1 et de notre propre base de données MoCap, générant ainsi plus de 8 heures de trajectoires qui satisfont mieux les contraintes cinématiques et préservent les contacts par rapport aux méthodes de référence largement utilisées. Ces données de haute qualité permettent aux politiques RL proprioceptives d'exécuter avec succès des compétences de parkour et de loco-manipulation à long terme (jusqu'à 30 secondes) sur un humanoïde Unitree G1, entraîné avec seulement 5 termes de récompense et une simple randomisation de domaine partagée par toutes les tâches, sans aucun curriculum d'apprentissage.
Alors que de nouveaux optimiseurs gagnent en popularité et que la quantification des modèles devient une norme pour un déploiement efficace, une question clé se pose : comment le choix de l'optimiseur affecte-t-il les performances du modèle en présence de quantification ? Malgré les progrès dans ces deux domaines, les preuves systématiques sur les interactions entre optimiseurs et quantification restent limitées. Pour combler cette lacune, nous étudions l'impact du choix de l'optimiseur sur la robustesse du modèle sous quantification, en considérant à la fois la quantification post-entraînement (PTQ) et l'entraînement avec prise en compte de la quantification (QAT). Nous commençons par entraîner des modèles en précision complète, allant de 50 millions à 1,5 milliard de paramètres, avec six optimiseurs, afin d'explorer le paysage des hyperparamètres et d'établir des bases de référence bien ajustées. Nous appliquons ensuite la PTQ pour évaluer comment les performances du modèle se dégradent lorsqu'il est entraîné avec différents optimiseurs. Nous constatons que les métriques liées aux valeurs aberrantes, telles que le rapport maximum-moyenne (MMR) et le kurtosis, ne parviennent pas à prédire les performances de la PTQ pour différents optimiseurs. Nous démontrons analytiquement que cela est dû au fait que le MMR ne capture que les erreurs isolées des couches, tout en ignorant la manière dont les erreurs de quantification s'accumulent et se propagent à travers le réseau. Pour étudier la dégradation en QAT, nous entraînons des modèles quantifiés à partir de zéro et les comparons à nos bases de référence en précision d'origine. Nous constatons que les optimiseurs qui performent bien dans le cadre d'entraînement initial peuvent ne pas rester optimaux sous QAT, et que les modèles entraînés avec Shampoo présentent la plus faible dégradation de précision. Enfin, nous dérivons des lois d'échelle pour l'entraînement avec prise en compte de la quantification sous différents optimiseurs, montrant que Shampoo atteint la plus grande efficacité en termes de paramètres parmi tous les optimiseurs testés.
Dans l'objectif d'une manipulation robotique généralisée, la généralisation spatiale constitue la capacité la plus fondamentale, exigeant que la politique fonctionne de manière robuste face à différentes distributions spatiales d'objets, d'environnements et de l'agent lui-même. Pour y parvenir, il est nécessaire de collecter un nombre substantiel de démonstrations humaines afin de couvrir diverses configurations spatiales pour l'entraînement d'une politique visuomotrice généralisée via l'apprentissage par imitation. Les travaux antérieurs explorent une direction prometteuse qui exploite la génération de données pour acquérir des données spatialement diversifiées à partir d'un nombre minimal de démonstrations sources. Cependant, la plupart des approches sont confrontées à un écart significatif entre simulation et réalité et sont souvent limitées à des scénarios contraints, tels que des configurations à base fixe et des points de vue prédéfinis de la caméra. Dans cet article, nous proposons un cadre de génération de données 3D réel-réel (R2RGen) qui augmente directement les paires observation-action sous forme de nuages de points pour générer des données du monde réel. R2RGen est exempt de simulateur et de rendu, ce qui le rend efficace et prêt à l'emploi. Plus précisément, étant donné une seule démonstration source, nous introduisons un mécanisme d'annotation pour l'analyse fine de la scène et de la trajectoire. Une stratégie d'augmentation par groupes est proposée pour gérer les compositions complexes d'objets multiples et les contraintes de tâches variées. Nous présentons également un traitement prenant en compte la caméra pour aligner la distribution des données générées avec celle des capteurs 3D du monde réel. Empiriquement, R2RGen améliore considérablement l'efficacité des données lors de vastes expériences et démontre un fort potentiel de mise à l'échelle et d'application dans la manipulation mobile.
Nous présentons Stable Video Materials 3D (SViM3D), un cadre permettant de prédire des matériaux de rendu physiquement réalistes (PBR) cohérents en multi-vues à partir d'une seule image. Récemment, les modèles de diffusion vidéo ont été utilisés avec succès pour reconstruire efficacement des objets 3D à partir d'une seule image. Cependant, la réflectance est encore représentée par des modèles de matériaux simples ou doit être estimée dans des étapes supplémentaires pour permettre un rééclairage et des modifications contrôlées de l'apparence. Nous étendons un modèle de diffusion vidéo latent pour produire des paramètres PBR variant spatialement et des normales de surface conjointement avec chaque vue générée, en se basant sur un contrôle explicite de la caméra. Cette configuration unique permet un rééclairage et la génération d'un actif 3D en utilisant notre modèle comme prior neuronal. Nous introduisons divers mécanismes dans ce pipeline qui améliorent la qualité dans ce cadre mal posé. Nous démontrons des performances de pointe en rééclairage et en synthèse de nouvelles vues sur plusieurs ensembles de données centrés sur des objets. Notre méthode se généralise à des entrées diverses, permettant la génération d'actifs 3D rééclairables utiles dans la réalité augmentée/virtuelle, les films, les jeux et autres médias visuels.
La fusion nucléaire joue un rôle central dans la quête d'une production d'énergie fiable et durable. Un obstacle majeur à la viabilité de l'énergie de fusion réside dans la compréhension de la turbulence du plasma, qui altère significativement le confinement du plasma et est essentielle pour la conception des réacteurs de nouvelle génération. La turbulence du plasma est régie par l'équation gyrocinétique non linéaire, qui fait évoluer une fonction de distribution en 5 dimensions au fil du temps. En raison de son coût computationnel élevé, des modèles d'ordre réduit sont souvent utilisés en pratique pour approximer le transport turbulent de l'énergie. Cependant, ces modèles omettent les effets non linéaires spécifiques à la dynamique complète en 5D. Pour résoudre ce problème, nous introduisons GyroSwin, le premier substitut neuronal 5D scalable capable de modéliser des simulations gyrocinétiques non linéaires en 5D, capturant ainsi les phénomènes physiques négligés par les modèles réduits, tout en fournissant des estimations précises du transport turbulent de chaleur. GyroSwin (i) étend les Transformers hiérarchiques de vision à 5 dimensions, (ii) introduit des modules d'attention croisée et d'intégration pour les interactions latentes 3D↔5D entre les champs de potentiel électrostatique et la fonction de distribution, et (iii) effectue une séparation modale par canal inspirée par la physique non linéaire. Nous démontrons que GyroSwin surpasse les méthodes numériques réduites couramment utilisées pour la prédiction du flux de chaleur, capture la cascade d'énergie turbulente, et réduit le coût des simulations gyrocinétiques non linéaires entièrement résolues de trois ordres de grandeur tout en restant physiquement vérifiable. GyroSwin présente des lois de scaling prometteuses, testées jusqu'à un milliard de paramètres, ouvrant la voie à des substituts neuronaux scalables pour les simulations gyrocinétiques de la turbulence du plasma.
L'édition 3D - la tâche consistant à modifier localement la géométrie ou l'apparence d'un actif 3D - trouve des applications variées dans la création de contenu immersif, le divertissement numérique et la réalité augmentée/virtuelle (AR/VR). Cependant, contrairement à l'édition 2D, elle reste complexe en raison de la nécessité d'une cohérence inter-vues, d'une fidélité structurelle et d'une contrôlabilité fine. Les approches existantes sont souvent lentes, sujettes à des distorsions géométriques ou dépendent de masques 3D manuels et précis, qui sont source d'erreurs et peu pratiques. Pour relever ces défis, nous progressons à la fois sur les fronts des données et des modèles. Du côté des données, nous introduisons 3DEditVerse, le plus grand benchmark d'édition 3D apparié à ce jour, comprenant 116 309 paires d'entraînement de haute qualité et 1 500 paires de test soigneusement sélectionnées. Construit à travers des pipelines complémentaires d'éditions géométriques pilotées par la pose et d'éditions d'apparence guidées par des modèles de fondation, 3DEditVerse garantit la localité des modifications, la cohérence multi-vues et l'alignement sémantique. Du côté des modèles, nous proposons 3DEditFormer, un transformeur conditionnel préservant la structure 3D. En améliorant la génération d'images en 3D grâce à une attention à double guidage et à une porte temporelle adaptative, 3DEditFormer dissocie les régions modifiables de la structure préservée, permettant des modifications précises et cohérentes sans nécessiter de masques 3D auxiliaires. Des expériences approfondies démontrent que notre cadre surpasse les références de pointe à la fois quantitativement et qualitativement, établissant une nouvelle norme pour l'édition 3D pratique et évolutive. Le jeu de données et le code seront publiés. Projet : https://www.lv-lab.org/3DEditFormer/
L'utilisation de réseaux cibles est une approche populaire pour estimer les fonctions de valeur en apprentissage par renforcement profond (RL). Bien qu'efficace, le réseau cible reste une solution de compromis qui préserve la stabilité au prix de cibles se déplaçant lentement, retardant ainsi l'apprentissage. À l'inverse, utiliser le réseau en ligne comme cible bootstrap est intuitivement attrayant, bien que cela soit connu pour entraîner un apprentissage instable. Dans ce travail, nous visons à tirer le meilleur des deux mondes en introduisant une nouvelle règle de mise à jour qui calcule la cible en utilisant l'estimation MINimale entre le réseau Cible et le réseau en Ligne, donnant naissance à notre méthode, MINTO. Grâce à cette modification simple mais efficace, nous montrons que MINTO permet un apprentissage plus rapide et stable des fonctions de valeur, en atténuant le biais de surestimation potentiel lié à l'utilisation du réseau en ligne pour le bootstrap. Notamment, MINTO peut être intégré de manière transparente dans une large gamme d'algorithmes basés sur la valeur et de type acteur-critique, avec un coût négligeable. Nous évaluons MINTO de manière extensive sur divers benchmarks, couvrant le RL en ligne et hors ligne, ainsi que des espaces d'action discrets et continus. Sur tous les benchmarks, MINTO améliore systématiquement les performances, démontrant ainsi sa large applicabilité et son efficacité.
Les politiques de robots généralistes entraînées sur des ensembles de données à grande échelle et visuellement homogènes peuvent être sujettes à l'apprentissage par raccourci, ce qui compromet leur généralisation hors distribution (OOD). Bien que l'augmentation générative des données soit une approche courante pour introduire de la diversité, elle présente un défi subtil : la composition des données. Un mélange naïf de données réelles et synthétiques peut corrompre le signal d'apprentissage, car ce processus privilégie souvent la diversité visuelle au détriment de la fidélité de l'information. Cet article suggère qu'une généralisation robuste dépend d'une composition de données fondée sur des principes et consciente de la fidélité. Nous introduisons le Réglage Cohérent de la Fidélité de l'Information (CIFT), un cadre qui traite la composition des données comme un problème d'optimisation. CIFT utilise un proxy pratique pour la Fidélité de l'Information basé sur la géométrie de l'espace des caractéristiques d'un ensemble de données. Cela permet d'identifier une transition de phase, appelée Point de Décohérence, où la stabilité de l'entraînement se dégrade. Le cadre inclut un moteur génératif, l'Augmentation Vidéo Multi-Vues (MVAug), pour synthétiser un spectre de données causalement désentrelacé pour ce processus de réglage. L'application de CIFT à des architectures de politiques telles que pi_0 et Diffusion Policy améliore les taux de réussite OOD de plus de 54 %. Ces résultats indiquent qu'une composition consciente de la fidélité, au-delà de la seule synthèse de données, est un élément important pour développer des robots robustes et polyvalents.