papers.description
Alors que les modèles de langage deviennent de plus en plus performants, les utilisateurs attendent d'eux non seulement des réponses précises, mais aussi des comportements alignés sur des préférences humaines diverses dans une variété de scénarios. Pour y parvenir, les pipelines d'apprentissage par renforcement (RL) ont commencé à incorporer des récompenses multiples, chacune capturant une préférence distincte, pour guider les modèles vers ces comportements souhaités. Cependant, les travaux récents ont systématiquement appliqué l'Optimisation de Politique par Groupe Relatif (GRPO) dans un cadre à récompenses multiples sans examiner sa pertinence. Dans cet article, nous démontrons qu'appliquer directement GRPO pour normaliser des combinaisons distinctes de récompenses de rollouts entraîne leur effondrement en des valeurs d'avantage identiques, réduisant ainsi la résolution du signal d'entraînement et conduisant à une convergence sous-optimale et, dans certains cas, à un échec précoce de l'entraînement. Nous introduisons ensuite l'Optimisation de Politique par Normalisation Découplée des Récompenses de Groupe (GDPO), une nouvelle méthode d'optimisation de politique pour résoudre ces problèmes en découplant la normalisation des récompenses individuelles, préservant ainsi plus fidèlement leurs différences relatives et permettant une optimisation multi-récompense plus précise, ainsi qu'une stabilité d'entraînement considérablement améliorée. Nous comparons GDPO avec GRPO sur trois tâches : l'appel d'outils, le raisonnement mathématique et le raisonnement en programmation, en évaluant à la fois les métriques de justesse (exactitude, taux d'erreurs) et les métriques de respect des contraintes (format, longueur). Dans tous les contextes, GDPO surpasse systématiquement GRPO, démontrant son efficacité et sa généralisabilité pour l'optimisation de l'apprentissage par renforcement à récompenses multiples.
L'application du décroissance des poids (WD) aux couches matricielles est une pratique standard lors du pré-entraînement des grands modèles de langage. Des travaux antérieurs suggèrent que le bruit du gradient stochastique induit une expansion de type brownien des matrices de poids W, dont la croissance est contrecarrée par le WD, conduisant à un équilibre WD-bruit avec une certaine norme de poids ||W||. Dans ce travail, nous considérons la norme d'équilibre comme un artefact nuisible de la procédure d'entraînement, et nous y remédions en introduisant des multiplicateurs apprenables pour apprendre l'échelle optimale. Premièrement, nous attachons un multiplicateur scalaire apprenable à W et confirmons que la norme d'équilibre WD-bruit est sous-optimale : l'échelle apprise s'adapte aux données et améliore les performances. Nous soutenons ensuite que les normes individuelles des lignes et des colonnes sont contraintes de manière similaire, et libérons leur échelle en introduisant des multiplicateurs apprenables par ligne et par colonne. Notre méthode peut être vue comme une généralisation apprenable et plus expressive des multiplicateurs muP. Elle surpasse une baseline muP bien réglée, réduit la surcharge computationnelle du réglage des multiplicateurs et soulève des questions pratiques telles que les symétries de la passe avant et la mise à l'échelle en largeur des multiplicateurs appris. Enfin, nous validons les multiplicateurs apprenables avec les optimiseurs Adam et Muon, où une amélioration est observée dans les évaluations en aval, équivalente à celle obtenue en passant d'Adam à Muon.
La constance des couleurs en conditions nocturnes reste un problème complexe en photographie computationnelle en raison du bruit en faible luminosité et des conditions d'éclairage complexes. Nous présentons RL-AWB, une nouvelle approche combinant méthodes statistiques et apprentissage par renforcement profond pour la balance des blancs nocturne. Notre méthode débute par un algorithme statistique spécifiquement conçu pour les scènes nocturnes, intégrant une détection de pixels gris saillants avec une nouvelle estimation de l'illumination. Sur cette base, nous développons la première approche d'apprentissage par renforcement profond pour la constance des couleurs qui utilise l'algorithme statistique comme noyau, imitant les experts en réglage AWB professionnels en optimisant dynamiquement les paramètres pour chaque image. Pour faciliter l'évaluation multi-capteurs, nous présentons le premier jeu de données nocturne multi-capteurs. Les résultats expérimentaux démontrent que notre méthode atteint une capacité de généralisation supérieure sur les images en faible luminosité et correctement éclairées. Page du projet : https://ntuneillee.github.io/research/rl-awb/
Les grands modèles de langage (LLM) démontrent des capacités remarquables dans divers domaines. Cependant, atteindre des performances solides dans ces domaines avec un seul modèle généraliste nécessite généralement une augmentation d'échelle vers des tailles rendant l'entraînement et le déploiement prohibitifs. D'un autre côté, bien que les modèles spécialisés de plus petite taille soient beaucoup plus efficaces, ils peinent à généraliser au-delà de leurs distributions d'entraînement. Pour résoudre ce dilemme, nous proposons FusionRoute, un cadre de collaboration multi-LLM robuste et efficace au niveau des tokens, dans lequel un routeur léger sélectionne simultanément (i) l'expert le plus approprié à chaque étape de décodage et (ii) fournit un logit complémentaire qui affine ou corrige la distribution du token suivant de l'expert sélectionné via une addition de logits. Contrairement aux méthodes de collaboration existantes au niveau des tokens qui reposent uniquement sur les sorties fixes des experts, nous fournissons une analyse théorique montrant que le routage purement basé sur les experts est fondamentalement limité : à moins que des hypothèses fortes de couverture globale ne soient vérifiées, il ne peut généralement pas réaliser la politique de décodage optimale. En augmentant la sélection d'experts avec un générateur complémentaire entraînable, FusionRoute élargit la classe de politiques effective et permet de retrouver les fonctions de valeur optimales sous des conditions modérées. Empiriquement, sur les familles Llama-3 et Gemma-2 et divers benchmarks couvrant le raisonnement mathématique, la génération de code et le suivi d'instructions, FusionRoute surpasse à la fois la collaboration au niveau des séquences et des tokens, la fusion de modèles et le fine-tuning direct, tout en restant compétitive avec les experts spécialisés sur leurs tâches respectives.
La diversité, la quantité et la qualité des données de manipulation sont essentielles pour entraîner des politiques robotiques efficaces. Cependant, en raison des contraintes matérielles et des configurations physiques, la collecte de données de manipulation à grande échelle dans le monde réel reste difficile à généraliser à travers des environnements diversifiés. Des travaux récents utilisent des modèles de diffusion d'images conditionnés par des invites textuelles pour augmenter les données de manipulation en modifiant les arrière-plans et les objets sur la table dans les observations visuelles. Cependant, ces approches négligent souvent le besoin pratique d'observations multi-vues et temporellement cohérentes requises par les modèles de politiques état-de-l'art. De plus, les invites textuelles seules ne peuvent pas spécifier de manière fiable la configuration de la scène. Pour fournir au modèle de diffusion un guidage visuel explicite, nous introduisons l'invite d'identité visuelle, qui fournit des images exemplaires comme entrées de conditionnement pour guider la génération de la configuration de scène souhaitée. À cette fin, nous construisons également un pipeline évolutif pour constituer un pool d'identités visuelles à partir de grands ensembles de données robotiques. L'utilisation de nos données de manipulation augmentées pour entraîner des modèles de politiques vision-langage-action et visuomoteurs en aval entraîne des gains de performance constants à la fois en simulation et dans des configurations robotiques réelles.
Les modèles de langage de grande taille (LLM) pour le raisonnement complexe sont souvent entravés par des coûts de calcul élevés et une latence importante, tandis que les modèles de langage de petite taille (SLM), bien que plus efficaces en ressources, manquent généralement de la capacité de raisonnement nécessaire. Les approches collaboratives existantes, telles que le cascadage ou le routage, opèrent à un niveau de granularité grossier en déléguant des requêtes entières aux LLM, ce qui entraîne un gaspillage computationnel significatif lorsque le SLM est capable de traiter la majorité des étapes de raisonnement. Pour résoudre ce problème, nous proposons RelayLLM, un nouveau cadre pour un raisonnement efficace via un décodage collaboratif au niveau des tokens. Contrairement aux routeurs, RelayLLM permet au SLM d'agir comme un contrôleur actif qui invoque dynamiquement le LLM uniquement pour les tokens critiques via une commande spéciale, "relayant" ainsi efficacement le processus de génération. Nous introduisons un cadre d'entraînement en deux étapes, incluant une phase d'échauffement et une optimisation de politique relative par groupe (GRPO), pour apprendre au modèle à équilibrer l'indépendance et la recherche stratégique d'aide. Les résultats empiriques sur six benchmarks démontrent que RelayLLM atteint une précision moyenne de 49,52 %, comblant efficacement l'écart de performance entre les deux modèles. Fait notable, ce résultat est obtenu en invoquant le LLM pour seulement 1,07 % de l'ensemble des tokens générés, offrant une réduction des coûts de 98,2 % par rapport à des routeurs aléatoires de performance équivalente.
Les agents LLM sont apparus comme des systèmes puissants pour traiter des tâches multi-tours en entrelaçant raisonnement interne et interactions externes avec des outils. L'apprentissage par renforcement agentique a récemment attiré une attention significative de la recherche en tant que paradigme critique de post-entraînement pour affiner davantage ces capacités. Dans cet article, nous présentons AT^2PO (Optimisation de Politique Agentique par Tours via Recherche Arborescente), un cadre unifié pour l'apprentissage par renforcement agentique multi-tours qui aborde trois défis fondamentaux : la diversité d'exploration limitée, l'attribution de crédit éparse et l'optimisation de politique désalignée. AT^2PO introduit une structure arborescente au niveau du tour qui permet conjointement une Expansion Arborescente Guidée par l'Entropie pour une exploration stratégique et une Attribution de Crédit par Tour pour une propagation fine des récompenses à partir de résultats épars. En complément, nous proposons l'Optimisation de Politique Agentique par Tours, un objectif d'apprentissage au niveau du tour qui aligne les mises à jour de politique avec la granularité décisionnelle naturelle des interactions agentiques. ATPO est orthogonal à la recherche arborescente et peut être facilement intégré dans n'importe quel pipeline d'apprentissage par renforcement multi-tours. Les expériences sur sept benchmarks démontrent des améliorations constantes par rapport à l'état de l'art, allant jusqu'à 1,84 point de pourcentage en moyenne, avec des études d'ablation validant l'efficacité de chaque composant. Notre code est disponible à l'adresse https://github.com/zzfoutofspace/ATPO.
Le raisonnement en chaîne de pensée (CoT) s'est imposé comme un outil puissant pour les modèles de langage multimodaux dans les tâches de compréhension vidéo. Cependant, sa nécessité et ses avantages par rapport aux réponses directes restent peu explorés. Dans cet article, nous démontrons d'abord que pour les modèles vidéo entraînés par apprentissage par renforcement, la réponse directe égale ou dépasse souvent les performances du CoT, bien que le CoT produise des analyses étape par étape à un coût computationnel plus élevé. Motivés par ce constat, nous proposons VideoAuto-R1, un cadre de compréhension vidéo adoptant une stratégie de raisonnement conditionnel. Durant l'entraînement, notre approche suit un paradigme « Penser une fois, Répondre deux fois » : le modèle génère d'abord une réponse initiale, puis effectue un raisonnement, et enfin produit une réponse révisée. Les deux réponses sont supervisées via des récompenses vérifiables. Lors de l'inférence, le modèle utilise le score de confiance de la réponse initiale pour décider s'il doit poursuivre le raisonnement. Sur des benchmarks de question-réponse vidéo et de localisation, VideoAuto-R1 atteint une précision de pointe avec une efficacité significativement améliorée, réduisant la longueur moyenne des réponses d'environ 3,3 fois (par exemple, de 149 à seulement 44 tokens). De plus, nous observons un faible taux d'activation du mode raisonnement sur les tâches orientées perception, mais un taux plus élevé sur les tâches nécessitant un raisonnement approfondi. Cela suggère que le raisonnement explicite basé sur le langage est généralement bénéfique mais pas toujours nécessaire.
Les modèles vision-langage (VLM) atteignent des performances remarquables mais restent vulnérables aux attaques adverses. L'entropie, mesure de l'incertitude du modèle, est fortement corrélée à la fiabilité des VLM. Les attaques antérieures basées sur l'entropie maximisent l'incertitude à toutes les étapes de décodage, supposant implicitement que chaque token contribue également à l'instabilité de la génération. Nous démontrons plutôt qu'une petite fraction (environ 20%) de tokens à haute entropie, c'est-à-dire des points de décision critiques dans la génération autorégressive, détermine de manière disproportionnée les trajectoires de sortie. En concentrant les perturbations adverses sur ces positions, nous obtenons une dégradation sémantique comparable aux méthodes globales avec des budgets considérablement réduits. Plus important encore, sur plusieurs VLM représentatifs, ces attaques sélectives convertissent 35 à 49% des sorties bénignes en contenus nuisibles, révélant un risque de sécurité plus critique. Fait remarquable, ces bifurcations vulnérables à haute entropie se reproduisent sur des VLM architecturalement divers, permettant une transférabilité réalisable (17-26% de taux nuisible sur des cibles non vues). Motivés par ces résultats, nous proposons les attaques adverses guidées par une banque d'entropie (EGA), qui atteint des taux de réussite compétitifs (93-95%) tout en obtenant une conversion nuisible élevée, révélant ainsi de nouvelles faiblesses dans les mécanismes de sécurité actuels des VLM.
Les modèles de monde vidéo visent à simuler des environnements dynamiques et réalistes, mais les méthodes existantes peinent à offrir un contrôle unifié et précis sur le mouvement de la caméra et des multiples objets, car les vidéos opèrent intrinsèquement des dynamiques dans le plan d'image 2D projeté. Pour combler cette lacune, nous présentons VerseCrafter, un modèle de monde vidéo conscient de la 4D qui permet un contrôle explicite et cohérent à la fois sur la dynamique de la caméra et des objets au sein d'un état mondial géométrique 4D unifié. Notre approche s'articule autour d'une nouvelle représentation de Contrôle Géométrique 4D, qui encode l'état du monde via un nuage de points d'arrière-plan statique et des trajectoires de Gaussiennes 3D par objet. Cette représentation capture non seulement la trajectoire d'un objet mais aussi son occupation probabiliste 3D dans le temps, offrant une alternative flexible et agnostique aux catégories, aux modèles paramétriques ou aux boîtes englobantes rigides. Ces contrôles 4D sont rendus en signaux de conditionnement pour un modèle de diffusion vidéo préentraîné, permettant la génération de vidéos haute fidélité et cohérentes en vue qui adhèrent précisément aux dynamiques spécifiées. Malheureusement, un autre défi majeur réside dans la rareté des données d'entraînement à grande échelle comportant des annotations 4D explicites. Nous résolvons ce problème en développant un moteur de données automatique qui extrait les contrôles 4D requis de vidéos issues de conditions réelles, nous permettant d'entraîner notre modèle sur un jeu de données massif et diversifié.
Les modèles à mélange d'experts sont généralement considérés comme atteignant une spécialisation par domaine grâce à un routage parcimonieux. Dans ce travail, nous remettons en question cette hypothèse en introduisant COMMITTEEAUDIT, un cadre d'analyse post hoc qui examine le comportement de routage au niveau des groupes d'experts plutôt qu'au niveau individuel. Sur trois modèles représentatifs et le benchmark MMLU, nous mettons en évidence un Comité Permanent invariant au domaine. Il s'agit d'une coalition compacte d'experts routés qui capte systématiquement la majorité de la masse de routage, quels que soient les domaines, les couches du modèle ou les budgets de routage, et ce même lorsque les architectures incluent déjà des experts partagés. Une analyse qualitative montre en outre que les Comités Permanents ancrent la structure du raisonnement et la syntaxe, tandis que les experts périphériques traitent les connaissances spécifiques à un domaine. Ces résultats révèlent un biais structurel prononcé en faveur d'un calcul centralisé, suggérant que la spécialisation dans les modèles à mélange d'experts est bien moins omniprésente qu'on ne le pense généralement. Ce biais inhérent indique également que les objectifs d'entraînement actuels, tels que les fonctions de perte d'équilibrage de charge qui imposent une utilisation uniforme des experts, pourraient aller à l'encontre du chemin d'optimisation naturel du modèle, limitant ainsi l'efficacité de l'entraînement et les performances.
Le paradigme LLM-en-tant-que-juge a révolutionné l'évaluation de l'IA en exploitant les modèles de langage à grande échelle pour des évaluations massives. Cependant, à mesure que les systèmes évalués deviennent plus complexes, spécialisés et multi-étapes, la fiabilité de cette approche est limitée par des biais inhérents, un raisonnement superficiel en une seule passe et l'incapacité de vérifier les évaluations par rapport à des observations du monde réel. Cela a catalysé la transition vers l'Agent-en-tant-que-juge, où des juges agentiels utilisent la planification, la vérification par outils, la collaboration multi-agents et une mémoire persistante pour permettre des évaluations plus robustes, vérifiables et nuancées. Malgré la prolifération rapide des systèmes d'évaluation agentiels, le domaine manque d'un cadre unifié pour naviguer dans ce paysage en mutation. Pour combler cette lacune, nous présentons la première étude complète retraçant cette évolution. Plus précisément, nous identifions les dimensions clés qui caractérisent ce changement de paradigme et établissons une taxonomie développementale. Nous organisons les méthodologies principales et examinons les applications dans les domaines généraux et professionnels. De plus, nous analysons les défis de pointe et identifions des axes de recherche prometteurs, fournissant finalement une feuille de route claire pour la prochaine génération de l'évaluation agentielle.
Les méthodes de re-rendu vidéo génératif contrôlé par caméra, telles que ReCamMaster, ont réalisé des progrès remarquables. Cependant, malgré leur succès en contexte mono-vue, ces approches peinent souvent à maintenir la cohérence dans des scénarios multi-vues. Assurer la cohérence spatio-temporelle dans les régions hallucinées reste difficile en raison de la stochasticité inhérente aux modèles génératifs. Pour résoudre ce problème, nous présentons PlenopticDreamer, un framework qui synchronise les hallucinations génératives pour maintenir une mémoire spatio-temporelle. L'idée centrale est d'entraîner un modèle vidéo multi-entrées/une-sortie de manière autorégressive, assisté par une stratégie de récupération vidéo guidée par caméra qui sélectionne adaptativement des vidéos saillantes des générations précédentes comme entrées conditionnelles. De plus, notre entraînement intègre une mise à l'échelle contextuelle progressive pour améliorer la convergence, un auto-conditionnement pour renforcer la robustesse contre la dégradation visuelle à long terme causée par l'accumulation d'erreurs, et un mécanisme de conditionnement long-vidéo pour supporter la génération vidéo étendue. Des expériences approfondies sur les benchmarks Basic et Agibot démontrent que PlenopticDreamer atteint l'état de l'art en re-rendu vidéo, offrant une synchronisation des vues supérieure, des visuels haute fidélité, un contrôle précis de la caméra et des transformations de vue variées (par exemple, troisième personne à troisième personne, et vue tête à vue pince en manipulation robotique). Page du projet : https://research.nvidia.com/labs/dir/plenopticdreamer/
La réponse à des questions incarnées (EQA) dans des environnements 3D nécessite souvent de collecter un contexte distribué sur plusieurs points de vue et partiellement occulté. Cependant, la plupart des modèles vision-langage (VLM) récents se limitent à un ensemble fixe et fini de vues en entrée, ce qui restreint leur capacité à acquérir un contexte pertinent pour la question au moment de l'inférence et entrave le raisonnement spatial complexe. Nous proposons l'incitation en Chaîne-de-Vues (CoV), un cadre de raisonnement sans entraînement, utilisé au moment du test, qui transforme un VLM en un raisonneur actif de points de vue via un processus d'exploration du grossier au fin. CoV utilise d'abord un agent de Sélection de Vue pour filtrer les images redondantes et identifier des vues d'ancrage alignées avec la question. Il effectue ensuite un ajustement fin de la vue en entrelaçant un raisonnement itératif avec des actions discrètes de caméra, obtenant de nouvelles observations à partir de la représentation sous-jacente de la scène 3D jusqu'à ce qu'un contexte suffisant soit rassemblé ou qu'un budget d'étapes soit atteint. Nous évaluons CoV sur OpenEQA avec quatre VLMs grand public et obtenons une amélioration moyenne de +11,56 % en LLM-Match, avec un gain maximal de +13,62 % sur Qwen3-VL-Flash. CoV montre également une mise à l'échelle au moment du test : augmenter le budget d'actions minimal procure une amélioration moyenne supplémentaire de +2,51 %, culminant à +3,73 % sur Gemini-2.5-Flash. Sur ScanQA et SQA3D, CoV offre de solides performances (par exemple, 116 CIDEr / 31,9 EM@1 sur ScanQA et 51,1 EM@1 sur SQA3D). Globalement, ces résultats suggèrent que la sélection de vues alignée avec la question, couplée à une recherche en vue ouverte, est une stratégie efficace et agnostique au modèle pour améliorer le raisonnement spatial dans l'EQA 3D sans entraînement supplémentaire.
Le raisonnement par chaîne de pensée (Chain-of-Thought, CoT) améliore la résolution de problèmes mathématiques à étapes multiples dans les grands modèles de langage, mais reste vulnérable au biais d'exposition et à l'accumulation d'erreurs, car les erreurs précoces se propagent de manière irréversible via le décodage autorégressif. Dans ce travail, nous proposons DiffCoT, un cadre CoT de style diffusion qui reformule le raisonnement CoT comme un processus itératif de débruitage. DiffCoT intègre les principes de diffusion au niveau des étapes de raisonnement via un mécanisme de fenêtre glissante, permettant une génération unifiée et une correction rétrospective des étapes intermédiaires tout en préservant l'autorégression au niveau des tokens. Pour maintenir la cohérence causale, nous introduisons en outre un plan de bruit de diffusion causal qui respecte la structure temporelle des chaînes de raisonnement. Des expériences approfondies sur trois benchmarks de raisonnement CoT à étapes multiples, couvrant diverses architectures de modèles, démontrent que DiffCoT surpasse constamment les méthodes existantes d'optimisation des préférences CoT, offrant une robustesse améliorée et une capacité de correction d'erreurs dans le raisonnement CoT.
La Question-Réponse sur Documents (DocQA) se concentre sur répondre à des questions ancrées dans des documents donnés, mais les agents DocQA existants manquent d'une utilisation efficace d'outils et reposent largement sur des modèles propriétaires. Dans ce travail, nous présentons DocDancer, un agent documentaire open-source entraîné de bout en bout. Nous formulons le DocQA comme un problème de recherche d'information et proposons un cadre d'agent piloté par des outils qui modélise explicitement l'exploration et la compréhension des documents. Pour permettre l'entraînement de bout en bout de tels agents, nous introduisons un pipeline de synthèse de données Exploration-puis-Synthèse qui résout la pénurie de données d'entraînement de haute qualité pour le DocQA. L'entraînement sur les données synthétisées, avec des modèles évalués sur deux benchmarks de compréhension de documents à long contexte, MMLongBench-Doc et DocBench, démontre leur efficacité. Une analyse plus poussée fournit des insights précieux pour la conception d'outils agentiques et les données synthétiques.
La génération et l'édition d'images en contexte (ICGE) permet aux utilisateurs de spécifier des concepts visuels via des invites entrelacées image-texte, exigeant une compréhension précise et une exécution fidèle de l'intention utilisateur. Bien que les modèles multimodaux unifiés récents présentent des capacités de compréhension prometteuses, ces atouts échouent souvent à se transposer efficacement à la génération d'images. Nous présentons Re-Align, un cadre unifié qui comble le fossé entre compréhension et génération via un alignement guidé par un raisonnement structuré. Son cœur repose sur le Raisonnement en Chaîne en Contexte (IC-CoT), un paradigme de raisonnement structuré qui découple le guidage sémantique et l'association de référence, fournissant une cible textuelle claire et atténuant la confusion entre les images de référence. De plus, Re-Align introduit un schéma d'entraînement par RL efficace qui exploite une récompense substitutive pour mesurer l'alignement entre le texte de raisonnement structuré et l'image générée, améliorant ainsi les performances globales du modèle sur les tâches ICGE. Des expériences approfondies vérifient que Re-Align surpasse les méthodes concurrentes d'échelle et de ressources comparables sur les tâches de génération et d'édition d'images en contexte.
Les modèles génératifs sont de plus en plus utilisés en vision 3D pour synthétiser de nouvelles formes, mais il reste incertain si leur génération repose sur la mémorisation des formes d'entraînement. Comprendre leur mémorisation pourrait aider à prévenir la fuite des données d'entraînement et à améliorer la diversité des résultats générés. Dans cet article, nous concevons un cadre d'évaluation pour quantifier la mémorisation dans les modèles génératifs 3D et étudions l'influence de différentes conceptions de données et de modélisation sur cette mémorisation. Nous appliquons d'abord notre cadre pour quantifier la mémorisation dans les méthodes existantes. Ensuite, grâce à des expériences contrôlées avec un modèle de diffusion à vecteurs latents (Vecset), nous constatons que, côté données, la mémorisation dépend de la modalité des données, et augmente avec la diversité des données et un conditionnement plus fin ; côté modélisation, elle atteint un pic à une échelle de guidage modérée et peut être atténuée par des Vecsets plus longs et une simple augmentation par rotation. Ensemble, notre cadre et notre analyse fournissent une compréhension empirique de la mémorisation dans les modèles génératifs 3D et suggèrent des stratégies simples mais efficaces pour la réduire sans dégrader la qualité de génération. Notre code est disponible à l'adresse https://github.com/zlab-princeton/3d_mem.
Les limites floues, telles que les cheveux fins, sont couramment observées dans les images naturelles et générées par ordinateur, mais elles restent problématiques pour la vision 3D en raison du mélange ambigu des indices d'avant-plan et d'arrière-plan. Cet article présente Guardians of the Hair (HairGuard), un cadre conçu pour restaurer les détails fins des limites floues dans les tâches de vision 3D. Plus précisément, nous proposons d'abord un nouveau pipeline de curation de données qui exploite les ensembles de données de détourage d'images pour l'entraînement, et concevons un réseau correcteur de profondeur pour identifier automatiquement les régions de limites floues. Grâce à un module résiduel à porte, le correcteur affine la profondeur précisément autour des limites floues tout en préservant la qualité globale de la profondeur, permettant une intégration plug-and-play avec les modèles de profondeur de pointe. Pour la synthèse de vues, nous effectuons un warp avant basé sur la profondeur pour préserver les textures haute fidélité, suivi d'un peintre de scène génératif qui remplit les régions désoccluses et élimine les artéfacts redondants de l'arrière-plan dans les limites floues. Enfin, un fusionneur de couleurs combine de manière adaptative les résultats warprés et inpainés pour produire de nouvelles vues avec une géométrie cohérente et des détails fins. Des expériences approfondies démontrent que HairGuard atteint des performances de pointe dans l'estimation de profondeur monoculaire, la conversion stéréo d'images/vidéos et la synthèse de nouvelles vues, avec des améliorations significatives dans les régions de limites floues.
La capacité de raisonnement des grands modèles de langage (LLM) peut être libérée par l'apprentissage par renforcement (RL) (OpenAI, 2024 ; DeepSeek-AI et al., 2025a ; Zeng et al., 2025). Le succès des tentatives existantes de RL sur les LLM repose généralement sur des échantillons de haute qualité, de l'ordre de plusieurs milliers ou plus. Dans cet article, nous remettons en question les hypothèses fondamentales concernant les besoins en données pour la RL sur les LLM en démontrant l'efficacité remarquable de l'apprentissage en un seul coup (*one-shot learning*). Plus précisément, nous introduisons l'*apprentissage polymathe*, un cadre pour concevoir un unique échantillon d'entraînement qui suscite un impact multidisciplinaire. Nous présentons trois résultats clés : (1) Un seul échantillon de raisonnement mathématique, sélectionné stratégiquement, peut produire des améliorations significatives des performances dans de multiples domaines, y compris la physique, la chimie et la biologie, grâce à la RL ; (2) Les compétences mathématiques saillantes pour le raisonnement suggèrent les caractéristiques de l'échantillon polymathe optimal ; et (3) Un échantillon synthétique conçu pour intégrer des éléments multidisciplinaires surpasse l'entraînement avec des échantillons individuels apparaissant naturellement. Notre approche obtient des performances supérieures à un entraînement avec des jeux de données plus volumineux sur divers benchmarks de raisonnement, démontrant que la qualité et la conception des échantillons, plutôt que leur quantité, pourraient être la clé pour débloquer des capacités de raisonnement accrues dans les modèles de langage. Nos résultats suggèrent un changement, que nous nommons *ingénierie des échantillons* (*sample engineering*), vers une conception précise des échantillons d'entraînement plutôt qu'une simple augmentation du volume de données.
Nous présentons ProFuse, un cadre efficace et contextuel pour la compréhension de scènes 3D en vocabulaire ouvert avec la méthode de splatting par gaussiennes 3D (3DGS). Le pipeline améliore la cohérence inter-vues et la cohésion intra-masque dans une configuration d'enregistrement direct, ajoutant une surcharge minimale et ne nécessitant aucun ajustement fin supervisé par rendu. Au lieu de s'appuyer sur une scène 3DGS pré-entraînée, nous introduisons une phase de pré-enregistrement guidée par des correspondances denses qui initialise les gaussiennes avec une géométrie précise tout en construisant conjointement des propositions de contexte 3D via un regroupement inter-vues. Chaque proposition porte une caractéristique globale obtenue par agrégation pondérée des plongements des membres, et cette caractéristique est fusionnée sur les gaussiennes lors de l'enregistrement direct pour maintenir une cohérence linguistique par primitive à travers les vues. Les associations étant établies à l'avance, la fusion sémantique ne nécessite aucune optimisation supplémentaire au-delà de la reconstruction standard, et le modèle conserve un affinage géométrique sans densification. ProFuse atteint une solide compréhension 3DGS en vocabulaire ouvert tout en complétant l'attachement sémantique en environ cinq minutes par scène, ce qui est deux fois plus rapide que l'état de l'art.
Les modèles autorégressifs (AR) ont obtenu un succès remarquable en synthèse d'images, mais leur nature séquentielle impose des contraintes importantes de latence. Le décodage spéculatif offre une voie prometteuse pour l'accélération, mais les approches existantes sont limitées par l'ambiguïté au niveau des tokens et le manque de conscience spatiale. Dans ce travail, nous présentons le Multi-Scale Local Speculative Decoding (MuLo-SD), un nouveau cadre qui combine l'ébauche multi-résolution avec une vérification spatialement informée pour accélérer la génération d'images AR. Notre méthode exploite un ébaucheur à basse résolution couplé à des sur-échantillonneurs appris pour proposer des tokens d'image candidats, qui sont ensuite vérifiés en parallèle par un modèle cible à haute résolution. De manière cruciale, nous incorporons un mécanisme local de rejet et de rééchantillonnage, permettant une correction efficace des erreurs d'ébauche en se concentrant sur des voisinages spatiaux plutôt que sur un rééchantillonnage en balayage linéaire après le premier rejet. Nous démontrons que MuLo-SD atteint des accélérations substantielles - jusqu'à 1,7 fois - surpassant les solides bases de référence en décodage spéculatif telles que EAGLE-2 et LANTERN en termes d'accélération, tout en maintenant une alignement sémantique et une qualité perceptuelle comparables. Ces résultats sont validés à l'aide de GenEval, DPG-Bench et FID/HPSv2 sur la partition de validation MS-COCO 5k. Des ablations approfondies mettent en lumière l'impact de la conception du sur-échantillonnage, du regroupement de probabilités, et du rejet et rééchantillonnage locaux avec expansion du voisinage. Notre approche établit un nouvel état de l'art dans le décodage spéculatif pour la synthèse d'images, comblant l'écart entre l'efficacité et la fidélité.
Les progrès récents dans les agents de grands modèles de langage (LLM) se sont principalement concentrés sur l'intégration de mécanismes d'auto-amélioration au sein de l'agent ou sur l'exploration de nombreuses variantes concurrentes. Bien que ces approches puissent améliorer les scores agrégés, elles produisent souvent des trajectoires d'amélioration instables et difficiles à auditer, rendant complexe la garantie de non-régression ou l'analyse des défaillances entre les versions. Nous reformulons l'amélioration des agents comme un problème d'ingénierie des versions : les agents sont traités comme des artefacts livrables, et l'amélioration est externalisée dans un pipeline de release sensible aux régressions. Nous présentons AgentDevel, un pipeline d'ingénierie des versions qui exécute itérativement l'agent actuel, produit des signaux de qualité aveugles à l'implémentation au niveau symptomatique à partir des traces d'exécution, synthétise un unique candidat de release (RC) via un diagnostic exécutable, et le promeut sous condition de validation centrée sur les basculements. AgentDevel comporte trois conceptions fondamentales : (i) un critique LLM aveugle à l'implémentation qui caractérise les apparences de défaillance sans accéder aux internes de l'agent, (ii) un diagnostic exécutable basé sur des scripts qui agrège les schémas symptomatiques dominants et produit des spécifications d'ingénierie auditables, et (iii) une validation centrée sur les basculements qui priorise les régressions (passage de succès à échec) et les corrections (passage d'échec à succès) comme preuves de premier ordre. Contrairement à la recherche basée sur une population ou à l'auto-affinement intégré à l'agent, AgentDevel maintient une unique lignée de versions canoniques et souligne la non-régression comme objectif principal. Les expériences sur des benchmarks à forte intensité d'exécution démontrent qu'AgentDevel produit des améliorations stables avec significativement moins de régressions tout en générant des artefacts reproductibles et auditables. Globalement, AgentDevel fournit une discipline de développement pratique pour construire, déboguer et livrer les agents LLM comme des logiciels.
Le clonage comportemental connaît une résurgence de popularité, car l'augmentation simultanée de la taille des modèles et des données s'avère offrir un point de départ solide pour de nombreuses tâches d'intérêt. Dans ce travail, nous présentons une recette ouverte pour entraîner un modèle fondation capable de jouer à des jeux vidéo, conçu pour l'inférence en temps réel sur un GPU grand public. Nous publions toutes les données (plus de 8300 heures de gameplay humain de haute qualité), le code d'entraînement et d'inférence, ainsi que les points de contrôle pré-entraînés sous une licence libre. Nous démontrons que notre meilleur modèle est capable de jouer à une variété de jeux vidéo en 3D à un niveau comparable à celui d'un joueur humain. Nous utilisons cette recette pour examiner systématiquement les lois d'échelle du clonage comportemental afin de comprendre comment la performance et le raisonnement causal du modèle varient avec l'échelle du modèle et des données. Nous montrons d'abord, sur un problème jouet simple, que pour certains types de raisonnement causal, l'augmentation à la fois de la quantité de données d'entraînement et de la profondeur du réseau conduit le modèle à apprendre une politique plus causale. Nous étudions ensuite systématiquement comment la causalité varie avec le nombre de paramètres (et la profondeur) et les étapes d'entraînement dans des modèles mis à l'échelle allant jusqu'à 1,2 milliard de paramètres, et nous observons des résultats d'échelle similaires à ceux constatés dans le problème jouet.
Les récents progrès des modèles de diffusion vidéo s'orientent vers des architectures basées sur des transformers, atteignant des performances de pointe en génération vidéo mais au prix d'une complexité attentionnelle quadratique, qui limite sévèrement l'évolutivité pour des séquences plus longues. Nous présentons ReHyAt, un mécanisme d'Attention Hybride Récurrente qui combine la fidélité de l'attention softmax avec l'efficacité de l'attention linéaire, permettant une reformulation récurrente par blocs et une utilisation mémoire constante. Contrairement au modèle concurrent SANA Video purement linéaire, la conception hybride de ReHyAt permet une distillation efficace à partir de modèles existants basés sur softmax, réduisant le coût d'entraînement de deux ordres de grandeur à environ 160 heures GPU, tout en restant compétitive en qualité. Notre pipeline léger de distillation et de微-tuning fournit une recette applicable aux futurs modèles bidirectionnels basés sur softmax. Les expériences sur VBench et VBench-2.0, ainsi qu'une étude de préférence humaine, démontrent que ReHyAt atteint une qualité vidéo state-of-the-art tout en réduisant le coût attentionnel de quadratique à linéaire, permettant une scalabilité pratique pour la génération vidéo de longue durée et sur appareil. La page du projet est disponible à l'adresse https://qualcomm-ai-research.github.io/rehyat.
Ce travail étudie l'intégration du paradigme d'Apprentissage par Information Privilégiée (LUPI) dans la détection d'objets afin d'exploiter des informations fines et descriptives disponibles pendant l'entraînement mais absentes lors de l'inférence. Nous proposons une méthodologie générale, indépendante du modèle, pour injecter des informations privilégiées - telles que des masques de boîtes englobantes, des cartes de saillance et des indices de profondeur - dans des détecteurs d'objents basés sur l'apprentissage profond via une architecture de type maître-élève. Des expériences sont menées sur cinq modèles de détection d'objets de pointe et plusieurs benchmarks publics, incluant des jeux de données de détection de déchets basés sur des drones et Pascal VOC 2012, pour évaluer l'impact sur la précision, la généralisation et l'efficacité computationnelle. Nos résultats démontrent que les modèles élèves entraînés avec LUPI surpassent systématiquement leurs homologues de référence, obtenant des gains significatifs en précision de détection sans augmentation de la complexité d'inférence ou de la taille du modèle. Les améliorations de performance sont particulièrement marquées pour les objets de taille moyenne et grande, tandis que des études d'ablation révèlent qu'une pondération intermédiaire du guidage par le modèle maître optimise l'équilibre entre l'apprentissage à partir des entrées privilégiées et standard. Ces résultats confirment que le cadre LUPI offre une stratégie efficace et pratique pour faire progresser les systèmes de détection d'objets dans des contextes à ressources limitées et en conditions réelles.
L'alignement post-entraînement des modèles de diffusion repose sur des signaux simplifiés, tels que des récompenses scalaires ou des préférences binaires. Cela limite l'alignement avec l'expertise humaine complexe, qui est hiérarchique et fine. Pour résoudre ce problème, nous construisons d'abord une évaluation hiérarchique et granulaire avec des experts du domaine, qui décompose la qualité de l'image en multiples attributs positifs et négatifs organisés en structure arborescente. Sur cette base, nous proposons un cadre d'alignement en deux étapes. Premièrement, nous injectons des connaissances du domaine dans un modèle de diffusion auxiliaire via un Fine-Tuning Supervisé. Deuxièmement, nous introduisons l'Optimisation des Préférences Complexes (CPO) qui étend DPO pour aligner le modèle de diffusion cible sur nos critères non binaires et hiérarchiques. Plus précisément, nous reformulons le problème d'alignement pour maximiser simultanément la probabilité des attributs positifs tout en minimisant la probabilité des attributs négatifs à l'aide du modèle de diffusion auxiliaire. Nous instancions notre approche dans le domaine de la génération de peintures et effectuons un entraînement CPO avec un jeu de données annotées de peintures comportant des attributs granulaires basés sur nos critères. Des expériences approfondies démontrent que CPO améliore significativement la qualité de génération et l'alignement avec l'expertise, ouvrant de nouvelles voies pour l'alignement sur des critères fins.
Les modèles pyramidaux récemment proposés décomposent les processus de diffusion avant et arrière conventionnels en plusieurs étapes opérant à différentes résolutions. Ces modèles traitent les entrées avec des niveaux de bruit plus élevés aux résolutions inférieures, tandis que les entrées moins bruitées sont traitées aux résolutions supérieures. Cette approche hiérarchique réduit significativement le coût computationnel de l'inférence dans les modèles de débruitage multi-étapes. Cependant, les modèles vidéo pyramidaux open-source existants ont été entraînés à partir de zéro et tendent à sous-performer par rapport aux systèmes de pointe en termes de plausibilité visuelle. Dans ce travail, nous présentons une pipeline qui convertit un modèle de diffusion pré-entraîné en un modèle pyramidal par un finetuning à faible coût, réalisant cette transformation sans dégradation de la qualité des vidéos produites. De plus, nous étudions et comparons diverses stratégies de distillation d'étapes au sein des modèles pyramidaux, visant à améliorer davantage l'efficacité de l'inférence. Nos résultats sont disponibles à l'adresse https://qualcomm-ai-research.github.io/PyramidalWan.
Nous présentons IMDD-1M, la première base de données industrielle multimodale à grande échelle pour les défauts, comprenant un million de paires image-texte alignées, conçue pour faire progresser l'apprentissage multimodal dans la fabrication et le contrôle qualité. IMDD-1M contient des défauts en haute résolution issus du monde réel, couvrant plus de 60 catégories de matériaux et 400 types de défauts, chacun accompagné d'annotations vérifiées par des experts et de descriptions textuelles fines détaillant la localisation, la sévérité et les attributs contextuels des défauts. Cette base de données permet un large éventail d'applications, incluant la classification, la segmentation, la recherche, la génération de légendes et la modélisation générative. En nous appuyant sur IMDD-1M, nous avons entraîné à partir de zéro un modèle de fondation vision-langage basé sur la diffusion, spécifiquement conçu pour les scénarios industriels. Ce modèle sert de fondation généralisable pouvant être efficacement adaptée à des domaines spécialisés via un réglage fin léger. Avec moins de 5 % des données spécifiques à la tâche requises par des modèles experts dédiés, il atteint des performances comparables, soulignant le potentiel de l'adaptation efficace en données des modèles de fondation pour l'inspection industrielle et la génération, ouvrant la voie à une intelligence manufacturière évolutive, adaptable au domaine et ancrée dans la connaissance.
Ce travail présente VERSE, une méthodologie pour analyser et améliorer les modèles vision-langage appliqués à la compréhension de documents visuellement riches en explorant leur espace d'incorporation visuel. VERSE permet la visualisation des représentations latentes, soutenant ainsi l'évaluation de la faisabilité du modèle. Il facilite également l'identification des régions problématiques et guide la génération de données synthétiques pour améliorer les performances dans ces clusters. Nous validons la méthodologie en entraînant les modèles sur le jeu de données synthétique MERIT et en évaluant sur sa contrepartie réelle, MERIT Secret. Les résultats montrent que VERSE aide à découvrir les caractéristiques visuelles associées aux clusters sujets aux erreurs, et que le réentraînement avec des échantillons contenant ces caractéristiques améliore substantiellement la performance F1 sans dégrader la généralisation. De plus, nous démontrons que les modèles on-premise tels que Donut et Idefics2, lorsqu'ils sont optimisés avec VERSE, égalent ou surpassent même les performances des solutions SaaS comme GPT-4 et Pixtral.
Au fur et à mesure que les agents conversationnels accumulent de l'expérience en collaborant avec les utilisateurs, l'adaptation aux préférences de ces derniers devient essentielle pour favoriser des relations à long terme et améliorer la qualité de la collaboration dans le temps. Nous présentons MultiSessionCollab, un benchmark qui évalue la capacité des agents à apprendre les préférences des utilisateurs et à les exploiter pour améliorer la qualité de la collaboration sur plusieurs sessions. Pour développer des agents performants dans ce contexte, nous proposons des agents collaboratifs à long terme équipés d'une mémoire qui conserve et affine les préférences de l'utilisateur à mesure que les expériences d'interaction s'accumulent. De plus, nous démontrons que des signaux d'apprentissage peuvent être dérivés du comportement d'un simulateur d'utilisateur dans MultiSessionCollab pour entraîner les agents à générer des réflexions plus complètes et à mettre à jour leur mémoire plus efficacement. Des expériences approfondies montrent qu'équiper les agents d'une mémoire améliore la collaboration à long terme, entraînant des taux de réussite de tâches plus élevés, des interactions plus efficaces et une réduction de l'effort utilisateur. Enfin, nous menons une étude avec des utilisateurs humains qui démontre que la mémoire contribue à améliorer l'expérience utilisateur dans des contextes réels.
Le réajustement des grands modèles de langage (LLM) alignés sur la sécurité peut considérablement compromettre leur sûreté. Les approches antérieures nécessitent de nombreux échantillons de sécurité ou ensembles d'étalonnage, ce qui entraîne non seulement une surcharge computationnelle importante lors du réalignement, mais aussi une dégradation notable de l'utilité du modèle. Contrairement à cette idée reçue, nous démontrons que l'alignement de sécurité peut être entièrement rétabli avec un seul exemple de sécurité, sans sacrifier l'utilité du modèle et à un coût minime. Fait remarquable, cette récupération est efficace quel que soit le nombre d'exemples nuisibles utilisés lors du réajustement ou la taille du modèle sous-jacent, et la convergence est atteinte en seulement quelques époques. De plus, nous mettons en évidence la structure de bas rang du gradient de sécurité, ce qui explique pourquoi une correction aussi efficace est possible. Nous validons nos résultats sur cinq LLM alignés sur la sécurité et plusieurs jeux de données, démontrant la généralité de notre approche.
Nous présentons LEMAS-Dataset, qui est, à notre connaissance, le plus grand corpus de parole multilingue open-source avec des horodatages au niveau du mot. Couvrant plus de 150 000 heures réparties sur 10 langues majeures, LEMAS-Dataset est construit via un pipeline de traitement de données efficace qui garantit des données et des annotations de haute qualité. Pour valuer l'efficacité de LEMAS-Dataset dans divers paradigmes génératifs, nous entraînons deux modèles de référence avec des architectures et spécialisations de tâches distinctes sur cet ensemble de données. LEMAS-TTS, construit sur un cadre non autorégressif de flow matching, exploite l'échelle massive et la diversité linguistique du jeu de données pour réaliser une synthèse multilingue zero-shot robuste. Notre entraînement adversarial pour les accents et la perte CTC proposés atténuent les problèmes d'accents translinguistiques, améliorant la stabilité de la synthèse. En complément, LEMAS-Edit utilise une architecture autorégressive décodeur-seul qui formule l'édition de la parole comme une tâche de remplissage de tokens masqués. En exploitant les alignements précis au niveau du mot pour construire des masques d'entraînement et en adoptant des stratégies de décodage adaptatives, il réalise une édition de parole fluide avec des transitions naturelles et des limites imperceptibles. Les résultats expérimentaux démontrent que les modèles entraînés sur LEMAS-Dataset offrent une synthèse et des performances d'édition de haute qualité, confirmant la qualité de l'ensemble de données. Nous envisageons que ce corpus multilingue finement annoté et riche en horodatages stimulera les progrès futurs des systèmes de génération de parole par prompt.