papers.description
Le Fine-Tuning Supervisé (SFT) est le paradigme standard pour l'adaptation de domaine, mais il entraîne fréquemment un coût d'oubli catastrophique. En revanche, l'Apprentissage par Renforcement (RL) sur politique préserve efficacement les capacités générales. Nous étudions cette divergence et identifions un écart distributionnel fondamental : tandis que le RL s'aligne sur la croyance interne du modèle, le SFT force le modèle à s'ajuster à une supervision externe. Cette inadéquation se manifeste souvent par des tokens de "conflits de confiance", caractérisés par une faible probabilité mais une faible entropie. Dans ces cas, le modèle est très confiant dans sa propre prédiction mais est contraint d'apprendre une vérité terrain divergente, déclenchant des mises à jour de gradient destructrices. Pour y remédier, nous proposons le Fine-Tuning Adaptatif à l'Entropie (EAFT). Contrairement aux méthodes reposant uniquement sur la probabilité de prédiction, l'EAFT utilise l'entropie au niveau du token comme mécanisme de verrouillage pour distinguer l'incertitude épistémique du conflit de connaissances. Cela permet au modèle d'apprendre à partir d'échantillons incertains tout en supprimant les gradients sur les données conflictuelles. Des expériences approfondies sur les séries Qwen et GLM (allant de 4B à 32B paramètres) dans les domaines mathématique, médical et agentiel confirment notre hypothèse. L'EAFT atteint systématiquement les performances en aval du SFT standard tout en atténuant significativement la dégradation des capacités générales.
Nous étudions l'acquisition continue de compétences dans des environnements incarnés ouverts, où un agent doit construire, affiner et réutiliser une bibliothèque croissante de compétences exécutables. Nous présentons le Réseau de Compétences Programmatiques (PSN), un cadre dans lequel les compétences sont des programmes symboliques exécutables formant un réseau compositionnel qui évolue par l'expérience. PSN définit trois mécanismes principaux instanciés via des grands modèles de langage : (1) REFLECT pour la localisation structurée des défauts dans les compositions de compétences, (2) l'optimisation progressive avec un verrouillage de mise à jour tenant compte de la maturité, qui stabilise les compétences fiables tout en maintenant la plasticité des compétences incertaines, et (3) le remaniement structurel canonique avec validation par retour arrière qui préserve la compacité du réseau. Nous montrons en outre que la dynamique d'apprentissage de PSN présente des parallèles structurels avec l'entraînement des réseaux neuronaux. Les expériences sur MineDojo et Crafter démontrent une réutilisation robuste des compétences, une adaptation rapide et une forte généralisation sur des distributions de tâches ouvertes.\footnote{Nous prévoyons de rendre le code open-source.}
L'intégration des grands modèles de langage (LLM) avec des outils externes a considérablement élargi les capacités des agents d'IA. Cependant, avec l'augmentation de la diversité des LLM et des outils, la sélection de la combinaison optimale modèle-outil devient un problème d'optimisation en haute dimension. Les approches existantes reposent souvent sur un modèle unique ou une logique d'appel d'outils fixe, ne parvenant pas à exploiter les variations de performance entre les paires hétérogènes modèle-outil. Dans cet article, nous présentons ATLAS (Alignement Adaptatif des Outils et des LLM et Invocation Synergique), un cadre à double voie pour l'utilisation dynamique d'outils dans le raisonnement complexe transdomaine. ATLAS fonctionne selon une approche à double voie : (1) un routage sans entraînement basé sur le clustering qui exploite des connaissances a priori empiriques pour un alignement domain-spécifique, et (2) un routage multi-étapes basé sur l'apprentissage par renforcement qui explore des trajectoires autonomes pour la généralisation hors-distribution. Des expériences approfondies sur 15 benchmarks démontrent que notre méthode surpasse les modèles propriétaires comme GPT-4o, dépassant les méthodes de routage existantes sur les tâches en distribution (+10,1%) et hors distribution (+13,1%). De plus, notre cadre montre des gains significatifs en raisonnement visuel en orchestrant des outils multimodaux spécialisés.
La prolifération rapide des benchmarks pour évaluer les modèles de langage de grande taille (LLM) a créé un besoin urgent de méthodes systématiques pour évaluer la qualité des benchmarks eux-mêmes. Nous proposons Benchmark², un cadre complet comprenant trois métriques complémentaires : (1) la Cohérence du Classement Inter-Benchmarks, mesurant si un benchmark produit des classements de modèles alignés avec ceux des benchmarks pairs ; (2) le Score de Discriminabilité, quantifiant la capacité d'un benchmark à différencier les modèles ; et (3) l'Écart d'Alignement des Capacités, identifiant les instances problématiques où des modèles plus performants échouent alors que des modèles moins performants réussissent au sein d'une même famille de modèles. Nous menons des expériences approfondies sur 15 benchmarks couvrant les domaines des mathématiques, du raisonnement et des connaissances, en évaluant 11 LLM issus de quatre familles de modèles. Notre analyse révèle des variations significatives de qualité parmi les benchmarks existants et démontre qu'une construction sélective de benchmarks basée sur nos métriques peut atteindre des performances d'évaluation comparables avec des ensembles de test considérablement réduits.
La génération conjointe audio-vidéo a progressé rapidement, mais des défis substantiels persistent. Les approches non commerciales souffrent encore d'asynchronisme audio-visuel, d'un mauvais alignement labial-oral et de dégradation unimodale, problèmes pouvant provenir d'une modélisation faible de la correspondance audio-visuelle, d'une généralisation limitée et d'une pénurie de données denses de haute qualité avec descriptions. Pour résoudre ces problèmes, nous présentons Klear et explorons trois axes - l'architecture du modèle, la stratégie d'entraînement et la curation des données. Sur le plan architectural, nous adoptons une conception à tour unique avec des blocs DiT unifiés et un mécanisme d'attention omnidirectionnelle complète, permettant un alignement audio-visuel serré et une forte évolutivité. Pour l'entraînement, nous utilisons un régime multitâche progressif - masquage aléatoire des modalités pour une optimisation conjointe entre les tâches, et un curriculum en plusieurs étapes, produisant des représentations robustes, renforçant les connaissances mondiales alignées A-V et empêchant l'effondrement unimodal. Concernant les données, nous présentons le premier jeu de données audio-vidéo à grande échelle avec descriptions denses, et introduisons une nouvelle pipeline automatisée de construction de données qui annote et filtre des millions de triplets audio-vidéo-description diversifiés, de haute qualité et strictement alignés. Sur cette base, Klear s'adapte aux grands jeux de données, offrant une génération haute fidélité, sémantiquement et temporellement alignée, suivant les instructions dans des contextes conjoints et unimodaux tout en généralisant robustement aux scénarios hors distribution. Sur diverses tâches, il surpasse substantiellement les méthodes antérieures par une large marge et atteint des performances comparables à Veo 3, ouvrant une voie unifiée et évolutive vers la synthèse audio-vidéo de nouvelle génération.
Les objets dynamiques dans notre monde physique 4D (3D + temps) évoluent, se déforment et interagissent constamment avec d'autres objets, engendrant des dynamiques scéniques 4D variées. Dans cet article, nous présentons CHORD, un pipeline génératif universel pour chorégraphier des objets et scènes dynamiques et synthétiser ce type de phénomènes. Les pipelines graphiques traditionnels basés sur des règles pour créer ces dynamiques reposent sur des heuristiques spécifiques à des catégories, mais sont laborieux et peu évolutifs. Les méthodes récentes fondées sur l'apprentissage nécessitent généralement des jeux de données à grande échelle, qui peuvent ne pas couvrir toutes les catégories d'objets d'intérêt. Notre approche hérite plutôt de l'universalité des modèles génératifs vidéo en proposant un pipeline basé sur la distillation pour extraire les riches informations motionnelles lagrangiennes cachées dans les représentations eulériennes des vidéos 2D. Notre méthode est universelle, polyvalente et agnostique aux catégories. Nous démontrons son efficacité en menant des expériences pour générer une diversité de dynamiques 4D multi-corps, montrons son avantage par rapport aux méthodes existantes et illustrons son applicabilité dans la génération de politiques de manipulation robotique. Page du projet : https://yanzhelyu.github.io/chord
Les récents progrès en apprentissage par renforcement ont amélioré les modèles de couplage de flux pour l'alignement sur les préférences humaines. Bien que l'échantillonnage stochastique permette l'exploration des directions de débruitage, les méthodes existantes qui optimisent sur plusieurs étapes de débruitage souffrent de signaux de récompense clairsemés et ambigus. Nous observons que les étapes à haute entropie permettent une exploration plus efficace, tandis que les étapes à faible entropie produisent des déroulements indistincts. Pour cela, nous proposons E-GRPO, une optimisation de politique relative par groupe sensible à l'entropie, afin d'augmenter l'entropie des étapes d'échantillonnage par EDS. Étant donné que l'intégration d'équations différentielles stochastiques souffre de signaux de récompense ambigus dus à la stochasticité des étapes multiples, nous fusionnons spécifiquement les étapes consécutives à faible entropie pour formuler une étape à haute entropie pour l'échantillonnage EDS, tout en appliquant l'échantillonnage par EDO sur les autres étapes. Sur cette base, nous introduisons un avantage normalisé par groupe multi-étapes, qui calcule les avantages relatifs au sein des échantillons partageant la même étape consolidée de débruitage EDS. Les résultats expérimentaux sur différents cadres de récompense ont démontré l'efficacité de nos méthodes.
La vérification est cruciale pour l'amélioration des agents : elle fournit le signal de récompense pour l'apprentissage par renforcement et permet des gains lors de l'inférence via la mise à l'échelle au moment du test (Test-Time Scaling, TTS). Malgré son importance, la vérification dans les contextes d'agents en génie logiciel (SWE) repose souvent sur l'exécution de code, qui peut être difficile à mettre à l'échelle en raison de la surcharge liée à la configuration de l'environnement. Il existe des alternatives évolutives telles que les classificateurs de correctifs et les méthodes heuristiques, mais elles sont moins ancrées dans le contexte de la base de code et plus difficiles à interpréter. Pour pallier cela, nous explorons les Rubriques Agentiques : un agent expert interagit avec le dépôt pour créer une liste de contrôle de rubrique contextuelle, et les correctifs candidats sont ensuite évalués par rapport à celle-ci sans nécessiter d'exécution de tests. Sur SWE-Bench Verified sous évaluation TTS parallèle, les Rubriques Agentiques obtiennent un score de 54,2 % sur Qwen3-Coder-30B-A3B et de 40,6 % sur Qwen3-32B, soit un gain d'au moins +3,5 points de pourcentage par rapport à la base de référence la plus solide de notre ensemble de comparaison. Nous analysons en outre le comportement des rubriques, montrant que les scores des rubriques sont cohérents avec les tests de vérité terrain tout en signalant également des problèmes que les tests ne capturent pas. Nos études d'ablation montrent que la collecte de contexte agentique est essentielle pour produire des critères spécifiques à la base de code et non ambigus. Ensemble, ces résultats suggèrent que les Rubriques Agentiques fournissent un signal de vérification efficace, évolutif et granulaire pour les agents de génie logiciel.
Les simulations de dynamique moléculaire (DM) sont essentielles pour comprendre les comportements à l'échelle atomique en science des matériaux, mais l'écriture de scripts LAMMPS reste une tâche hautement spécialisée et chronophage. Bien que les LLM montrent des promesses dans la génération de code et le question-réponse spécialisé, leurs performances dans les scénarios de DM sont limitées par la rareté des données du domaine, le coût élevé de déploiement des LLM de pointe et la faible exécutabilité du code. En nous appuyant sur notre précédent MDAgent, nous présentons MDAgent2, le premier cadre de travail de bout en bout capable d'effectuer à la fois du Q&A de connaissances et de la génération de code dans le domaine de la DM. Nous construisons un pipeline de construction de données spécifique au domaine qui produit trois jeux de données de haute qualité couvrant les connaissances en DM, le question-réponse et la génération de code. Sur la base de ces jeux de données, nous adoptons une stratégie d'entraînement en trois étapes – pré-entraînement continu (CPT), fine-tuning supervisé (SFT) et apprentissage par renforcement (RL) – pour entraîner deux modèles adaptés au domaine, MD-Instruct et MD-Code. De plus, nous introduisons MD-GRPO, une méthode RL en boucle fermée qui utilise les résultats de simulation comme signaux de récompense et recycle les trajectoires à faible récompense pour un raffinement continu. Nous construisons également MDAgent2-RUNTIME, un système multi-agents déployable qui intègre la génération, l'exécution, l'évaluation et l'auto-correction du code. Associés à MD-EvalBench proposé dans ce travail, le premier benchmark pour la génération de code LAMMPS et le question-réponse, nos modèles et système atteignent des performances surpassant plusieurs bases de référence solides. Ce travail démontre systématiquement l'adaptabilité et la capacité de généralisation des grands modèles de langage dans les tâches de simulation industrielle, posant une base méthodologique pour la génération automatique de code dans l'IA pour la Science et les simulations à l'échelle industrielle. URL : https://github.com/FredericVAN/PKU_MDAgent2
Un raisonnement épidémiologique fiable nécessite de synthétiser les preuves issues des études pour déduire la charge de morbidité, la dynamique de transmission et les effets des interventions au niveau populationnel. Les référentiels existants de question-réponse médicale mettent principalement l'accent sur les connaissances cliniques ou le raisonnement au niveau du patient, mais peu évaluent systématiquement l'inférence épidémiologique fondée sur des preuves. Nous présentons EpiQAL, le premier référentiel diagnostique pour la question-réponse en épidémiologie couvrant diverses maladies, comprenant trois sous-ensembles construits à partir de la littérature en libre accès. Les sous-ensembles évaluent respectivement la rappel factuel ancré dans le texte, l'inférence multi-étapes reliant les preuves documentaires aux principes épidémiologiques, et la reconstruction de conclusions avec la section Discussion masquée. La construction combine un guide taxonomique conçu par des experts, une vérification multi-modèle et un contrôle de difficulté basé sur la récupération d'information. Des expériences sur dix modèles ouverts révèlent que les LLM actuels présentent des performances limitées en raisonnement épidémiologique, l'inférence multi-étapes constituant le défi le plus important. Le classement des modèles varie selon les sous-ensembles, et l'échelle seule ne prédit pas le succès. L'incitation par chaîne de pensée (Chain-of-Thought) bénéficie à l'inférence multi-étapes mais donne des résultats mitigés ailleurs. EpiQAL fournit des signaux diagnostiques granulaires pour l'ancrage probant, le raisonnement inférentiel et la reconstruction de conclusions.
Alors que les grands modèles de langage (LLM) deviennent essentiels dans des applications critiques pour la sécurité, il est primordial de garantir leur robustesse face aux invites adverses. Cependant, les ensembles de données existants pour les tests d'intrusion (« red teaming ») souffrent de catégorisations des risques incohérentes, d'une couverture de domaines limitée et d'évaluations obsolètes, ce qui entrave les évaluations systématiques des vulnérabilités. Pour relever ces défis, nous présentons RedBench, un ensemble de données universel agrégeant 37 benchmarks issus de conférences et de dépôts de premier plan, comprenant 29 362 échantillons couvrant des invites d'attaque et de refus. RedBench utilise une taxonomie standardisée avec 22 catégories de risques et 19 domaines, permettant des évaluations cohérentes et exhaustives des vulnérabilités des LLM. Nous fournissons une analyse détaillée des ensembles de données existants, établissons des performances de référence pour les LLM modernes, et ouvrons en libre accès l'ensemble de données et le code d'évaluation. Nos contributions facilitent des comparaisons robustes, stimulent la recherche future et promeuvent le développement de LLM sûrs et fiables pour un déploiement réel. Code : https://github.com/knoveleng/redeval
Nous présentons une étude de cas de quatre tentatives de génération autonome d'articles de recherche en apprentissage automatique à l'aide d'un pipeline de six agents de LLM correspondant aux étapes du processus scientifique. Sur ces quatre tentatives, trois ont échoué lors de la mise en œuvre ou de l'évaluation. Une a complété le pipeline et a été acceptée à Agents4Science 2025, une conférence inaugurale expérimentale qui exigeait que les systèmes d'IA soient premiers auteurs, passant avec succès à la fois l'examen humain et l'examen multi-IA. À partir de ces tentatives, nous documentons six modes d'échec récurrents : le biais envers les valeurs par défaut des données d'entraînement, la dérive de mise en œuvre sous pression d'exécution, la dégradation de la mémoire et du contexte dans les tâches à long terme, la surexaltation qui déclare un succès malgré des échecs évidents, l'intelligence métier insuffisante et le faible discernement scientifique dans la conception expérimentale. Nous concluons en discutant de quatre principes de conception pour des systèmes d'IA-chercheur plus robustes, des implications pour la découverte scientifique autonome, et nous publions tous les prompts, artefacts et résultats à l'adresse https://github.com/Lossfunk/ai-scientist-artefacts-v1.
Les modèles de langage (LM) sont pré-entraînés sur des jeux de données textuelles brutes pour générer des séquences de texte token par token. Bien que cette approche facilite l'acquisition de connaissances générales et de capacités de raisonnement, elle n'optimise pas explicitement la compétence linguistique. Pour combler cette lacune, nous proposons L2T, un cadre de pré-entraînement intégrant des tâches d'apprentissage linguistique parallèlement à la prédiction standard du token suivant. Inspiré par l'acquisition du langage humain, L2T transforme le texte brut en paires structurées entrée-sortie pour fournir une stimulation linguistique explicite. Le pré-entraînement de modèles de langage sur un mélange de texte brut et de données L2T améliore non seulement les performances globales sur les benchmarks de compétence linguistique, mais accélère son acquisition, tout en maintenant des performances compétitives sur les tâches de raisonnement général.
L'édition d'images pilotée par instructions avec des modèles génératifs multimodaux unifiés a progressé rapidement, mais leur raisonnement visuel sous-jacent reste limité, conduisant à des performances sous-optimales pour les modifications centrées sur le raisonnement. L'apprentissage par renforcement (RL) a été étudié pour améliorer la qualité de l'édition d'images, mais il se heurte à trois défis majeurs : (1) une exploration raisonnée limitée, confinée à la stochasticité du débruitage, (2) une fusion biaisée des récompenses, et (3) l'instabilité des récompenses basées sur des modèles de langage visuel (VLM) et des instructions. Dans ce travail, nous proposons ThinkRL-Edit, un cadre RL axé sur le raisonnement qui découple le raisonnement visuel de la synthèse d'images et élargit l'exploration raisonnée au-delà du débruitage. Pour ce faire, nous introduisons un échantillonnage raisonné basé sur la Chaîne de Raisonnement (CoT) avec des étapes de planification et de réflexion avant la génération lors de l'échantillonnage en ligne, contraignant le modèle à explorer plusieurs hypothèses sémantiques et à valider leur plausibilité avant de s'engager sur un résultat visuel. Pour éviter les écueils de l'agrégation pondérée, nous proposons une stratégie de regroupement de préférences en chaîne non biaisée couvrant de multiples dimensions de récompense. De plus, nous remplaçons les scores VLM basés sur des intervalles par une liste de contrôle binaire, produisant des récompenses plus précises, à variance réduite et interprétables pour le raisonnement complexe. Les expériences montrent que notre méthode surpasse significativement les travaux antérieurs en édition d'images centrée sur le raisonnement, produisant des modifications fidèles aux instructions, visuellement cohérentes et sémantiquement fondées.
L’évaluation humaine est la référence absolue en TAL multilingue, mais elle est souvent omise en pratique et remplacée par des métriques automatiques, car elle est notoirement complexe et longue à mettre en place avec les outils existants, impliquant une charge technique et opérationnelle substantielle. Nous présentons Pearmut, une plateforme légère mais riche en fonctionnalités, qui rend l’évaluation humaine de bout en bout aussi simple à exécuter que l’évaluation automatique. Pearmut supprime les obstacles habituels et offre un support pour l’évaluation de tâches multilingues, en se concentrant particulièrement sur la traduction automatique. La plateforme implémente des protocoles d’évaluation standard, tels que DA, ESA ou MQM, mais est également extensible pour permettre le prototypage de nouveaux protocoles. Elle intègre notamment le contexte au niveau documentaire, l’évaluation absolue et contrastive, des vérifications d’attention, des pré-annotations ESAAI et des stratégies d’affectation statiques ou basées sur l’apprentissage actif. Pearmut permet à l’évaluation humaine fiable de devenir une composante pratique et routinière du développement et du diagnostic des modèles, plutôt qu’un effort occasionnel.
La Génération à Mémoire Augmentée (MAG) étend les Grands Modèles de Langage avec une mémoire externe pour prendre en charge le raisonnement en contexte long. Cependant, les approches existantes reposent largement sur la similarité sémantique appliquée à des bases de mémoire monolithiques, entremêlant ainsi les informations temporelles, causales et liées aux entités. Cette conception limite l'interprétabilité et l'alignement entre l'intention de la requête et les preuves récupérées, conduisant à une précision de raisonnement sous-optimale. Dans cet article, nous proposons MAGMA, une architecture agentielle de mémoire multi-graphes qui représente chaque élément de mémoire à travers des graphes orthogonaux sémantique, temporel, causal et d'entités. MAGMA formule la récupération comme un parcours guidé par des politiques sur ces vues relationnelles, permettant une sélection adaptative à la requête et une construction de contexte structurée. En dissociant la représentation mémoire de la logique de récupération, MAGMA fournit des chemins de raisonnement transparents et un contrôle granulaire sur la récupération. Les expériences menées sur LoCoMo et LongMemEval démontrent que MAGMA surpasse constamment les systèmes de mémoire agentielle de pointe dans les tâches de raisonnement à long horizon.
Nous présentons RGS-SLAM, un cadre de SLAM robuste basé sur des splines gaussiennes qui remplace l'étape de densification pilotée par les résidus de GS-SLAM par une initialisation directe des Gaussiennes à partir de correspondances, sans phase d'apprentissage. Au lieu d'ajouter progressivement des Gaussians lorsque les résidus révèlent une géométrie manquante, RGS-SLAM effectue une triangulation en une seule passe de correspondances denses multi-vues, dérivées de descripteurs DINOv3 et affinées par un classifieur de points conformes tenant compte de la confiance. Ceci génère un semis de Gaussians bien réparti et conscient de la structure avant toute optimisation. Cette initialisation stabilise la cartographie initiale et accélère la convergence d'environ 20 %, offrant une fidélité de rendu supérieure dans les scènes riches en texture et encombrées, tout en restant entièrement compatible avec les pipelines GS-SLAM existants. Évalué sur les jeux de données TUM RGB-D et Replica, RGS-SLAM atteint une précision de localisation et de reconstruction compétitive ou supérieure par rapport aux systèmes de SLAM à l'état de l'art basés sur des points ou des Gaussians, tout en maintenant des performances de cartographie en temps réel allant jusqu'à 925 images par seconde.
Les tokenizers visuels 1D existants pour la génération autorégressive (AR) suivent largement les principes de conception de la modélisation du langage, car ils sont construits directement sur des transformers dont les prérequis proviennent du langage, produisant des tokens latents à hiérarchie unique et traitant les données visuelles comme des flux séquentiels plats de tokens. Cependant, cette formulation de type langage néglige des propriétés clés de la vision, en particulier les conceptions de réseaux hiérarchiques et résiduels qui ont longtemps été essentielles pour la convergence et l'efficacité des modèles visuels. Pour ramener la "vision" dans la vision, nous proposons le Residual Tokenizer (ResTok), un tokenizer visuel 1D qui construit des résidus hiérarchiques à la fois pour les tokens d'image et les tokens latents. Les représentations hiérarchiques obtenues par fusion progressive permettent une fusion de caractéristiques inter-niveaux à chaque couche, améliorant considérablement la capacité de représentation. Parallèlement, les résidus sémantiques entre les hiérarchies empêchent le chevauchement d'informations, produisant des distributions latentes plus concentrées qui sont plus faciles à modéliser en AR. Des liaisons inter-niveaux émergent ainsi sans aucune contrainte explicite. Pour accélérer le processus de génération, nous introduisons en outre un générateur AR hiérarchique qui réduit substantiellement les étapes d'échantillonnage en prédisant un niveau entier de tokens latents en une fois plutôt que de les générer strictement token par token. Des expériences approfondies démontrent que la restauration de prérequis résiduels hiérarchiques dans la tokenization visuelle améliore significativement la génération d'images AR, atteignant un gFID de 2,34 sur ImageNet-256 avec seulement 9 étapes d'échantillonnage. Le code est disponible à l'adresse https://github.com/Kwai-Kolors/ResTok.
Nous présentons Gen3R, une méthode qui établit un pont entre les fortes connaissances a priori des modèles fondateurs de reconstruction et les modèles de diffusion vidéo pour la génération 3D au niveau de la scène. Nous réorientons le modèle de reconstruction VGGT pour produire des latents géométriques en entraînant un adaptateur sur ses tokens, qui sont régularisés pour s'aligner avec les latents d'apparence de modèles de diffusion vidéo pré-entraînés. En générant conjointement ces latents désentrelacés mais alignés, Gen3R produit à la fois des vidéos RVB et la géométrie 3D correspondante, incluant les poses de caméra, les cartes de profondeur et les nuages de points globaux. Les expériences démontrent que notre approche obtient des résultats de pointe dans la génération de scènes 3D conditionnée par une image unique ou multiple. De plus, notre méthode peut améliorer la robustesse de la reconstruction en exploitant des connaissances a priori génératives, démontrant l'avantage mutuel d'un couplage étroit entre les modèles de reconstruction et les modèles génératifs.