Artículos de investigación en IA seleccionados diariamente con traducciones
El Ajuste Fino Supervisado (SFT) es el paradigma estándar para la adaptación de dominio, pero frecuentemente incurre en el costo del olvido catastrófico. En marcado contraste, el Aprendizaje por Refuerzo (RL) *on-policy* preserva eficazmente las capacidades generales. Investigamos esta discrepancia e identificamos una brecha distribucional fundamental: mientras que el RL se alinea con la creencia interna del modelo, el SFT obliga al modelo a ajustarse a una supervisión externa. Esta discrepancia a menudo se manifiesta como tokens de "Conflictos Confiados", caracterizados por una baja probabilidad pero también por una baja entropía. En estos casos, el modelo tiene una confianza muy alta en su propia predicción pero se ve forzado a aprender una verdad fundamental divergente, lo que desencadena actualizaciones de gradiente destructivas. Para abordar esto, proponemos el Ajuste Fino Adaptativo de Entropía (EAFT). A diferencia de los métodos que se basan únicamente en la probabilidad de predicción, EAFT utiliza la entropía a nivel de token como un mecanismo de compuerta para distinguir entre la incertidumbre epistémica y el conflicto de conocimiento. Esto permite al modelo aprender de muestras inciertas mientras suprime los gradientes en datos conflictivos. Experimentos exhaustivos en las series Qwen y GLM (que van desde 4B hasta 32B de parámetros) en dominios matemáticos, médicos y de agentes confirman nuestra hipótesis. EAFT iguala consistentemente el rendimiento en tareas específicas del SFT estándar, mientras mitiga significativamente la degradación de las capacidades generales.
Estudiamos la adquisición continua de habilidades en entornos corporizados abiertos donde un agente debe construir, refinar y reutilizar una biblioteca en expansión de habilidades ejecutables. Presentamos la Red de Habilidades Programáticas (PSN), un marco en el que las habilidades son programas simbólicos ejecutables que forman una red composicional que evoluciona mediante la experiencia. PSN define tres mecanismos centrales instanciados mediante modelos de lenguaje extenso: (1) REFLECT para la localización estructurada de fallos en composiciones de habilidades, (2) optimización progresiva con compuertas de actualización sensibles a la madurez que estabilizan habilidades confiables mientras mantienen la plasticidad para las inciertas, y (3) refactorización estructural canónica bajo validación con retroceso que mantiene la compacidad de la red. Además, demostramos que la dinámica de aprendizaje de PSN exhibe paralelismos estructurales con el entrenamiento de redes neuronales. Los experimentos en MineDojo y Crafter demuestran una reutilización robusta de habilidades, adaptación rápida y una fuerte generalización en distribuciones de tareas abiertas.\footnote{Planeamos liberar el código como open-source.}
La integración de grandes modelos de lenguaje (LLM) con herramientas externas ha ampliado significativamente las capacidades de los agentes de IA. Sin embargo, a medida que aumenta la diversidad tanto de los LLM como de las herramientas, seleccionar la combinación óptima de modelo y herramienta se convierte en un desafío de optimización de alta dimensión. Los enfoques existentes a menudo dependen de un único modelo o de una lógica fija de invocación de herramientas, sin aprovechar las variaciones de rendimiento entre pares heterogéneos de modelo y herramienta. En este artículo, presentamos ATLAS (Alineación Adaptativa de Herramientas-LLM e Invocación Sinérgica), un marco de doble vía para el uso dinámico de herramientas en el razonamiento complejo entre dominios. ATLAS opera mediante un enfoque de doble vía: (1) un enrutamiento basado en clústeres sin entrenamiento que explota previos empíricos para la alineación específica del dominio, y (2) un enrutamiento multi-etapa basado en aprendizaje por refuerzo que explora trayectorias autónomas para la generalización fuera de distribución. Experimentos exhaustivos en 15 benchmarks demuestran que nuestro método supera a modelos de código cerrado como GPT-4o, superando a los métodos de enrutamiento existentes tanto en tareas dentro de distribución (+10.1%) como fuera de distribución (+13.1%). Además, nuestro marco muestra ganancias significativas en razonamiento visual mediante la orquestación de herramientas multimodales especializadas.
La rápida proliferación de puntos de referencia para evaluar modelos de lenguaje extenso (LLM) ha creado una necesidad urgente de métodos sistemáticos para evaluar la calidad de los propios benchmarks. Proponemos Benchmark^2, un marco integral que comprende tres métricas complementarias: (1) la Consistencia de Clasificación Cruzada entre Benchmarks, que mide si un benchmark produce clasificaciones de modelos alineadas con benchmarks pares; (2) la Puntuación de Discriminabilidad, que cuantifica la capacidad de un benchmark para diferenciar entre modelos; y (3) la Desviación de la Alineación de Capacidades, que identifica instancias problemáticas donde modelos más potentes fallan pero modelos más débiles tienen éxito dentro de la misma familia de modelos. Realizamos experimentos extensos en 15 benchmarks que abarcan dominios de matemáticas, razonamiento y conocimiento, evaluando 11 LLM de cuatro familias de modelos. Nuestro análisis revela variaciones significativas de calidad entre los benchmarks existentes y demuestra que la construcción selectiva de benchmarks basada en nuestras métricas puede lograr un rendimiento de evaluación comparable con conjuntos de prueba sustancialmente reducidos.
La generación conjunta de audio y vídeo ha progresado rápidamente, aunque aún persisten desafíos significativos. Los enfoques no comerciales siguen adoleciendo de asincronía audiovisual, pobre alineación labio-habla y degradación unimodal, problemas que pueden originarse en un modelado débil de la correspondencia audiovisual, una generalización limitada y la escasez de datos de alta calidad con descripciones densas. Para abordar estos problemas, presentamos Klear y profundizamos en tres ejes: arquitectura del modelo, estrategia de entrenamiento y curación de datos. Arquitectónicamente, adoptamos un diseño de torre única con bloques DiT unificados y un mecanismo de Atención Completa Omni, logrando una estrecha alineación audiovisual y una alta escalabilidad. En cuanto al entrenamiento, adoptamos un régimen progresivo de múltiples tareas—enmascaramiento aleatorio de modalidades para la optimización conjunta entre tareas, y un currículum multietapa—generando representaciones robustas, fortaleciendo el conocimiento del mundo alineado audio-vídeo y previniendo el colapso unimodal. Respecto a los conjuntos de datos, presentamos el primer conjunto de datos a gran escala de audio-vídeo con descripciones densas, e introducimos una novedosa canalización automatizada de construcción de datos que anota y filtra millones de tripletas audio-vídeo-descripción, diversas, de alta calidad y estrictamente alineadas. Sobre esta base, Klear escala a grandes conjuntos de datos, ofreciendo una generación de alta fidelidad, semántica y temporalmente alineada, y que sigue instrucciones, tanto en entornos conjuntos como unimodales, al tiempo que generaliza robustamente a escenarios fuera de distribución. En todas las tareas, supera sustancialmente a métodos anteriores por un amplio margen y alcanza un rendimiento comparable al de Veo 3, ofreciendo un camino unificado y escalable hacia la síntesis audiovisual de próxima generación.
Los objetos dinámicos en nuestro mundo físico 4D (3D + tiempo) evolucionan, se deforman e interactúan constantemente con otros objetos, dando lugar a diversas dinámicas de escenas 4D. En este artículo, presentamos CHORD, una canalización generativa universal para coreografiar objetos y escenas dinámicas y sintetizar este tipo de fenómenos. Las canalizaciones gráficas tradicionales basadas en reglas para crear estas dinámicas se basan en heurísticas específicas por categoría, pero son laboriosas y no escalables. Los métodos recientes basados en aprendizaje generalmente requieren conjuntos de datos a gran escala, que pueden no cubrir todas las categorías de objetos de interés. Nuestro enfoque, en cambio, hereda la universalidad de los modelos generativos de video al proponer una canalización basada en destilación para extraer la rica información de movimiento lagrangiana oculta en las representaciones eulerianas de videos 2D. Nuestro método es universal, versátil y agnóstico respecto a categorías. Demostramos su eficacia mediante experimentos para generar una amplia gama de dinámicas 4D multicuerpo, mostramos su ventaja frente a métodos existentes y demostramos su aplicabilidad en la generación de políticas de manipulación robótica. Página del proyecto: https://yanzhelyu.github.io/chord
Los recientes avances en aprendizaje por refuerzo han mejorado los modelos de ajuste de flujo en la alineación de preferencias humanas. Si bien el muestreo estocástico permite la exploración de direcciones de eliminación de ruido, los métodos existentes que optimizan múltiples pasos de desruido sufren de señales de recompensa dispersas y ambiguas. Observamos que los pasos de alta entropía permiten una exploración más eficiente y efectiva, mientras que los pasos de baja entropía generan desarrollos indistinguibles. Para abordar esto, proponemos E-GRPO, una Optimización de Política Relativa de Grupo con conciencia de entropía para aumentar la entropía de los pasos de muestreo de EDE. Dado que la integración de ecuaciones diferenciales estocásticas sufre de señales de recompensa ambiguas debido a la estocasticidad de múltiples pasos, fusionamos específicamente pasos consecutivos de baja entropía para formular un paso de alta entropía en el muestreo de EDE, mientras aplicamos muestreo de EDO en los demás pasos. Sobre esta base, introducimos la ventaja normalizada de grupo multi-paso, que calcula ventajas relativas al grupo dentro de muestras que comparten el mismo paso consolidado de desruido de EDE. Los resultados experimentales en diferentes configuraciones de recompensa han demostrado la efectividad de nuestros métodos.
La verificación es fundamental para mejorar los agentes: proporciona la señal de recompensa para el Aprendizaje por Refuerzo y permite ganancias en tiempo de inferencia mediante Escalado en Tiempo de Prueba (TTS). A pesar de su importancia, la verificación en entornos de agentes de ingeniería de software (SWE) a menudo depende de la ejecución de código, lo que puede ser difícil de escalar debido a la sobrecarga de configuración del entorno. Existen alternativas escalables como clasificadores de parches y métodos heurísticos, pero están menos fundamentadas en el contexto de la base de código y son más difíciles de interpretar. Para ello, exploramos las Rúbricas Agénticas: un agente experto interactúa con el repositorio para crear una lista de verificación de rúbrica contextualizada, y luego los parches candidatos se puntúan en comparación con ella sin requerir la ejecución de pruebas. En SWE-Bench Verified bajo evaluación TTS paralela, las Rúbricas Agénticas logran una puntuación del 54.2% en Qwen3-Coder-30B-A3B y del 40.6% en Qwen3-32B, con una ganancia de al menos +3.5 puntos porcentuales sobre la línea base más fuerte en nuestro conjunto de comparación. Analizamos además el comportamiento de la rúbrica, mostrando que las puntuaciones de la rúbrica son consistentes con las pruebas de verdad fundamental, a la vez que señalan problemas que las pruebas no capturan. Nuestras ablaciones muestran que la recopilación de contexto agéntica es esencial para producir criterios específicos de la base de código y no ambiguos. En conjunto, estos resultados sugieren que las Rúbricas Agénticas proporcionan una señal de verificación eficiente, escalable y granular para los agentes de SWE.
Las simulaciones de dinámica molecular (DM) son esenciales para comprender los comportamientos a escala atómica en la ciencia de materiales, sin embargo, la escritura de scripts para LAMMPS sigue siendo una tarea altamente especializada y que consume mucho tiempo. Aunque los LLM muestran potencial en la generación de código y la respuesta a preguntas específicas de un dominio, su rendimiento en escenarios de DM se ve limitado por la escasez de datos del dominio, el alto coste de despliegue de los LLM más avanzados y la baja capacidad de ejecución del código generado. Basándonos en nuestro MDAgent anterior, presentamos MDAgent2, el primer marco de trabajo integral capaz de realizar tanto preguntas y respuestas de conocimiento como generación de código dentro del dominio de la DM. Construimos un pipeline de construcción de datos específico del dominio que produce tres conjuntos de datos de alta calidad que abarcan conocimiento de DM, preguntas y respuestas, y generación de código. Basándonos en estos conjuntos de datos, adoptamos una estrategia de post-entrenamiento en tres etapas—pre-entrenamiento continuado (CPT), ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL)—para entrenar dos modelos adaptados al dominio: MD-Instruct y MD-Code. Además, presentamos MD-GRPO, un método de RL de bucle cerrado que aprovecha los resultados de la simulación como señales de recompensa y recicla las trayectorias de baja recompensa para un refinamiento continuo. Además, construimos MDAgent2-RUNTIME, un sistema multiagente desplegable que integra generación, ejecución, evaluación y auto-corrección de código. Junto con MD-EvalBench, propuesto en este trabajo y que es el primer benchmark para generación de código LAMMPS y preguntas y respuestas, nuestros modelos y sistema logran un rendimiento que supera a varias líneas base sólidas. Este trabajo demuestra sistemáticamente la adaptabilidad y capacidad de generalización de los modelos de lenguaje grande en tareas de simulación industrial, sentando una base metodológica para la generación automática de código en IA para la Ciencia y simulaciones a escala industrial. URL: https://github.com/FredericVAN/PKU_MDAgent2
El razonamiento epidemiológico fiable requiere sintetizar evidencia de estudios para inferir la carga de enfermedad, la dinámica de transmisión y los efectos de las intervenciones a nivel poblacional. Los benchmarks existentes de respuesta a preguntas médicas enfatizan principalmente el conocimiento clínico o el razonamiento a nivel del paciente, pero pocos evalúan sistemáticamente la inferencia epidemiológica basada en evidencia. Presentamos EpiQAL, el primer benchmark diagnóstico para respuesta a preguntas epidemiológicas sobre diversas enfermedades, que comprende tres subconjuntos construidos a partir de literatura de acceso abierto. Los subconjuntos evalúan respectivamente el recuerdo factual basado en texto, la inferencia de múltiples pasos que vincula evidencia documental con principios epidemiológicos, y la reconstrucción de conclusiones con la sección de Discusión oculta. La construcción combina orientación taxonómica diseñada por expertos, verificación multi-modelo y control de dificultad basado en recuperación. Experimentos con diez modelos abiertos revelan que los LLMs actuales muestran un rendimiento limitado en el razonamiento epidemiológico, siendo la inferencia de múltiples pasos el mayor desafío. Las clasificaciones de los modelos varían entre subconjuntos, y la escala por sí sola no predice el éxito. El prompting de Cadena de Pensamiento beneficia la inferencia multi-paso pero produce resultados mixtos en otros aspectos. EpiQAL proporciona señales diagnósticas granulares para la fundamentación en evidencia, el razonamiento inferencial y la reconstrucción de conclusiones.
A medida que los grandes modelos de lenguaje (LLM) se vuelven integrales en aplicaciones críticas para la seguridad, garantizar su robustez frente a *prompts* adversarios es primordial. Sin embargo, los conjuntos de datos existentes para *red teaming* adolecen de categorizaciones de riesgo inconsistentes, cobertura de dominios limitada y evaluaciones obsoletas, lo que dificulta las evaluaciones sistemáticas de vulnerabilidades. Para abordar estos desafíos, presentamos RedBench, un conjunto de datos universal que agrega 37 conjuntos de datos de referencia de conferencias y repositorios líderes, que comprende 29.362 muestras de *prompts* de ataque y de rechazo. RedBench emplea una taxonomía estandarizada con 22 categorías de riesgo y 19 dominios, permitiendo evaluaciones consistentes y exhaustivas de las vulnerabilidades de los LLM. Proporcionamos un análisis detallado de los conjuntos de datos existentes, establecemos líneas base para modelos de lenguaje modernos, y liberamos como código abierto el conjunto de datos y el código de evaluación. Nuestras contribuciones facilitan comparaciones robustas, fomentan la investigación futura y promueven el desarrollo de LLM seguros y confiables para su implementación en el mundo real. Código: https://github.com/knoveleng/redeval
Reportamos un estudio de caso de cuatro intentos de generar autónomamente artículos de investigación en *machine learning* (ML) mediante una canalización de seis agentes de LLM asignados a las etapas del flujo de trabajo científico. De estos cuatro intentos, tres fracasaron durante la implementación o la evaluación. Uno completó la canalización y fue aceptado en Agents4Science 2025, un foro inaugural experimental que exigía que los sistemas de IA figuraran como primeros autores, superando tanto la revisión humana como la revisión múltiple por IA. A partir de estos intentos, documentamos seis modos de fallo recurrentes: sesgo hacia los valores por defecto de los datos de entrenamiento, deriva en la implementación bajo presión de ejecución, degradación de la memoria y del contexto en tareas de largo horizonte, sobreexcitación que declara el éxito a pesar de fallos obvios, inteligencia de dominio insuficiente y criterio científico deficiente en el diseño experimental. Concluimos discutiendo cuatro principios de diseño para sistemas de IA-científico más robustos, las implicaciones para el descubrimiento científico autónomo, y publicamos todos los *prompts*, artefactos y resultados en https://github.com/Lossfunk/ai-scientist-artefacts-v1.
Los modelos de lenguaje (LM) se preentrenan en conjuntos de datos de texto sin procesar para generar secuencias textuales token por token. Si bien este enfoque facilita el aprendizaje de conocimiento del mundo y razonamiento, no optimiza explícitamente la competencia lingüística. Para cerrar esta brecha, proponemos L2T, un marco de preentrenamiento que integra Tareas de Aprendizaje de Lenguaje junto con la predicción estándar del siguiente token. Inspirado en la adquisición del lenguaje humano, L2T transforma texto sin procesar en pares estructurados de entrada-salida para proporcionar estímulo lingüístico explícito. El preentrenamiento de LM con una mezcla de texto sin procesar y datos L2T no solo mejora el rendimiento general en benchmarks de competencia lingüística, sino que acelera su adquisición, manteniendo al mismo tiempo un rendimiento competitivo en tareas de razonamiento general.
La edición de imágenes impulsada por instrucciones con modelos generativos multimodales unificados ha avanzado rápidamente, pero su razonamiento visual subyacente sigue siendo limitado, lo que conduce a un rendimiento subóptimo en ediciones centradas en el razonamiento. El aprendizaje por refuerzo (RL) se ha investigado para mejorar la calidad de la edición de imágenes, pero enfrenta tres desafíos clave: (1) exploración limitada del razonamiento confinada a la estocasticidad de la eliminación de ruido, (2) fusión sesgada de recompensas, y (3) inestabilidad de las recompensas basadas en instrucciones de modelos de lenguaje visual (VLM). En este trabajo, proponemos ThinkRL-Edit, un marco de RL centrado en el razonamiento que desacopla el razonamiento visual de la síntesis de imágenes y expande la exploración del razonamiento más allá de la eliminación de ruido. Para ello, introducimos un muestreo de razonamiento basado en Cadena de Pensamiento (CoT) con etapas de planificación y reflexión previas a la generación en el muestreo en línea, obligando al modelo a explorar múltiples hipótesis semánticas y validar su plausibilidad antes de comprometerse con un resultado visual. Para evitar los fallos de la agregación ponderada, proponemos una estrategia de agrupación de preferencias en cadena no sesgada a través de múltiples dimensiones de recompensa. Además, reemplazamos las puntuaciones VLM basadas en intervalos con una lista binaria de verificación, obteniendo recompensas más precisas, de menor varianza e interpretables para el razonamiento complejo. Los experimentos muestran que nuestro método supera significativamente a trabajos anteriores en edición de imágenes centrada en el razonamiento, produciendo ediciones fieles a la instrucción, visualmente coherentes y semánticamente fundamentadas.
La evaluación humana es el estándar de referencia en PLN multilingüe, pero a menudo se omite en la práctica y se sustituye por métricas automáticas, debido a que es notoriamente compleja y lenta de configurar con las herramientas existentes, con una sobrecarga sustancial de ingeniería y operaciones. Presentamos Pearmut, una plataforma ligera pero rica en funciones que hace que la evaluación humana de extremo a extremo sea tan fácil de ejecutar como la evaluación automática. Pearmut elimina las barreras de entrada comunes y ofrece soporte para evaluar tareas multilingües, con un enfoque particular en la traducción automática. La plataforma implementa protocolos de evaluación estándar, como DA, ESA o MQM, pero también es extensible para permitir la creación de prototipos de nuevos protocolos. Incluye contexto a nivel de documento, evaluación absoluta y contrastiva, controles de atención, preanotaciones ESAAI y estrategias de asignación tanto estáticas como basadas en aprendizaje activo. Pearmut permite que la evaluación humana confiable se convierta en un componente práctico y rutinario del desarrollo y diagnóstico de modelos, en lugar de un esfuerzo esporádico.
La Generación Aumentada por Memoria (MAG) extiende los Modelos de Lenguaje a Gran Escala con memoria externa para apoyar el razonamiento de contexto largo, pero los enfoques existentes dependen en gran medida de la similitud semántica sobre almacenes de memoria monolíticos, entrelazando información temporal, causal y de entidades. Este diseño limita la interpretabilidad y la alineación entre la intención de la consulta y la evidencia recuperada, lo que conduce a una precisión de razonamiento subóptima. En este artículo, proponemos MAGMA, una arquitectura de memoria agéntica multigrafo que representa cada elemento de memoria a través de grafos semánticos, temporales, causales y de entidades ortogonales. MAGMA formula la recuperación como un recorrido guiado por políticas sobre estas vistas relacionales, permitiendo una selección adaptable a la consulta y una construcción de contexto estructurado. Al desacoplar la representación de la memoria de la lógica de recuperación, MAGMA proporciona trayectorias de razonamiento transparentes y un control granular sobre la recuperación. Los experimentos en LoCoMo y LongMemEval demuestran que MAGMA supera consistentemente a los sistemas de memoria agéntica más avanzados en tareas de razonamiento de horizonte largo.
Presentamos RGS-SLAM, un marco de trabajo SLAM robusto basado en *splatting* gaussiano que reemplaza la etapa de densificación impulsada por residuos de GS-SLAM con una inicialización de correspondencia-a-Gaussiano que no requiere entrenamiento. En lugar de añadir progresivamente Gaussianos a medida que los residuos revelan geometría faltante, RGS-SLAM realiza una triangulación en una sola pasada de correspondencias densas multi-vista derivadas de descriptores DINOv3, refinadas mediante un clasificador de *inliers* consciente de la confianza. Esto genera una semilla Gaussiana bien distribuida y consciente de la estructura antes de la optimización. Esta inicialización estabiliza el mapeo temprano y acelera la convergencia en aproximadamente un 20%, logrando una mayor fidelidad de renderizado en escenarios ricos en textura y desordenados, manteniendo al mismo tiempo una compatibilidad total con las canalizaciones existentes de GS-SLAM. Evaluado en los conjuntos de datos TUM RGB-D y Replica, RGS-SLAM alcanza una precisión de localización y reconstrucción competitiva o superior en comparación con los sistemas SLAM de vanguardia basados en Gaussianos y puntos, manteniendo un rendimiento de mapeo en tiempo real de hasta 925 FPS.
Los tokenizadores visuales 1D existentes para generación autoregresiva (AR) siguen en gran medida los principios de diseño del modelado del lenguaje, ya que se construyen directamente sobre transformadores cuyos priores se originan en el lenguaje, produciendo tokens latentes de una sola jerarquía y tratando los datos visuales como flujos secuenciales planos de tokens. Sin embargo, esta formulación similar al lenguaje pasa por alto propiedades clave de la visión, particularmente los diseños de redes jerárquicas y residuales que han sido esenciales durante mucho tiempo para la convergencia y eficiencia en modelos visuales. Para devolver la "visión" a la visión, proponemos el Residual Tokenizer (ResTok), un tokenizador visual 1D que construye residuos jerárquicos tanto para tokens de imagen como para tokens latentes. Las representaciones jerárquicas obtenidas mediante fusión progresiva permiten la fusión de características cruzadas en cada capa, mejorando sustancialmente la capacidad de representación. Mientras tanto, los residuos semánticos entre jerarquías evitan la superposición de información, produciendo distribuciones latentes más concentradas que son más fáciles de modelar de forma AR. En consecuencia, emergen enlaces cruzados sin ninguna restricción explícita. Para acelerar el proceso de generación, introducimos además un generador AR jerárquico que reduce sustancialmente los pasos de muestreo al predecir un nivel completo de tokens latentes de una vez, en lugar de generarlos estrictamente token por token. Experimentos exhaustivos demuestran que restaurar los priores residuales jerárquicos en la tokenización visual mejora significativamente la generación de imágenes AR, logrando un gFID de 2.34 en ImageNet-256 con solo 9 pasos de muestreo. El código está disponible en https://github.com/Kwai-Kolors/ResTok.
Presentamos Gen3R, un método que conecta los fuertes *priors* de los modelos fundacionales de reconstrucción y los modelos de difusión de vídeo para la generación 3D a nivel de escena. Reutilizamos el modelo de reconstrucción VGGT para producir latentes geométricos entrenando un adaptador sobre sus *tokens*, los cuales se regularizan para alinearse con los latentes de apariencia de modelos de difusión de vídeo preentrenados. Al generar conjuntamente estos latentes disentanglados pero alineados, Gen3R produce tanto vídeos RGB como la geometría 3D correspondiente, incluyendo poses de cámara, mapas de profundidad y nubes de puntos globales. Los experimentos demuestran que nuestro enfoque logra resultados de vanguardia en la generación de escenas 3D condicionada por una única imagen y por múltiples imágenes. Adicionalmente, nuestro método puede mejorar la robustez de la reconstrucción aprovechando *priors* generativos, lo que demula el beneficio mutuo de un acoplamiento estrecho entre modelos de reconstrucción y generativos.