Artículos de investigación en IA seleccionados diariamente con traducciones
Un objetivo a largo plazo de los agentes de lenguaje es aprender y mejorar a través de su propia experiencia, superando eventualmente a los humanos en tareas complejas del mundo real. Sin embargo, entrenar agentes a partir de datos de experiencia con aprendizaje por refuerzo sigue siendo difícil en muchos entornos, ya sea porque carecen de recompensas verificables (por ejemplo, sitios web) o porque requieren despliegues ineficientes a largo plazo (por ejemplo, el uso de herramientas en múltiples turnos). Como resultado, la mayoría de los agentes actuales dependen del ajuste fino supervisado con datos de expertos, lo cual es difícil de escalar y generaliza de manera deficiente. Esta limitación surge de la naturaleza de las demostraciones de expertos: capturan solo un rango estrecho de escenarios y exponen al agente a una diversidad limitada del entorno. Abordamos esta limitación con un paradigma intermedio que llamamos experiencia temprana: datos de interacción generados por las propias acciones del agente, donde los estados futuros resultantes sirven como supervisión sin señales de recompensa. Dentro de este paradigma, estudiamos dos estrategias para utilizar dichos datos: (1) Modelado implícito del mundo, que utiliza los estados recopilados para fundamentar la política en la dinámica del entorno; y (2) Autorreflexión, donde el agente aprende de sus acciones subóptimas para mejorar el razonamiento y la toma de decisiones. Evaluamos en ocho entornos diversos y múltiples familias de modelos. Nuestros enfoques mejoran consistentemente la efectividad y la generalización fuera del dominio, destacando el valor de la experiencia temprana. Además, en entornos con recompensas verificables, nuestros resultados proporcionan señales prometedoras de que la experiencia temprana ofrece una base sólida para el aprendizaje por refuerzo posterior, posicionándola como un puente práctico entre el aprendizaje por imitación y los agentes completamente impulsados por la experiencia.
Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) actuales han demostrado competencia en tareas de razonamiento como matemáticas y lógica, su capacidad para el razonamiento reflexivo de cadena larga, un requisito previo para resolver problemas complejos del mundo real, sigue siendo en gran medida inexplorada. En este trabajo, primero llevamos a cabo una investigación empírica extensa para evaluar esta capacidad. Aprovechando un motor de síntesis de datos cuidadosamente diseñado, construimos MM-HELIX, un punto de referencia multimodal que consta de 1,260 muestras de 42 tareas sintéticas desafiantes que requieren pensamiento iterativo y retroceso. Los resultados empíricos en este punto de referencia revelan que los MLLMs existentes muestran déficits significativos en el razonamiento reflexivo de cadena larga. Para abordar esta limitación, generamos datos de post-entrenamiento y exploramos paradigmas de aprendizaje para aprovechar dichos datos. Primero desarrollamos la pipeline de Generación de Respuestas Inducidas por Pasos para crear MM-HELIX-100K, un conjunto de datos a gran escala de 100k trazas de razonamiento reflexivo de alta calidad para la etapa de ajuste de instrucciones. Dado que el Aprendizaje por Refuerzo estándar falla en tareas complejas debido a señales de recompensa dispersas y olvido catastrófico después del Ajuste Fino Supervisado, proponemos la Optimización de Política Híbrida Adaptativa (AHPO), una estrategia de entrenamiento novedosa que unifica dinámicamente la supervisión fuera de línea y la optimización en línea en una sola etapa. Esta estrategia permite que el modelo aprenda de datos expertos cuando las recompensas son escasas y realice exploración independiente una vez que sea competente. Cuando se aplica a la línea base Qwen2.5-VL-7B, nuestro método logra una mejora de precisión del +18.6\% en el punto de referencia MM-HELIX y demuestra una fuerte generalización con una ganancia promedio de rendimiento del +5.7\% en tareas generales de matemáticas y lógica. Nuestro trabajo demuestra que el razonamiento reflexivo en MLLMs puede aprenderse y generalizarse efectivamente, allanando el camino para el desarrollo de MLLMs más capaces.
Con el crecimiento explosivo de los datos, el modelado de secuencias largas se ha vuelto cada vez más importante en tareas como el procesamiento del lenguaje natural y la bioinformática. Sin embargo, los métodos existentes enfrentan compensaciones inherentes entre eficiencia y memoria. Las redes neuronales recurrentes sufren de desvanecimiento y explosión del gradiente, lo que dificulta su escalabilidad. Los Transformers pueden modelar dependencias globales pero están limitados por su complejidad cuadrática. Recientemente, los modelos de espacio de estados selectivos como Mamba han demostrado alta eficiencia con complejidad temporal O(n) e inferencia recurrente O(1), aunque su memoria de largo alcance decae exponencialmente. En este trabajo, realizamos derivaciones matemáticas y análisis teórico de la información para descubrir sistemáticamente el mecanismo de decaimiento de memoria de Mamba, respondiendo a una pregunta fundamental: ¿cuál es la naturaleza de la memoria de largo alcance de Mamba y cómo retiene la información? Para cuantificar la pérdida de información clave, introducimos métricas de fidelidad de memoria horizontal-vertical que capturan la degradación tanto dentro como entre capas. Inspirados por cómo los humanos destilan y retienen información relevante al leer documentos extensos, proponemos MemMamba, un marco arquitectónico novedoso que integra un mecanismo de resumen de estados junto con atención entre capas y entre tokens, lo que mitiga el olvido de largo alcance mientras preserva la complejidad lineal. MemMamba logra mejoras significativas sobre las variantes existentes de Mamba y Transformers en benchmarks de secuencias largas como PG19 y Passkey Retrieval, además de ofrecer un aumento del 48% en la eficiencia de inferencia. Tanto el análisis teórico como los resultados empíricos demuestran que MemMamba alcanza un avance en la compensación complejidad-memoria, ofreciendo un nuevo paradigma para el modelado de secuencias ultralargas.
Los modelos multimodales unificados han mostrado resultados prometedores en la generación y edición de contenido multimodal, pero siguen estando mayormente limitados al dominio de las imágenes. En este trabajo, presentamos UniVideo, un marco versátil que extiende el modelado unificado al dominio del video. UniVideo adopta un diseño de doble flujo, combinando un Modelo de Lenguaje Multimodal de Gran Escala (MLLM, por sus siglas en inglés) para la comprensión de instrucciones con un DiT Multimodal (MMDiT) para la generación de videos. Este diseño permite una interpretación precisa de instrucciones multimodales complejas mientras se preserva la consistencia visual. Basado en esta arquitectura, UniVideo unifica diversas tareas de generación y edición de videos bajo un único paradigma de instrucción multimodal y es entrenado conjuntamente en ellas. Experimentos exhaustivos demuestran que UniVideo iguala o supera los modelos de referencia específicos para tareas en generación de texto/imagen a video, generación de video en contexto y edición de video en contexto. Notablemente, el diseño unificado de UniVideo permite dos formas de generalización. Primero, UniVideo admite la composición de tareas, como combinar la edición con la transferencia de estilo, al integrar múltiples capacidades dentro de una única instrucción. Segundo, incluso sin entrenamiento explícito en edición de video de forma libre, UniVideo transfiere su capacidad de edición desde datos de edición de imágenes a gran escala a este escenario, manejando instrucciones no vistas, como la extracción de personajes con pantalla verde o el cambio de materiales dentro de un video. Más allá de estas capacidades principales, UniVideo también admite la generación de videos basada en indicaciones visuales, donde el MLLM interpreta las indicaciones visuales y guía al MMDiT durante la síntesis. Para fomentar futuras investigaciones, liberaremos nuestro modelo y código.
Introducimos la tarea de completado espacio-temporal arbitrario de videos, donde se genera un video a partir de parches especificados por el usuario en cualquier ubicación espacial y marca temporal, similar a pintar sobre un lienzo de video. Esta formulación flexible unifica naturalmente muchas tareas existentes de generación de video controlable—incluyendo la generación de video a partir de una primera imagen, la restauración, la extensión y la interpolación—bajo un paradigma único y cohesivo. Sin embargo, materializar esta visión enfrenta un obstáculo fundamental en los modelos modernos de difusión de video latente: la ambigüedad temporal introducida por los VAEs causales, donde múltiples fotogramas de píxeles se comprimen en una única representación latente, dificultando estructuralmente el condicionamiento preciso a nivel de fotograma. Abordamos este desafío con VideoCanvas, un marco novedoso que adapta el paradigma de Condicionamiento en Contexto (ICC) a esta tarea de control de grano fino sin necesidad de nuevos parámetros. Proponemos una estrategia de condicionamiento híbrida que desacopla el control espacial y temporal: la colocación espacial se maneja mediante relleno de ceros, mientras que la alineación temporal se logra a través de la Interpolación Temporal RoPE, que asigna a cada condición una posición fraccional continua dentro de la secuencia latente. Esto resuelve la ambigüedad temporal del VAE y permite un control consciente de los fotogramas de píxeles en una arquitectura congelada. Para evaluar esta nueva capacidad, desarrollamos VideoCanvasBench, el primer punto de referencia para el completado espacio-temporal arbitrario de videos, cubriendo tanto la fidelidad intraescena como la creatividad interescena. Los experimentos demuestran que VideoCanvas supera significativamente los paradigmas de condicionamiento existentes, estableciendo un nuevo estado del arte en la generación de video flexible y unificada.
La recomendación de reacciones químicas consiste en seleccionar los parámetros adecuados de las condiciones de reacción, lo cual es fundamental para acelerar el avance de la ciencia química. Con el rápido desarrollo de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), existe un creciente interés en aprovechar sus capacidades de razonamiento y planificación para la recomendación de condiciones de reacción. A pesar de sus éxitos, los métodos existentes rara vez explican el razonamiento detrás de las condiciones de reacción recomendadas, lo que limita su utilidad en flujos de trabajo científicos de alto impacto. En este trabajo, proponemos ChemMAS, un sistema multiagente que reformula la predicción de condiciones como una tarea de razonamiento basada en evidencia. ChemMAS descompone la tarea en fundamentación mecanística, recuperación multicanal, debate agente consciente de restricciones y agregación de razonamientos. Cada decisión está respaldada por justificaciones interpretables basadas en conocimiento químico y precedentes recuperados. Los experimentos muestran que ChemMAS logra mejoras del 20-35 % sobre líneas base específicas del dominio y supera a los LLMs de propósito general en un 10-15 % en precisión Top-1, al mismo tiempo que ofrece razonamientos falsificables y confiables para los humanos, estableciendo así un nuevo paradigma para la IA explicable en el descubrimiento científico.
Los modelos de lenguaje de contexto largo recientes (LCLMs, por sus siglas en inglés) pueden procesar cientos de miles de tokens en una sola instrucción, lo que abre nuevas oportunidades para el razonamiento multi-hop intensivo en conocimiento al integrar grandes conjuntos de documentos recuperados o, en algunos casos, directamente toda la información necesaria. Sin embargo, simplemente alimentar más documentos en la ventana de contexto no logra capturar cómo deberían conectarse las evidencias. Abordamos esta brecha con plantillas de pensamiento, que reformulan el razonamiento como cachés de pensamiento reutilizables, derivados de trazas previas de resolución de problemas, estructurando cómo se combinan las evidencias y guiando la inferencia multi-hop con documentos factuales. Para mantener efectivas estas plantillas, proponemos una estrategia de actualización que refina iterativamente las plantillas derivadas de datos de entrenamiento a través de retroalimentación en lenguaje natural. En diversos benchmarks y familias de LCLMs, nuestro enfoque ofrece mejoras consistentes sobre líneas base sólidas tanto en entornos basados en recuperación como libres de recuperación. Además, demostramos que las plantillas optimizadas pueden destilarse en modelos de código abierto más pequeños, evidenciando su amplia aplicabilidad y la reutilización transparente del razonamiento. Nos referimos a nuestro marco como LCLMs Aumentados con Plantillas de Pensamiento (ToTAL, por sus siglas en inglés).
Estudios recientes sobre modelos de razonamiento exploran la meta-conciencia de los modelos de lenguaje, es decir, la capacidad de saber cómo pensar por sí mismos. Argumentamos que los modelos de razonamiento a gran escala carecen de esta propiedad de meta-conciencia al demostrar una grave desalineación entre las ejecuciones reales y la información meta predicha. Postulamos que alinear la predicción meta con las ejecuciones reales conducirá a mejoras significativas en el rendimiento. Para verificar esta hipótesis, diseñamos un pipeline de entrenamiento que potencia la Meta-Conciencia mediante Auto-Alineación (MASA), y demostramos que una mayor meta-conciencia se traduce directamente en una mayor precisión. A diferencia de los modelos de razonamiento meta-cognitivos existentes, nuestro método no requiere fuentes de entrenamiento externas, sino que aprovecha señales auto-generadas para entrenar la meta-conciencia. Además, nuestro método permite un entrenamiento eficiente al i) filtrar indicaciones de varianza cero que son triviales o irresolubles y ii) cortar ejecuciones largas cuando es poco probable que lleven a respuestas correctas. Los resultados son alentadores: nuestra estrategia produce mejoras significativas tanto en precisión como en eficiencia de entrenamiento en tareas dentro del dominio y muestra una fuerte generalización en benchmarks fuera del dominio. Más específicamente, nuestro método puede acelerar el entrenamiento de GRPO en más de 1.28x para alcanzar el mismo rendimiento, y lograr una mejora del 19.3% en precisión en AIME25, y una mejora promedio del 6.2% en seis benchmarks de matemáticas. El entrenamiento con guía meta-cognitiva mejora la generalización fuera del dominio, obteniendo un aumento del 3.87% en GPQA-Diamond y una mejora general del 2.08% en precisión en 13 benchmarks que abarcan dominios lógicos, científicos y de codificación.
Aprovechar el poder de los LLM requiere un delicado equilibrio entre ser útil e inofensivo. Esto crea una tensión fundamental entre dos desafíos competidores: la vulnerabilidad a ataques adversarios que generan contenido inseguro y la tendencia a rechazar en exceso indicaciones benignas pero sensibles. Los enfoques actuales suelen manejar este equilibrio mediante modelos de seguridad que rechazan por completo cualquier contenido que contenga partes inseguras. Este enfoque corta la música por completo: puede exacerbar los rechazos excesivos y no proporciona orientación matizada para las consultas que rechaza. Para enseñar a los modelos una coreografía más coordinada, proponemos WaltzRL, un novedoso marco de aprendizaje por refuerzo multiagente que formula la alineación de seguridad como un juego colaborativo de suma positiva. WaltzRL entrena conjuntamente un agente de conversación y un agente de retroalimentación, donde este último recibe incentivos para proporcionar sugerencias útiles que mejoren la seguridad y utilidad de las respuestas del agente de conversación. En el núcleo de WaltzRL se encuentra una Recompensa de Mejora Dinámica (DIR) que evoluciona con el tiempo según cómo el agente de conversación incorpora la retroalimentación. Durante la inferencia, las respuestas inseguras o que rechazan en exceso del agente de conversación se mejoran en lugar de descartarse. El agente de retroalimentación se despliega junto con el agente de conversación y solo interviene de manera adaptativa cuando es necesario, preservando la utilidad y la baja latencia en consultas seguras. Nuestros experimentos, realizados en cinco conjuntos de datos diversos, demuestran que WaltzRL reduce significativamente tanto las respuestas inseguras (por ejemplo, del 39.0% al 4.6% en WildJailbreak) como los rechazos excesivos (del 45.3% al 9.9% en OR-Bench) en comparación con varios baselines. Al permitir que los agentes de conversación y retroalimentación co-evolucionen y apliquen retroalimentación de manera adaptativa, WaltzRL mejora la seguridad de los LLM sin degradar sus capacidades generales, avanzando así en el frente de Pareto entre utilidad e inofensividad.
Los avances recientes en la edición de imágenes basada en instrucciones y la generación impulsada por sujetos han captado una atención significativa, aunque ambas tareas aún enfrentan limitaciones para satisfacer las necesidades prácticas de los usuarios. La edición basada en instrucciones depende únicamente de instrucciones lingüísticas, que a menudo no logran capturar detalles específicos de la edición, lo que hace necesarias imágenes de referencia. Mientras tanto, la generación impulsada por sujetos se limita a combinar objetos o personas concretos, pasando por alto conceptos más amplios y abstractos. Para abordar estos desafíos, proponemos dos nuevas tareas: la edición y generación multimodal basada en instrucciones. Estas tareas admiten tanto instrucciones de texto como de imagen y amplían su alcance para incluir conceptos tanto concretos como abstractos, mejorando significativamente sus aplicaciones prácticas. Presentamos DreamOmni2, que aborda dos desafíos principales: la creación de datos y el diseño del marco del modelo. Nuestra canalización de síntesis de datos consta de tres pasos: (1) utilizar un método de mezcla de características para crear datos de extracción tanto para conceptos abstractos como concretos, (2) generar datos de entrenamiento para la edición multimodal basada en instrucciones utilizando modelos de edición y extracción, y (3) aplicar adicionalmente el modelo de extracción para crear datos de entrenamiento para la edición multimodal basada en instrucciones. Para el marco, con el fin de manejar la entrada de múltiples imágenes, proponemos un esquema de codificación de índice y desplazamiento de codificación de posición, que ayuda al modelo a distinguir las imágenes y evitar la confusión de píxeles. Además, introducimos un entrenamiento conjunto con el VLM y nuestro modelo de generación/edición para procesar mejor instrucciones complejas. Además, hemos propuesto puntos de referencia integrales para estas dos nuevas tareas para impulsar su desarrollo. Los experimentos muestran que DreamOmni2 ha logrado resultados impresionantes. Los modelos y códigos serán publicados.
Los modelos de lenguaje de gran escala están surgiendo como herramientas poderosas para el descubrimiento de leyes científicas, un desafío fundamental en la ciencia impulsada por la inteligencia artificial. Sin embargo, los puntos de referencia existentes para esta tarea enfrentan un trilema metodológico fundamental, forzando una compensación entre relevancia científica, escalabilidad y resistencia a la memorización. Además, simplifican en exceso el descubrimiento como un ajuste estático de funciones, sin capturar el proceso científico auténtico de revelar leyes subyacentes a través de la exploración interactiva de sistemas de modelos complejos. Para abordar estas brechas críticas, presentamos NewtonBench, un punto de referencia que comprende 324 tareas de descubrimiento de leyes científicas en 12 dominios de la física. Nuestro diseño mitiga el trilema de evaluación mediante el uso de cambios metafísicos —alteraciones sistemáticas de leyes canónicas— para generar un amplio conjunto de problemas que son escalables, científicamente relevantes y resistentes a la memorización. Además, elevamos la evaluación desde el ajuste estático de funciones al descubrimiento interactivo de modelos, requiriendo que los agentes exploren experimentalmente sistemas complejos simulados para descubrir principios ocultos. Nuestro extenso experimento revela una capacidad clara pero frágil para el descubrimiento en los modelos de lenguaje de última generación: esta habilidad se degrada abruptamente con el aumento de la complejidad del sistema y muestra una extrema sensibilidad al ruido observacional. Notablemente, descubrimos un efecto paradójico de la asistencia con herramientas: proporcionar un intérprete de código puede obstaculizar a los modelos más capaces al inducir un cambio prematuro de la exploración a la explotación, llevándolos a conformarse con soluciones subóptimas. Estos resultados demuestran que el descubrimiento robusto y generalizable en entornos complejos e interactivos sigue siendo el desafío central. Al ofrecer un banco de pruebas escalable, robusto y científicamente auténtico, NewtonBench proporciona una herramienta crucial para medir el progreso real y guiar el desarrollo de agentes de IA de próxima generación capaces de un descubrimiento científico genuino.
El entrenamiento posterior para el razonamiento de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) depende cada vez más de recompensas verificables: verificadores deterministas que proporcionan señales de corrección binarias (0-1). Aunque confiables, este tipo de retroalimentación binaria es frágil: muchas tareas admiten respuestas parcialmente correctas o alternativas que los verificadores subestiman, y la supervisión de todo o nada resultante limita el aprendizaje. Los modelos de recompensa ofrecen una retroalimentación más rica y continua, que puede servir como una señal de supervisión complementaria a los verificadores. Presentamos HERO (Optimización Híbrida de Recompensas por Ensamblaje), un marco de aprendizaje por refuerzo que integra las señales de los verificadores con las puntuaciones de los modelos de recompensa de manera estructurada. HERO emplea normalización estratificada para acotar las puntuaciones de los modelos de recompensa dentro de grupos definidos por los verificadores, preservando la corrección mientras refina las distinciones de calidad, y ponderación consciente de la varianza para enfatizar las indicaciones desafiantes donde las señales densas son más importantes. En diversos puntos de referencia de razonamiento matemático, HERO supera consistentemente las líneas base que utilizan solo modelos de recompensa o solo verificadores, con ganancias significativas tanto en tareas verificables como en aquellas difíciles de verificar. Nuestros resultados muestran que el diseño híbrido de recompensas mantiene la estabilidad de los verificadores mientras aprovecha la sutileza de los modelos de recompensa para avanzar en el razonamiento.
La reconstrucción 3D en tiempo real a partir de secuencias de imágenes monoculares es un desafío de larga data en visión por computadora, crucial para aplicaciones como real-to-sim, realidad aumentada/virtual (AR/VR) y robótica. Los métodos existentes enfrentan un importante dilema: la optimización por escena ofrece alta fidelidad pero es computacionalmente costosa, mientras que los modelos de base de inferencia directa permiten inferencia en tiempo real pero luchan con la precisión y robustez. En este trabajo, proponemos ARTDECO, un marco unificado que combina la eficiencia de los modelos de inferencia directa con la confiabilidad de las tuberías basadas en SLAM. ARTDECO utiliza modelos de base 3D para la estimación de pose y predicción de puntos, junto con un decodificador Gaussiano que transforma características multi-escala en Gaussianos 3D estructurados. Para mantener tanto la fidelidad como la eficiencia a gran escala, diseñamos una representación Gaussiana jerárquica con una estrategia de renderizado consciente del nivel de detalle (LoD), que mejora la fidelidad de renderizado mientras reduce la redundancia. Los experimentos en ocho benchmarks diversos de interiores y exteriores muestran que ARTDECO ofrece un rendimiento interactivo comparable al SLAM, una robustez similar a los sistemas de inferencia directa y una calidad de reconstrucción cercana a la optimización por escena, proporcionando un camino práctico hacia la digitalización en tiempo real de entornos del mundo real con geometría precisa y alta fidelidad visual. Explora más demostraciones en nuestra página del proyecto: https://city-super.github.io/artdeco/.
Los avances recientes en los agentes de Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) han demostrado sus prometedoras capacidades generales. Sin embargo, su rendimiento en dominios especializados del mundo real a menudo se ve afectado debido a los desafíos en la integración efectiva de herramientas externas y estrategias específicas de *prompting*. Aunque se han propuesto métodos como el aprendizaje por refuerzo agentico para abordar este problema, estos suelen depender de actualizaciones de parámetros costosas, por ejemplo, mediante un proceso que utiliza Ajuste Supervisado (SFT, por sus siglas en inglés) seguido de una fase de Aprendizaje por Refuerzo (RL, por sus siglas en inglés) con Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) para alterar la distribución de salida. Sin embargo, argumentamos que los LLM pueden lograr un efecto similar en la distribución de salida al aprender conocimiento experiencial como un *prior* de tokens, un enfoque mucho más ligero que no solo aborda la escasez práctica de datos, sino que también evita el problema común de sobreajuste. Con este fin, proponemos la Optimización de Política Relativa de Grupo sin Entrenamiento (Training-Free GRPO), una solución rentable que mejora el rendimiento de los agentes LLM sin actualizaciones de parámetros. Nuestro método aprovecha la ventaja semántica relativa de grupo en lugar de las numéricas dentro de cada grupo de *rollouts*, destilando iterativamente conocimiento experiencial de alta calidad durante el aprendizaje multi-época en un conjunto mínimo de datos de referencia. Dicho conocimiento sirve como el *prior* de tokens aprendido, que se integra sin problemas durante las llamadas a la API del LLM para guiar el comportamiento del modelo. Los experimentos en tareas de razonamiento matemático y búsqueda web demuestran que Training-Free GRPO, cuando se aplica a DeepSeek-V3.1-Terminus, mejora significativamente el rendimiento fuera del dominio. Con solo unas pocas decenas de muestras de entrenamiento, Training-Free GRPO supera a los LLM pequeños ajustados con datos y costos de entrenamiento marginales.
El escalado paralelo ha surgido como un paradigma poderoso para mejorar las capacidades de razonamiento en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) mediante la generación simultánea de múltiples trazas de Cadena de Pensamiento (CoT, por sus siglas en inglés). Sin embargo, este enfoque introduce una ineficiencia computacional significativa debido a la redundancia entre trazas: nuestro análisis revela que más del 80% de las trazas de razonamiento paralelo producen respuestas finales idénticas, lo que representa un desperdicio sustancial de cálculo. Para abordar este cuello de botella crítico en la eficiencia, proponemos DeepPrune, un marco novedoso que permite un escalado paralelo eficiente mediante la poda dinámica. Nuestro método incluye un modelo juez especializado entrenado con pérdida focal y técnicas de sobremuestreo para predecir con precisión la equivalencia de respuestas a partir de trazas parciales de razonamiento, logrando un AUROC de 0.87 en la predicción de equivalencia, combinado con un algoritmo de agrupamiento voraz en línea que poda dinámicamente las rutas redundantes mientras preserva la diversidad de respuestas. Evaluaciones exhaustivas en tres conjuntos de referencia desafiantes (AIME 2024, AIME 2025 y GPQA) y múltiples modelos de razonamiento demuestran que DeepPrune logra una reducción notable de tokens, superando el 80% en comparación con el muestreo de consenso convencional en la mayoría de los casos, manteniendo una precisión competitiva dentro de un margen de 3 puntos porcentuales. Nuestro trabajo establece un nuevo estándar para el razonamiento paralelo eficiente, haciendo que el razonamiento de alto rendimiento sea más eficiente. Nuestro código y datos están disponibles aquí: https://deepprune.github.io/.
Los modelos de lenguaje de gran escala han demostrado recientemente avances significativos en la capacidad de razonamiento, atribuidos frecuentemente a su habilidad para generar cadenas de pensamiento más largas y participar en razonamientos reflexivos. Sin embargo, la contribución de las reflexiones a la mejora del rendimiento sigue siendo poco clara. En este artículo, analizamos sistemáticamente las ejecuciones de ocho modelos de razonamiento en cinco conjuntos de datos matemáticos. Nos enfocamos en comportamientos reflexivos en los que el modelo ya ha producido una respuesta pero continúa reflexionando antes de finalizar su salida. Nuestro análisis revela que las reflexiones son predominantemente confirmatorias y rara vez alteran la respuesta inicial del modelo, un patrón consistente en todos los modelos y conjuntos de datos. Para comprender el papel de las reflexiones en el entrenamiento, construimos conjuntos de datos de ajuste fino supervisado (SFT) con cantidades variables de pasos de reflexión. Observamos que entrenar modelos en ejecuciones con más pasos de reflexión mejora principalmente la corrección de la primera respuesta, en lugar de la capacidad de corregir respuestas inicialmente incorrectas a través de reflexiones. Esto nos motiva a proponer un método de detención temprana consciente de la pregunta que mejora la eficiencia de tokens en tiempo de inferencia al detener el proceso de razonamiento una vez que se generan algunas respuestas candidatas plausibles, reduciendo así los pasos de reflexión innecesarios. Motivados por esto, proponemos además truncar dinámicamente las reflexiones después de que aparezca una respuesta candidata durante la generación, lo que reduce los tokens de razonamiento en un 24.5% en cinco conjuntos de datos matemáticos, con una caída de precisión de solo el 2.9%.
Investigaciones previas han demostrado que los LLMs ajustados mediante fine-tuning en completaciones maliciosas o incorrectas dentro de dominios específicos (por ejemplo, código inseguro o consejos médicos erróneos) pueden desalinearse ampliamente y exhibir comportamientos dañinos, un fenómeno conocido como desalineación emergente. En este trabajo, investigamos si este fenómeno puede extenderse más allá de los comportamientos de seguridad a un espectro más amplio de deshonestidad y engaño en escenarios de alto riesgo (por ejemplo, mentir bajo presión y comportamiento engañoso). Para explorar esto, ajustamos mediante fine-tuning LLMs de código abierto en completaciones desalineadas en diversos dominios. Los resultados experimentales demuestran que los LLMs muestran un comportamiento ampliamente desalineado en términos de deshonestidad. Además, exploramos este fenómeno en un entorno de fine-tuning combinado en tareas posteriores, y encontramos que introducir tan solo un 1% de datos desalineados en una tarea estándar posterior es suficiente para reducir el comportamiento honesto en más de un 20%. Asimismo, consideramos un entorno más práctico de interacción humano-IA, donde simulamos tanto usuarios benignos como sesgados que interactúan con el LLM asistente. Notablemente, encontramos que el asistente puede desalinearse involuntariamente, exacerbando su deshonestidad con solo un 10% de población de usuarios sesgados. En resumen, extendemos el estudio de la desalineación emergente al dominio de la deshonestidad y el engaño en escenarios de alto riesgo, y demostramos que este riesgo surge no solo a través del fine-tuning directo, sino también en tareas mixtas posteriores y en interacciones prácticas entre humanos e IA.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha impulsado a los Modelos de Lenguaje de Gran Escala en el razonamiento complejo, pero su escalabilidad a menudo se ve obstaculizada por un cuello de botella en el entrenamiento, donde el rendimiento se estanca a medida que la entropía de la política colapsa, lo que indica una pérdida de exploración. Los métodos anteriores suelen abordar esto manteniendo una alta entropía de la política, pero los mecanismos precisos que gobiernan una exploración significativa han sido poco explorados. Nuestro análisis sugiere que un enfoque no selectivo en la entropía corre el riesgo de amplificar tokens irrelevantes y desestabilizar el entrenamiento. Este artículo investiga la dinámica de exploración dentro de RLVR e identifica un problema clave: la eliminación gradual de tokens exploratorios de baja probabilidad pero valiosos, a los que denominamos \textit{chispas de razonamiento}. Descubrimos que, aunque abundan en los modelos preentrenados, estas chispas se extinguen sistemáticamente durante RLVR debido a una sobrepenalización, lo que lleva a una degeneración en la exploración. Para abordar esto, introducimos la Regularización de Baja Probabilidad (Lp-Reg). Su mecanismo central regulariza la política hacia una distribución heurística proxy. Este proxy se construye filtrando los tokens que se presume son ruido y renormalizando la distribución sobre los candidatos restantes. El resultado es un proxy menos ruidoso donde la probabilidad de las chispas de razonamiento se amplifica, lo que luego sirve como un objetivo de regularización suave para proteger estos tokens valiosos de la eliminación mediante la divergencia de KL. Los experimentos muestran que Lp-Reg permite un entrenamiento estable en política durante alrededor de 1,000 pasos, un régimen en el que los métodos de control de entropía de referencia colapsan. Esta exploración sostenida conduce a un rendimiento de vanguardia, logrando una precisión promedio del 60.17% en cinco benchmarks matemáticos, una mejora del 2.66% sobre los métodos anteriores. El código está disponible en https://github.com/CarlanLark/Lp-Reg.
La superresolución de video en cascada ha surgido como una técnica prometedora para desacoplar la carga computacional asociada con la generación de videos de alta resolución utilizando modelos base de gran escala. Sin embargo, los estudios existentes se limitan principalmente a tareas de texto a video y no aprovechan condiciones generativas adicionales más allá del texto, las cuales son cruciales para garantizar la fidelidad en la generación de video multimodal. Abordamos esta limitación presentando UniMMVSR, el primer marco unificado de superresolución de video generativo que incorpora condiciones híbridas, incluyendo texto, imágenes y videos. Realizamos una exploración exhaustiva de estrategias de inyección de condiciones, esquemas de entrenamiento y técnicas de mezcla de datos dentro de un modelo de difusión de video latente. Un desafío clave fue diseñar métodos distintos de construcción de datos y utilización de condiciones para permitir que el modelo utilice con precisión todos los tipos de condiciones, dada su variada correlación con el video objetivo. Nuestros experimentos demuestran que UniMMVSR supera significativamente a los métodos existentes, produciendo videos con detalles superiores y un mayor grado de conformidad con las condiciones multimodales. También validamos la viabilidad de combinar UniMMVSR con un modelo base para lograr la generación guiada multimodal de video en 4K, un logro previamente inalcanzable con las técnicas existentes.
El entrenamiento composicional ha sido el paradigma de facto en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) existentes, donde los codificadores visuales preentrenados se conectan con los MLLMs preentrenados a través de un preentrenamiento multimodal continuo. Sin embargo, la propiedad de escalabilidad multimodal de este paradigma sigue siendo difícil de explorar debido al entrenamiento separado. En este artículo, nos centramos en el entrenamiento nativo de los MLLMs de manera integral y estudiamos sistemáticamente su espacio de diseño y propiedad de escalabilidad en un entorno práctico, es decir, bajo restricciones de datos. A través de un estudio cuidadoso de diversas opciones en los MLLMs, obtenemos la meta-arquitectura óptima que mejor equilibra el rendimiento y el costo de entrenamiento. Posteriormente, exploramos las propiedades de escalabilidad del MLLM nativo e indicamos la relación de escalabilidad positivamente correlacionada entre los codificadores visuales y los MLLMs. Con base en estos hallazgos, proponemos un MLLM nativo llamado NaViL, combinado con una receta simple y rentable. Los resultados experimentales en 14 benchmarks multimodales confirman el rendimiento competitivo de NaViL frente a los MLLMs existentes. Además, nuestros hallazgos y resultados proporcionan perspectivas profundas para el estudio futuro de los MLLMs nativos.
La auto-evolución es un tema central de investigación para permitir que los agentes basados en modelos de lenguaje grande (LLM) mejoren continuamente sus capacidades después del preentrenamiento. Investigaciones recientes han observado una transición de métodos libres de aprendizaje por refuerzo (RL) a métodos basados en RL. Los métodos actuales basados en RL dependen de señales de recompensa externas densas o extraen señales de recompensa intrínsecas de los propios LLM. Sin embargo, estos enfoques divergen de los mecanismos de auto-evolución observados en la inteligencia humana, donde los individuos aprenden y mejoran a través de la discusión y colaboración mutua. En este trabajo, presentamos Sistemas Multi-Agente Co-Evolutivos (CoMAS), un marco novedoso que permite a los agentes mejorar de manera autónoma aprendiendo de las interacciones entre agentes sin supervisión externa. CoMAS genera recompensas intrínsecas a partir de dinámicas de discusión ricas, emplea un mecanismo de LLM-como-juez para formular estas recompensas y optimiza la política de cada agente mediante RL, permitiendo así una co-evolución descentralizada y escalable. Los resultados experimentales demuestran que CoMAS supera consistentemente a los agentes no entrenados y logra un rendimiento de vanguardia en la mayoría de los escenarios de evaluación. Los estudios de ablación confirman la necesidad de señales de recompensa basadas en la interacción y revelan una escalabilidad prometedora a medida que aumenta el número y la diversidad de agentes. Estos hallazgos establecen a CoMAS como un paradigma novedoso y efectivo para la auto-evolución en agentes basados en LLM.
Abordamos la tarea de transferencia de estilo en videos con modelos de difusión, donde el objetivo es preservar el contexto de un video de entrada mientras se renderiza en un estilo objetivo especificado por un texto descriptivo. Un desafío importante es la falta de datos de video emparejados para supervisión. Proponemos PickStyle, un marco de transferencia de estilo de video a video que mejora modelos de difusión de video preentrenados con adaptadores de estilo y se beneficia de datos de imágenes estáticas emparejadas con correspondencias de estilo fuente para el entrenamiento. PickStyle inserta adaptadores de bajo rango en las capas de autoatención de los módulos de condicionamiento, permitiendo una especialización eficiente para la transferencia de estilo de movimiento mientras se mantiene una alineación sólida entre el contenido del video y el estilo. Para cerrar la brecha entre la supervisión de imágenes estáticas y el video dinámico, construimos clips de entrenamiento sintéticos a partir de imágenes emparejadas aplicando aumentaciones compartidas que simulan el movimiento de la cámara, asegurando que se preserven los priores temporales. Además, introducimos la Guía Libre de Clasificador de Contexto-Estilo (CS-CFG, por sus siglas en inglés), una factorización novedosa de la guía libre de clasificador en direcciones independientes de texto (estilo) y video (contexto). CS-CFG asegura que el contexto se preserve en el video generado mientras el estilo se transfiere de manera efectiva. Los experimentos en diversos benchmarks muestran que nuestro enfoque logra traducciones de video temporalmente coherentes, fieles al estilo y que preservan el contenido, superando cualitativa y cuantitativamente a las líneas base existentes.
Con los recientes avances en los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs, por sus siglas en inglés), que muestran una sólida comprensión y razonamiento visual, está creciendo el interés en utilizarlos para mejorar el rendimiento de edición de los modelos de difusión. A pesar del rápido progreso, la mayoría de los estudios carecen de un análisis en profundidad sobre las decisiones de diseño de los MLLMs. Además, la integración de los MLLMs con los modelos de difusión sigue siendo un desafío abierto en algunas tareas complejas, como la edición de video. En este artículo, presentamos InstructX, un marco unificado para la edición de imágenes y videos. Específicamente, realizamos un estudio exhaustivo sobre la integración de MLLMs y modelos de difusión para la edición basada en instrucciones en diversas tareas. Basándonos en este estudio, analizamos la cooperación y distinción entre imágenes y videos en el modelado unificado. (1) Demostramos que el entrenamiento con datos de imágenes puede generar capacidades emergentes de edición de video sin supervisión explícita, lo que alivia las limitaciones impuestas por la escasez de datos de entrenamiento en video. (2) Al incorporar características específicas de modalidad en los MLLMs, nuestro enfoque unifica eficazmente las tareas de edición de imágenes y videos en un solo modelo. Experimentos extensos demuestran que nuestro método puede manejar una amplia gama de tareas de edición de imágenes y videos y alcanza un rendimiento de vanguardia.
El modelo de recompensa (RM, por sus siglas en inglés) desempeña un papel fundamental en la alineación de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) con las preferencias humanas. A medida que las aplicaciones del mundo real involucran cada vez más trayectorias de historial extensas, por ejemplo, en agentes LLM, se vuelve indispensable evaluar si las respuestas de un modelo no solo son de alta calidad, sino también están fundamentadas y son consistentes con el contexto proporcionado. Sin embargo, los RM actuales siguen limitados a entornos de contexto corto y se centran principalmente en atributos a nivel de respuesta (por ejemplo, seguridad o utilidad), mientras que en gran medida descuidan la dimensión crítica de la consistencia entre contexto extenso y respuesta. En este trabajo, presentamos Long-RewardBench, un punto de referencia diseñado específicamente para la evaluación de RM en contextos extensos, que incluye tareas de Comparación por Pares y Mejor de N. Nuestro estudio preliminar revela que incluso los RM generativos más avanzados muestran una fragilidad significativa en escenarios de contexto extenso, fallando en mantener juicios de preferencia conscientes del contexto. Motivados por el análisis de los patrones de fallo observados en las salidas del modelo, proponemos una estrategia de entrenamiento multietapa general que escala eficazmente modelos arbitrarios en RM robustos para contextos extensos (LongRMs). Los experimentos muestran que nuestro enfoque no solo mejora sustancialmente el rendimiento en la evaluación de contextos extensos, sino que también preserva una fuerte capacidad en contextos cortos. Notablemente, nuestro LongRM de 8B supera a líneas base de escala 70B mucho más grandes y coincide con el rendimiento del modelo propietario Gemini 2.5 Pro.
La generación aumentada por recuperación multimodal (MM-RAG, por sus siglas en inglés) es un enfoque clave para aplicar modelos de lenguaje de gran escala (LLMs) y agentes a bases de conocimiento del mundo real. Sin embargo, las evaluaciones actuales están fragmentadas, centrándose en texto o imágenes de manera aislada o en configuraciones multimodales simplificadas que no capturan casos de uso multimodales centrados en documentos. En este artículo, presentamos UniDoc-Bench, el primer punto de referencia a gran escala y realista para MM-RAG, construido a partir de 70 mil páginas de PDF del mundo real en ocho dominios. Nuestro pipeline extrae y vincula evidencia de texto, tablas y figuras, generando luego 1,600 pares de preguntas y respuestas (QA) multimodales que abarcan recuperación factual, comparación, resumen y consultas de razonamiento lógico. Para garantizar la fiabilidad, el 20% de los pares QA son validados por múltiples anotadores y adjudicación experta. UniDoc-Bench permite una comparación directa entre cuatro paradigmas: (1) solo texto, (2) solo imágenes, (3) fusión multimodal texto-imagen y (4) recuperación conjunta multimodal, bajo un protocolo unificado con grupos de candidatos estandarizados, indicaciones y métricas de evaluación. Nuestros experimentos muestran que los sistemas RAG de fusión multimodal texto-imagen superan consistentemente tanto a la recuperación unimodal como a la basada en incrustaciones multimodales conjuntas, lo que indica que ni el texto ni las imágenes por sí solos son suficientes y que las incrustaciones multimodales actuales siguen siendo inadecuadas. Más allá de la evaluación comparativa, nuestro análisis revela cuándo y cómo el contexto visual complementa la evidencia textual, descubre modos de fallo sistemáticos y ofrece orientación práctica para desarrollar pipelines MM-RAG más robustos.
Los Modelos de Lenguaje de Gran Escala (LLM) han demostrado capacidades notables en diversos dominios, pero persisten desafíos significativos al desplegarlos como agentes de IA para tareas de largo plazo en el mundo real. Los agentes LLM existentes presentan una limitación crítica: son estáticos durante la fase de prueba y no pueden aprender de la experiencia, careciendo de la capacidad para acumular conocimiento y mejorar continuamente en el trabajo. Para abordar este desafío, proponemos MUSE, un marco de agente novedoso que introduce un sistema impulsado por la experiencia y auto-evolutivo centrado en un Módulo de Memoria jerárquico. MUSE organiza diversos niveles de experiencia y los aprovecha para planificar y ejecutar tareas de largo plazo en múltiples aplicaciones. Después de cada ejecución de una subtarea, el agente reflexiona autónomamente sobre su trayectoria, convirtiendo la trayectoria bruta en experiencia estructurada e integrándola de nuevo en el Módulo de Memoria. Este mecanismo permite que el agente evolucione más allá de sus parámetros preentrenados estáticos, fomentando el aprendizaje continuo y la auto-evolución. Evaluamos MUSE en el punto de referencia de productividad de largo plazo TAC, donde logra un nuevo rendimiento de vanguardia por un margen significativo utilizando únicamente un modelo ligero Gemini-2.5 Flash. Experimentos exhaustivos demuestran que, a medida que el agente acumula experiencia de manera autónoma, exhibe capacidades cada vez superiores para completar tareas, así como robustas capacidades de aprendizaje continuo y auto-evolución. Además, la experiencia acumulada por MUSE muestra fuertes propiedades de generalización, permitiendo mejoras de cero disparos en nuevas tareas. MUSE establece un nuevo paradigma para agentes de IA capaces de automatizar tareas de productividad en el mundo real.
Este estudio se centra en una tarea desafiante pero prometedora, la generación de Video con Sonido a partir de Texto (Text-to-Sounding-Video, T2SV), que tiene como objetivo generar un video con audio sincronizado a partir de condiciones de texto, asegurando al mismo tiempo que ambas modalidades estén alineadas con el texto. A pesar de los avances en el entrenamiento conjunto de audio y video, dos desafíos críticos aún no han sido resueltos: (1) un único texto compartido, donde el texto para el video es igual al texto para el audio, a menudo crea interferencia modal, confundiendo los modelos preentrenados, y (2) el mecanismo óptimo para la interacción de características entre modalidades sigue sin estar claro. Para abordar estos desafíos, primero proponemos el marco de Subtitulado Jerárquico Basado en Visuales (Hierarchical Visual-Grounded Captioning, HVGC), que genera pares de subtítulos desacoplados, un subtítulo para el video y otro para el audio, eliminando la interferencia en la etapa de condicionamiento. Basándonos en HVGC, además introducimos BridgeDiT, un novedoso transformador de difusión de doble torre, que emplea un mecanismo de Atención Cruzada Dual (Dual CrossAttention, DCA) que actúa como un "puente" robusto para permitir un intercambio bidireccional y simétrico de información, logrando tanto la sincronización semántica como temporal. Experimentos exhaustivos en tres conjuntos de datos de referencia, respaldados por evaluaciones humanas, demuestran que nuestro método alcanza resultados de vanguardia en la mayoría de las métricas. Estudios de ablación exhaustivos validan además la efectividad de nuestras contribuciones, ofreciendo ideas clave para futuras tareas de T2SV. Todos los códigos y puntos de control serán liberados públicamente.
Si bien los métodos de aprendizaje por refuerzo, como la Optimización de Preferencias Relativas de Grupo (GRPO), han mejorado significativamente los Modelos de Lenguaje a Gran Escala, adaptarlos a modelos de difusión sigue siendo un desafío. En particular, GRPO requiere una política estocástica, pero los muestreadores de difusión más rentables se basan en EDOs deterministas. Trabajos recientes abordan este problema utilizando muestreadores basados en EDEs ineficientes para inducir estocasticidad, pero esta dependencia del ruido gaussiano independiente del modelo conduce a una convergencia lenta. Para resolver este conflicto, proponemos la Optimización Directa de Preferencias de Grupo (DGPO), un nuevo algoritmo de aprendizaje por refuerzo en línea que prescinde por completo del marco de gradiente de políticas. DGPO aprende directamente de las preferencias a nivel de grupo, que utilizan información relativa de las muestras dentro de los grupos. Este diseño elimina la necesidad de políticas estocásticas ineficientes, permitiendo el uso de muestreadores de EDOs deterministas eficientes y un entrenamiento más rápido. Resultados extensos muestran que DGPO entrena aproximadamente 20 veces más rápido que los métodos más avanzados actuales y logra un rendimiento superior tanto en métricas de recompensa dentro del dominio como fuera de él. El código está disponible en https://github.com/Luo-Yihong/DGPO.
Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) han logrado avances notables en diversas capacidades; sin embargo, el razonamiento complejo sobre videos en el ámbito científico sigue siendo una frontera significativa y desafiante. Los puntos de referencia actuales para videos se centran principalmente en escenarios generales donde se depende en gran medida de la percepción/reconocimiento, con tareas de razonamiento relativamente simples, lo que lleva a la saturación y, por tanto, a una evaluación ineficaz de las habilidades cognitivas multimodales avanzadas. Para abordar esta brecha crítica, presentamos SciVideoBench, un punto de referencia riguroso diseñado específicamente para evaluar el razonamiento avanzado sobre videos en contextos científicos. SciVideoBench consta de 1,000 preguntas de opción múltiple cuidadosamente elaboradas, derivadas de videos experimentales científicos de vanguardia que abarcan más de 25 materias académicas especializadas y verificadas por un sistema semiautomático. Cada pregunta exige un conocimiento específico del dominio sofisticado, una percepción espacio-temporal precisa y un razonamiento lógico intrincado, desafiando efectivamente las habilidades cognitivas de orden superior de los modelos. Nuestra evaluación destaca déficits significativos en el rendimiento de los LMMs propietarios y de código abierto más avanzados, incluidos Gemini 2.5 Pro y Qwen2.5-VL, lo que indica un margen sustancial para el avance en las capacidades de razonamiento sobre videos. Los análisis detallados de factores críticos como la complejidad del razonamiento y la fundamentación visual proporcionan insights valiosos y una dirección clara para futuros desarrollos en LMMs, impulsando la evolución de verdaderos co-científicos de IA multimodal. Esperamos que SciVideoBench se ajuste a los intereses de la comunidad y ayude a ampliar los límites de la IA de vanguardia para la ciencia en general.
Este trabajo representa el primer esfuerzo para escalar la destilación de consistencia en tiempo continuo a modelos de difusión de imágenes y videos a nivel de aplicación general. Aunque el modelo de consistencia en tiempo continuo (sCM, por sus siglas en inglés) está fundamentado teóricamente y es empíricamente potente para acelerar la difusión a escala académica, su aplicabilidad a tareas de gran escala, como la generación de texto a imagen y video, sigue siendo incierta debido a los desafíos de infraestructura en el cálculo del producto Jacobiano-vector (JVP) y las limitaciones de los puntos de referencia de evaluación estándar. Primero desarrollamos un núcleo JVP compatible con paralelismo basado en FlashAttention-2, lo que permite el entrenamiento de sCM en modelos con más de 10 mil millones de parámetros y tareas de video de alta dimensionalidad. Nuestra investigación revela limitaciones fundamentales en la calidad de sCM para la generación de detalles finos, las cuales atribuimos a la acumulación de errores y a la naturaleza de "cobertura de modos" de su objetivo de divergencia hacia adelante. Para remediar esto, proponemos el modelo de consistencia en tiempo continuo regularizado por puntuación (rCM), que incorpora la destilación de puntuación como un regularizador de salto largo. Esta integración complementa sCM con la divergencia inversa de "búsqueda de modos", mejorando efectivamente la calidad visual mientras mantiene una alta diversidad en la generación. Validado en modelos de gran escala (Cosmos-Predict2, Wan2.1) de hasta 14 mil millones de parámetros y videos de 5 segundos, rCM iguala o supera al método de destilación de última generación DMD2 en métricas de calidad, ofreciendo ventajas notables en diversidad, todo ello sin ajustes de GAN o búsquedas extensivas de hiperparámetros. Los modelos destilados generan muestras de alta fidelidad en solo 1 a 4 pasos, acelerando el muestreo de difusión entre 15 y 50 veces. Estos resultados posicionan a rCM como un marco práctico y teóricamente fundamentado para avanzar en la destilación de difusión a gran escala.
Si bien los avances recientes en modelos de razonamiento han demostrado comportamientos cognitivos a través del aprendizaje por refuerzo, los enfoques existentes luchan por invocar capacidades de razonamiento profundo en agentes de múltiples turnos con interacciones de largo horizonte. Proponemos DeepMiner, un marco novedoso que fomenta dichas capacidades mediante la introducción de tareas de entrenamiento de alta dificultad y una ventana de contexto dinámica. DeepMiner presenta un método de construcción inversa para generar pares pregunta-respuesta complejos pero verificables a partir de fuentes web auténticas, lo que garantiza el desafío y la confiabilidad de los datos de entrenamiento mientras inyecta capacidades cognitivas en escenarios de razonamiento de múltiples turnos. Además, diseñamos una estrategia de gestión de contexto dinámica elegante pero efectiva tanto para el entrenamiento como para la inferencia, utilizando mecanismos de ventana deslizante mientras eliminamos la dependencia de modelos externos de resumen, lo que permite al modelo manejar de manera eficiente contextos de largo horizonte en constante expansión. A través del aprendizaje por refuerzo en Qwen3-32B, desarrollamos DeepMiner-32B, que logra mejoras sustanciales en el rendimiento en múltiples benchmarks de agentes de búsqueda. DeepMiner alcanza un 33.5% de precisión en BrowseComp-en, superando al mejor agente de código abierto anterior por casi 20 puntos porcentuales, y demuestra mejoras consistentes en BrowseComp-zh, XBench-DeepSearch y GAIA. Notablemente, nuestra gestión de contexto dinámico permite interacciones sostenidas de casi 100 turnos dentro de una longitud de contexto estándar de 32k, abordando efectivamente las limitaciones de contexto que restringen los sistemas de interacción de múltiples turnos existentes.
El modelado de recompensas se encuentra en el núcleo del aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés). Sin embargo, la mayoría de los modelos de recompensa existentes dependen de juicios escalares o por pares que no logran capturar la naturaleza multifacética de las preferencias humanas. Estudios recientes han explorado el uso de rúbricas como recompensas (RaR, por sus siglas en inglés), que emplean criterios estructurados en lenguaje natural para capturar múltiples dimensiones de la calidad de las respuestas. No obstante, producir rúbricas que sean tanto confiables como escalables sigue siendo un desafío clave. En este trabajo, presentamos OpenRubrics, una colección diversa y a gran escala de pares (prompt, rúbrica) para entrenar modelos de generación de rúbricas y modelos de recompensa basados en rúbricas. Para obtener señales de evaluación discriminativas y comprehensivas, introducimos la Generación de Rúbricas Contrastivas (CRG, por sus siglas en inglés), que deriva tanto reglas estrictas (restricciones explícitas) como principios (cualidades implícitas) al contrastar respuestas preferidas y rechazadas. Además, mejoramos la confiabilidad al imponer consistencia en las etiquetas de preferencia mediante muestreo por rechazo para eliminar rúbricas ruidosas. En múltiples benchmarks de modelado de recompensas, nuestro modelo de recompensa basado en rúbricas, Rubric-RM, supera a líneas base de tamaño comparable en un 6.8%. Estas mejoras se trasladan a modelos de políticas en benchmarks de seguimiento de instrucciones y biomédicos. Nuestros resultados demuestran que las rúbricas proporcionan señales de alineación escalables que reducen la brecha entre la costosa evaluación humana y el modelado automatizado de recompensas, permitiendo un nuevo paradigma de alineación de LLM basado en principios.
Proponemos ERA, un nuevo paradigma que restringe la entropía de muestreo por encima de umbrales dados mediante la aplicación de activaciones especialmente diseñadas a las salidas de los modelos. Nuestro enfoque demuestra una amplia efectividad en diferentes dominios: 1) para modelos de lenguaje grandes (LLMs), aumentando la puntuación AIME 2025 para Qwen2.5-Math-7B en un 37.4%; 2) para agentes de aprendizaje por refuerzo en control continuo, mejorando el rendimiento en más de un 30% sobre líneas base sólidas como SAC en el desafiante HumanoidBench; 3) para clasificación de imágenes, incrementando la precisión top-1 en ImageNet en un 0.69% para ResNet-50. Estos avances se logran con un sobrecosto computacional de menos del 7%. Nuestro trabajo valida la activación de salida como una herramienta poderosa para el control de la entropía, abriendo una nueva dirección para diseñar algoritmos más simples y robustos.
El notable éxito de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se debe a su capacidad para consolidar grandes cantidades de conocimiento en la memoria durante el preentrenamiento y para recuperarlo de la memoria durante la inferencia, lo que permite capacidades avanzadas como la memorización de conocimiento, el seguimiento de instrucciones y el razonamiento. Sin embargo, los mecanismos de recuperación y consolidación de la memoria en los LLMs siguen siendo poco comprendidos. En este artículo, proponemos la hipótesis del token funcional para explicar el funcionamiento de los LLMs: durante la inferencia, los tokens funcionales activan las características más predictivas del contexto y gobiernan la predicción del siguiente token (recuperación de la memoria). Durante el preentrenamiento, predecir los siguientes tokens (generalmente tokens de contenido) que siguen a los tokens funcionales aumenta el número de características aprendidas por los LLMs y actualiza los parámetros del modelo (consolidación de la memoria). Los tokens funcionales aquí corresponden aproximadamente a las palabras funcionales en lingüística, incluyendo signos de puntuación, artículos, preposiciones y conjunciones, en contraste con los tokens de contenido. Proporcionamos amplia evidencia experimental que respalda esta hipótesis. Utilizando análisis de grafos bipartitos, demostramos que un pequeño número de tokens funcionales activa la mayoría de las características. Estudios de caso revelan además cómo los tokens funcionales activan las características más predictivas del contexto para dirigir la predicción del siguiente token. También encontramos que, durante el preentrenamiento, la pérdida de entrenamiento está dominada por la predicción de los siguientes tokens de contenido que siguen a los tokens funcionales, lo que obliga a estos tokens a seleccionar las características más predictivas del contexto.
El rápido incremento en el costo computacional del preentrenamiento de Modelos de Lenguaje de Gran Escala (LLM) exige enfoques más eficientes. Se han invertido numerosos recursos computacionales en puntos de control (checkpoints) bien entrenados existentes, pero muchos de ellos permanecen subutilizados debido a limitaciones de ingeniería o capacidad reducida del modelo. Para reutilizar eficientemente este costo "hundido", proponemos reciclar puntos de control preentrenados expandiendo su número de parámetros y continuando el entrenamiento. Proponemos un método de crecimiento ortogonal adecuado para modelos Mixture-of-Experts (MoE) convergidos: copia de capas interposicionales para crecimiento en profundidad y duplicación de expertos con ruido inyectado para crecimiento en amplitud. Para determinar el momento óptimo de dicho crecimiento en secuencias de puntos de control, realizamos experimentos exhaustivos de escalado que revelan que la precisión final tiene una fuerte correlación positiva con la cantidad de costo hundido, indicando que una mayor inversión previa conduce a un mejor rendimiento. Escalamos nuestro enfoque a modelos con 70 mil millones de parámetros y más de 1 billón de tokens de entrenamiento, logrando una mejora del 10.66% en precisión en comparación con el entrenamiento desde cero bajo el mismo presupuesto computacional adicional. Nuestro enfoque de reciclaje de puntos de control establece una base para el preentrenamiento económicamente eficiente de modelos de lenguaje de gran escala.
Presentamos UP2You, la primera solución sin ajustes para la reconstrucción de retratos 3D vestidos de alta fidelidad a partir de fotografías 2D extremadamente no restringidas capturadas en entornos naturales. A diferencia de enfoques anteriores que requieren entradas "limpias" (por ejemplo, imágenes de cuerpo completo con oclusiones mínimas o capturas calibradas de múltiples vistas), UP2You procesa directamente fotografías crudas y no estructuradas, que pueden variar significativamente en pose, ángulo de visión, recorte y oclusión. En lugar de comprimir los datos en tokens para una lenta optimización en línea de texto a 3D, introducimos un paradigma de rectificación de datos que convierte eficientemente entradas no restringidas en imágenes limpias y ortogonales de múltiples vistas en un solo paso hacia adelante en cuestión de segundos, simplificando la reconstrucción 3D. El núcleo de UP2You es un módulo de agregación de características correlacionadas con la pose (PCFA), que fusiona selectivamente información de múltiples imágenes de referencia con respecto a las poses objetivo, permitiendo una mejor preservación de la identidad y un uso de memoria casi constante, incluso con más observaciones. También presentamos un predictor de forma basado en múltiples referencias y en un percibidor, eliminando la necesidad de plantillas corporales pre-capturadas. Experimentos exhaustivos en 4D-Dress, PuzzleIOI y capturas en entornos naturales demuestran que UP2You supera consistentemente a métodos anteriores tanto en precisión geométrica (Chamfer-15%, P2S-18% en PuzzleIOI) como en fidelidad de textura (PSNR-21%, LPIPS-46% en 4D-Dress). UP2You es eficiente (1.5 minutos por persona) y versátil (admite control de pose arbitrario y pruebas virtuales 3D de múltiples prendas sin entrenamiento), lo que lo hace práctico para escenarios del mundo real donde las personas son capturadas de manera casual. Tanto los modelos como el código serán liberados para facilitar futuras investigaciones en esta tarea poco explorada. Página del proyecto: https://zcai0612.github.io/UP2You.
Lograr la rotación generalizada de objetos en la mano sigue siendo un desafío significativo en robótica, principalmente debido a la dificultad de transferir políticas desde la simulación al mundo real. Las dinámicas complejas y ricas en contactos de la manipulación diestra crean una "brecha de realidad" que ha limitado trabajos previos a escenarios restringidos que involucran geometrías simples, tamaños y relaciones de aspecto limitados, poses de muñeca restringidas o manos personalizadas. Abordamos este desafío de simulación a realidad con un marco novedoso que permite que una única política, entrenada en simulación, se generalice a una amplia variedad de objetos y condiciones en el mundo real. El núcleo de nuestro método es un modelo de dinámica por articulación que aprende a cerrar la brecha de realidad ajustando efectivamente una cantidad limitada de datos recopilados en el mundo real y luego adaptando las acciones de la política de simulación en consecuencia. El modelo es altamente eficiente en términos de datos y generalizable a través de diferentes distribuciones de interacción de toda la mano al factorizar la dinámica entre articulaciones, comprimir influencias sistémicas en variables de baja dimensión y aprender la evolución de cada articulación a partir de su propio perfil dinámico, capturando implícitamente estos efectos netos. Esto se complementa con una estrategia de recopilación de datos completamente autónoma que recopila datos diversos de interacción en el mundo real con una intervención humana mínima. Nuestra canalización completa demuestra una generalidad sin precedentes: una única política logra rotar objetos desafiantes con formas complejas (por ejemplo, animales), relaciones de aspecto altas (hasta 5.33) y tamaños pequeños, todo mientras maneja diversas orientaciones de muñeca y ejes de rotación. Evaluaciones exhaustivas en el mundo real y una aplicación de teleoperación para tareas complejas validan la efectividad y robustez de nuestro enfoque. Sitio web: https://meowuu7.github.io/DexNDM/
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) han llevado a un rendimiento sólido en la tarea de respuesta a preguntas de dominio abierto (QA, por sus siglas en inglés). Sin embargo, los modelos existentes aún tienen dificultades con preguntas que admiten múltiples respuestas válidas. Los benchmarks estándar de QA, que generalmente asumen una única respuesta correcta, pasan por alto esta realidad y, por lo tanto, generan señales de entrenamiento inapropiadas. Los intentos existentes para manejar la ambigüedad a menudo dependen de costosas anotaciones manuales, lo que es difícil de escalar a conjuntos de datos de múltiples saltos como HotpotQA y MuSiQue. En este artículo, presentamos A^2Search, un marco de entrenamiento de extremo a extremo y sin anotaciones para reconocer y manejar la ambigüedad. En su núcleo se encuentra una canalización automatizada que detecta preguntas ambiguas y recopila respuestas alternativas mediante muestreo de trayectorias y verificación de evidencias. El modelo se optimiza con RL utilizando una recompensa AnsF1 cuidadosamente diseñada, que naturalmente acomoda múltiples respuestas. Los experimentos en ocho benchmarks de QA de dominio abierto demuestran que A^2Search alcanza un nuevo rendimiento de vanguardia. Con solo una única ejecución, A^2Search-7B obtiene un puntaje promedio AnsF1@1 del 48.4% en cuatro benchmarks de múltiples saltos, superando a todas las líneas base fuertes, incluido el ReSearch-32B sustancialmente más grande (46.2%). Análisis extensos muestran además que A^2Search resuelve la ambigüedad y generaliza a través de los benchmarks, destacando que abrazar la ambigüedad es esencial para construir sistemas de QA más confiables. Nuestro código, datos y pesos del modelo se pueden encontrar en https://github.com/zfj1998/A2Search.
El aprendizaje por refuerzo se ha aplicado ampliamente para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala. Extender los límites de inferencia de modelos más pequeños se ha convertido en un enfoque de investigación destacado. Sin embargo, algoritmos como la Optimización de Política Relativa de Grupo (GRPO) presentan una clara desventaja: el límite superior de las respuestas generadas por el modelo está completamente determinado por el propio modelo, lo que impide la adquisición de conocimiento a partir de muestras que son todas incorrectas o todas correctas. En este artículo, presentamos la Optimización de Política Contrastiva de Grupo (GCPO), un método que incorpora respuestas de referencia estándar externas. Cuando el modelo no puede resolver un problema, la respuesta de referencia proporciona la solución correcta, guiando al modelo hacia una dirección de actualización inequívocamente precisa. Este enfoque ofrece dos ventajas principales: (1) mejora la eficiencia del entrenamiento al aprovechar completamente cada muestra; (2) permite que el modelo emule la estrategia de resolución de problemas de la respuesta de referencia durante el entrenamiento, mejorando así la generalización en el razonamiento. GCPO logra resultados sobresalientes en múltiples conjuntos de datos de referencia, obteniendo mejoras sustanciales sobre el modelo base. Nuestro código está disponible en: https://github.com/AchoWu/GCPO.
El uso eficiente de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es crucial para su implementación a gran escala: sin un enrutamiento adaptativo, los sistemas o bien pagan en exceso por modelos potentes o arriesgan un rendimiento deficiente con modelos más débiles. Seleccionar el LLM adecuado para cada consulta es fundamentalmente un problema de decisión en línea: los modelos difieren en sus fortalezas, los precios fluctúan y los usuarios valoran la precisión y el costo de manera diferente. Sin embargo, la mayoría de los enrutadores se entrenan fuera de línea con etiquetas para todos los modelos candidatos, una suposición que se rompe en la implementación, donde solo se observa el resultado del modelo elegido. Cerramos esta brecha con BaRP, un enfoque de Enrutamiento con Retroalimentación de Bandido y Preferencias que se entrena bajo la misma restricción de retroalimentación parcial que la implementación, mientras admite inferencia ajustable por preferencias: los operadores pueden ajustar la compensación entre rendimiento y costo en tiempo de prueba sin necesidad de reentrenar. Enmarcado como un bandido contextual sobre características de la instrucción y un vector de preferencias del usuario, nuestro método simula un entorno de retroalimentación en línea durante el entrenamiento y adapta sus decisiones de enrutamiento a cada nueva instrucción, en lugar de depender de una supervisión fuera de línea con información completa. Experimentos exhaustivos muestran que nuestro método supera consistentemente a los enrutadores fuera de línea más robustos en al menos un 12.46% y al LLM más grande en al menos un 2.45%, y generaliza de manera robusta para tareas no vistas.
A pesar de sus notables capacidades de comprensión del lenguaje natural, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han sido subutilizados para tareas de recuperación de información. Presentamos Search-R3, un marco novedoso que aborda esta limitación al adaptar los LLMs para generar incrustaciones de búsqueda como una salida directa de su proceso de razonamiento. Nuestro enfoque aprovecha las capacidades de cadena de pensamiento de los LLMs, permitiéndoles producir incrustaciones más efectivas al razonar paso a paso a través de análisis semánticos complejos. Implementamos esto mediante tres mecanismos complementarios. (1) una etapa de aprendizaje supervisado que habilita la capacidad del modelo para producir incrustaciones de calidad, (2) una metodología de aprendizaje por refuerzo (RL, por sus siglas en inglés) que optimiza la generación de incrustaciones junto con el razonamiento, y (3) un entorno especializado de RL que maneja eficientemente representaciones de incrustaciones en evolución sin requerir una recodificación completa del corpus en cada iteración de entrenamiento. Nuestras evaluaciones exhaustivas en diversos puntos de referencia demuestran que Search-R3 supera significativamente a métodos anteriores al unificar los procesos de razonamiento y generación de incrustaciones. Este enfoque integrado de posentrenamiento representa un avance sustancial en el manejo de tareas intensivas en conocimiento que requieren tanto un razonamiento sofisticado como una recuperación de información efectiva. Página del proyecto: https://github.com/ytgui/Search-R3.
Los recientes avances en modelos generativos han abierto nuevas posibilidades emocionantes en el campo de los vehículos autónomos. En particular, los modelos de generación de videos están siendo explorados como entornos virtuales de prueba controlables. Simultáneamente, los modelos de conducción de extremo a extremo (E2E) han surgido como una alternativa simplificada a los sistemas modulares convencionales de conducción autónoma, ganando popularidad por su simplicidad y escalabilidad. Sin embargo, la aplicación de estas técnicas a la simulación y planificación plantea preguntas importantes. En primer lugar, aunque los modelos de generación de videos pueden producir videos cada vez más realistas, ¿pueden estos videos adherirse fielmente a las condiciones especificadas y ser lo suficientemente realistas para la evaluación de planificadores E2E autónomos? En segundo lugar, dado que los datos son cruciales para comprender y controlar los planificadores E2E, ¿cómo podemos obtener una comprensión más profunda de sus sesgos y mejorar su capacidad para generalizar a escenarios fuera de distribución? En este trabajo, cerramos la brecha entre los modelos de conducción y los modelos generativos del mundo (Drive&Gen) para abordar estas preguntas. Proponemos nuevas medidas estadísticas que aprovechan los conductores E2E para evaluar el realismo de los videos generados. Al explotar la controlabilidad del modelo de generación de videos, realizamos experimentos específicos para investigar las brechas de distribución que afectan el rendimiento de los planificadores E2E. Finalmente, demostramos que los datos sintéticos producidos por el modelo de generación de videos ofrecen una alternativa rentable a la recopilación de datos del mundo real. Estos datos sintéticos mejoran efectivamente la generalización del modelo E2E más allá de los Dominios de Diseño Operativo existentes, facilitando la expansión de los servicios de vehículos autónomos a nuevos contextos operativos.
Un paradigma dominante para enseñar habilidades complejas a robots humanoides es reorientar los movimientos humanos como referencias cinemáticas para entrenar políticas de aprendizaje por refuerzo (RL). Sin embargo, los flujos de trabajo de reorientación existentes a menudo enfrentan dificultades debido a la brecha significativa de encarnación entre humanos y robots, produciendo artefactos físicamente implausibles como deslizamientos de pies y penetraciones. Más importante aún, los métodos comunes de reorientación pasan por alto las ricas interacciones humano-objeto y humano-entorno, esenciales para la locomoción expresiva y la loco-manipulación. Para abordar esto, presentamos OmniRetarget, un motor de generación de datos que preserva las interacciones, basado en una malla de interacción que modela y preserva explícitamente las relaciones espaciales y de contacto cruciales entre un agente, el terreno y los objetos manipulados. Al minimizar la deformación laplaciana entre las mallas humana y robótica mientras se aplican restricciones cinemáticas, OmniRetarget genera trayectorias cinemáticamente factibles. Además, preservar las interacciones relevantes para la tarea permite una ampliación eficiente de los datos, desde una sola demostración hasta diferentes encarnaciones de robots, terrenos y configuraciones de objetos. Evaluamos exhaustivamente OmniRetarget reorientando movimientos de los conjuntos de datos OMOMO, LAFAN1 y nuestro propio conjunto de datos de captura de movimiento (MoCap), generando trayectorias de más de 8 horas que logran una mejor satisfacción de las restricciones cinemáticas y preservación de contactos en comparación con las líneas de base ampliamente utilizadas. Estos datos de alta calidad permiten que las políticas de RL propiceptivas ejecuten con éxito habilidades de parkour y loco-manipulación de largo plazo (hasta 30 segundos) en un humanoide Unitree G1, entrenadas con solo 5 términos de recompensa y una simple aleatorización de dominio compartida por todas las tareas, sin ningún plan de aprendizaje estructurado.
A medida que nuevos optimizadores ganan popularidad y la cuantización de modelos se convierte en un estándar para el despliegue eficiente, surge una pregunta clave: ¿cómo afecta la elección del optimizador al rendimiento del modelo en presencia de cuantización? A pesar de los avances en ambas áreas, la evidencia sistemática sobre las interacciones entre optimizadores y cuantización sigue siendo limitada. Para llenar este vacío, estudiamos el impacto de la elección del optimizador en la robustez del modelo bajo cuantización, considerando tanto la cuantización posterior al entrenamiento (PTQ, por sus siglas en inglés) como el entrenamiento consciente de la cuantización (QAT, por sus siglas en inglés). Primero entrenamos modelos de precisión completa, que van desde 50M hasta 1.5B parámetros, con seis optimizadores, para explorar el panorama de hiperparámetros y establecer líneas base bien ajustadas. Luego aplicamos PTQ para evaluar cómo se degrada el rendimiento del modelo cuando se entrena con diferentes optimizadores. Encontramos que métricas relacionadas con valores atípicos, como la relación máximo a media (MMR, por sus siglas en inglés) y la curtosis, no logran predecir el rendimiento de PTQ en diferentes optimizadores. Demostramos analíticamente que esto se debe a que el MMR captura solo errores aislados en capas, ignorando cómo los errores de cuantización se acumulan y propagan a través de la red. Para estudiar la degradación en QAT, entrenamos modelos cuantizados desde cero y los comparamos con nuestras líneas base de precisión original. Encontramos que los optimizadores que funcionan bien en la configuración de preentrenamiento original pueden no seguir siendo óptimos bajo QAT, y que los modelos entrenados con Shampoo muestran la menor degradación en precisión. Finalmente, derivamos leyes de escalamiento para el entrenamiento consciente de la cuantización bajo diferentes optimizadores, mostrando que Shampoo logra la mayor eficiencia de parámetros entre todos los optimizadores probados.
Hacia el objetivo de la manipulación robótica generalizada, la generalización espacial es la capacidad más fundamental que requiere que la política funcione de manera robusta bajo diferentes distribuciones espaciales de objetos, entorno y del propio agente. Para lograr esto, es necesario recopilar una cantidad sustancial de demostraciones humanas que cubran diferentes configuraciones espaciales para entrenar una política visuomotora generalizada mediante aprendizaje por imitación. Trabajos previos exploran una dirección prometedora que aprovecha la generación de datos para adquirir datos espacialmente diversos a partir de un número mínimo de demostraciones fuente. Sin embargo, la mayoría de los enfoques enfrentan una brecha significativa entre simulación y realidad y a menudo se limitan a entornos restringidos, como escenarios de base fija y puntos de vista de cámara predefinidos. En este artículo, proponemos un marco de generación de datos 3D de realidad a realidad (R2RGen) que aumenta directamente los pares observación-acción de nubes de puntos para generar datos del mundo real. R2RGen no requiere simuladores ni renderizado, lo que lo hace eficiente y plug-and-play. Específicamente, dada una única demostración fuente, introducimos un mecanismo de anotación para el análisis detallado de la escena y la trayectoria. Se propone una estrategia de aumento por grupos para manejar composiciones complejas de múltiples objetos y diversas restricciones de tareas. Además, presentamos un procesamiento consciente de la cámara para alinear la distribución de los datos generados con los sensores 3D del mundo real. Empíricamente, R2RGen mejora sustancialmente la eficiencia de los datos en experimentos extensos y demuestra un fuerte potencial para la escalabilidad y aplicación en la manipulación móvil.
Presentamos Stable Video Materials 3D (SViM3D), un marco para predecir materiales de renderizado basado en física (PBR) consistentes en múltiples vistas, a partir de una sola imagen. Recientemente, los modelos de difusión de video se han utilizado con éxito para reconstruir objetos 3D de manera eficiente a partir de una sola imagen. Sin embargo, la reflectancia sigue representándose mediante modelos de materiales simples o necesita estimarse en pasos adicionales para permitir la reiluminación y ediciones controladas de la apariencia. Extendemos un modelo de difusión de video latente para generar parámetros PBR espacialmente variables y normales de superficie junto con cada vista generada, basándonos en un control explícito de la cámara. Esta configuración única permite la reiluminación y la generación de un activo 3D utilizando nuestro modelo como prior neuronal. Introducimos varios mecanismos en esta canalización que mejoran la calidad en este escenario mal planteado. Demostramos un rendimiento de vanguardia en reiluminación y síntesis de nuevas vistas en múltiples conjuntos de datos centrados en objetos. Nuestro método se generaliza a diversas entradas, permitiendo la generación de activos 3D reiluminables útiles en realidad aumentada/realidad virtual (AR/VR), películas, videojuegos y otros medios visuales.
La fusión nuclear desempeña un papel fundamental en la búsqueda de una producción de energía confiable y sostenible. Un obstáculo importante para la viabilidad de la energía de fusión es la comprensión de la turbulencia del plasma, la cual afecta significativamente el confinamiento del plasma y es crucial para el diseño de reactores de próxima generación. La turbulencia del plasma está gobernada por la ecuación girocinética no lineal, que evoluciona una función de distribución 5D en el tiempo. Debido a su alto costo computacional, en la práctica se emplean modelos de orden reducido para aproximar el transporte turbulento de energía. Sin embargo, estos omiten efectos no lineales únicos de la dinámica completa en 5D. Para abordar este problema, presentamos GyroSwin, el primer sustituto neuronal escalable en 5D capaz de modelar simulaciones girocinéticas no lineales en 5D, capturando así los fenómenos físicos descuidados por los modelos reducidos, mientras proporciona estimaciones precisas del transporte turbulento de calor. GyroSwin (i) extiende los Transformers jerárquicos de visión a 5D, (ii) introduce módulos de atención cruzada e integración para interacciones latentes 3D↔5D entre campos de potencial electrostático y la función de distribución, y (iii) realiza una separación modal por canales inspirada en la física no lineal. Demostramos que GyroSwin supera a los métodos numéricos reducidos ampliamente utilizados en la predicción del flujo de calor, captura la cascada de energía turbulenta y reduce el costo de la girocinética no lineal completamente resuelta en tres órdenes de magnitud, manteniendo la verificabilidad física. GyroSwin muestra leyes de escalado prometedoras, probadas hasta mil millones de parámetros, allanando el camino para sustitutos neuronales escalables en simulaciones girocinéticas de turbulencia de plasma.
La edición 3D - la tarea de modificar localmente la geometría o la apariencia de un activo 3D - tiene amplias aplicaciones en la creación de contenido inmersivo, entretenimiento digital y AR/VR. Sin embargo, a diferencia de la edición 2D, sigue siendo un desafío debido a la necesidad de consistencia entre vistas, fidelidad estructural y controlabilidad de grano fino. Los enfoques existentes suelen ser lentos, propensos a distorsiones geométricas o dependen de máscaras 3D manuales y precisas que son propensas a errores e impracticables. Para abordar estos desafíos, avanzamos tanto en el frente de datos como en el de modelos. En el lado de los datos, presentamos 3DEditVerse, el mayor benchmark de edición 3D emparejado hasta la fecha, que comprende 116,309 pares de entrenamiento de alta calidad y 1,500 pares de prueba curados. Construido a través de pipelines complementarios de ediciones geométricas impulsadas por pose y ediciones de apariencia guiadas por modelos fundacionales, 3DEditVerse garantiza la localidad de la edición, la consistencia multivista y la alineación semántica. En el lado del modelo, proponemos 3DEditFormer, un transformador condicional que preserva la estructura 3D. Al mejorar la generación de imagen a 3D con atención de doble guía y compuertas adaptativas en el tiempo, 3DEditFormer desenreda las regiones editables de la estructura preservada, permitiendo ediciones precisas y consistentes sin requerir máscaras 3D auxiliares. Experimentos extensos demuestran que nuestro marco supera a los baselines de última generación tanto cuantitativa como cualitativamente, estableciendo un nuevo estándar para la edición 3D práctica y escalable. El conjunto de datos y el código serán liberados. Proyecto: https://www.lv-lab.org/3DEditFormer/
El uso de redes objetivo es un enfoque popular para estimar funciones de valor en el aprendizaje por refuerzo profundo (RL, por sus siglas en inglés). Aunque efectivo, la red objetivo sigue siendo una solución de compromiso que preserva la estabilidad a costa de objetivos que se mueven lentamente, lo que retrasa el aprendizaje. Por el contrario, utilizar la red en línea como objetivo de bootstrapping es intuitivamente atractivo, aunque es bien sabido que conduce a un aprendizaje inestable. En este trabajo, buscamos obtener lo mejor de ambos mundos introduciendo una nueva regla de actualización que calcula el objetivo utilizando la estimación MÍNima entre la red Objetivo y la red en Línea, dando lugar a nuestro método, MINTO. A través de esta modificación simple pero efectiva, demostramos que MINTO permite un aprendizaje más rápido y estable de la función de valor, mitigando el posible sesgo de sobreestimación al utilizar la red en línea para bootstrapping. Cabe destacar que MINTO puede integrarse sin problemas en una amplia gama de algoritmos basados en valor y de actor-crítico con un costo insignificante. Evaluamos MINTO extensamente en diversos puntos de referencia, abarcando RL en línea y fuera de línea, así como espacios de acción discretos y continuos. En todos los puntos de referencia, MINTO mejora consistentemente el rendimiento, demostrando su amplia aplicabilidad y efectividad.
Las políticas de robots generalistas entrenadas en conjuntos de datos a gran escala y visualmente homogéneos pueden ser susceptibles al aprendizaje de atajos, lo que perjudica su generalización fuera de distribución (OOD, por sus siglas en inglés). Si bien la ampliación de datos generativa es un enfoque común para introducir diversidad, presenta un desafío sutil: la composición de datos. Mezclar de manera ingenua datos reales y sintéticos puede corromper la señal de aprendizaje, ya que este proceso a menudo prioriza la diversidad visual a expensas de la fidelidad de la información. Este artículo sugiere que una generalización robusta depende de una composición de datos fundamentada y consciente de la fidelidad. Introducimos el Ajuste de Fidelidad de Información Coherente (CIFT, por sus siglas en inglés), un marco que trata la composición de datos como un problema de optimización. CIFT utiliza un proxy práctico para la Fidelidad de Información basado en la geometría del espacio de características de un conjunto de datos. Esto permite identificar una transición de fase, denominada Punto de Decoherencia, donde la estabilidad del entrenamiento se degrada. El marco incluye un motor generativo, Ampliación de Video Multi-Vista (MVAug, por sus siglas en inglés), para sintetizar un espectro de datos causalmente desenredado para este proceso de ajuste. La aplicación de CIFT a arquitecturas de políticas como pi_0 y Diffusion Policy mejora las tasas de éxito OOD en más de un 54%. Estos resultados indican que la composición consciente de la fidelidad, más allá de la síntesis de datos por sí sola, es un componente importante para desarrollar robots robustos y de propósito general.