Artículos de investigación en IA seleccionados diariamente con traducciones
A medida que los modelos lingüísticos adquieren mayores capacidades, los usuarios esperan que no solo proporcionen respuestas precisas, sino también comportamientos alineados con diversas preferencias humanas en una variedad de escenarios. Para lograrlo, las canalizaciones de aprendizaje por refuerzo (RL) han comenzado a incorporar múltiples recompensas, cada una capturando una preferencia distinta, para guiar a los modelos hacia estos comportamientos deseados. Sin embargo, trabajos recientes han aplicado por defecto la Optimización de Políticas con Relatividad Grupal (GRPO) en entornos de múltiples recompensas sin examinar su idoneidad. En este artículo, demostramos que aplicar directamente GRPO para normalizar combinaciones distintas de recompensas de *rollout* hace que estas colapsen en valores de ventaja idénticos, reduciendo la resolución de la señal de entrenamiento y resultando en una convergencia subóptima y, en algunos casos, en un fallo temprano del entrenamiento. Posteriormente, presentamos la Optimización de Políticas con Normalización Desacoplada de Recompensas Grupales (GDPO), un nuevo método de optimización de políticas que resuelve estos problemas desacoplando la normalización de las recompensas individuales, preservando de manera más fiel sus diferencias relativas y permitiendo una optimización multi-recompensa más precisa, junto con una estabilidad de entrenamiento sustancialmente mejorada. Comparamos GDPO con GRPO en tres tareas: uso de herramientas, razonamiento matemático y razonamiento de codificación, evaluando tanto métricas de corrección (precisión, ratio de errores) como métricas de adherencia a restricciones (formato, longitud). En todos los escenarios, GDPO supera consistentemente a GRPO, demostrando su eficacia y generalizabilidad para la optimización del aprendizaje por refuerzo con múltiples recompensas.
La aplicación de decaimiento de pesos (WD, por sus siglas en inglés) a las capas matriciales es una práctica estándar en el preentrenamiento de modelos lingüísticos grandes. Trabajos previos sugieren que el ruido del gradiente estocástico induce una expansión de tipo browniano en las matrices de pesos W, cuyo crecimiento es contrarrestado por el WD, lo que conduce a un equilibrio WD-ruido con una determinada norma de pesos ||W||. En este trabajo, consideramos la norma de equilibrio como un artefacto perjudicial del procedimiento de entrenamiento y lo abordamos introduciendo multiplicadores entrenables para aprender la escala óptima. En primer lugar, adjuntamos un multiplicador escalar entrenable a W y confirmamos que la norma de equilibrio WD-ruido es subóptima: la escala aprendida se adapta a los datos y mejora el rendimiento. A continuación, argumentamos que las normas individuales de filas y columnas están igualmente restringidas, y liberamos su escala introduciendo multiplicadores entrenables por fila y por columna. Nuestro método puede verse como una generalización entrenable y más expresiva de los multiplicadores muP. Supera a una línea de base muP bien ajustada, reduce la sobrecarga computacional del ajuste de multiplicadores y plantea cuestiones prácticas como las simetrías en la pasada hacia adelante y el escalado en anchura de los multiplicadores aprendidos. Finalmente, validamos los multiplicadores entrenables con los optimizadores Adam y Muon, donde se observa una mejora en las evaluaciones posteriores que iguala la mejora obtenida al cambiar de Adam a Muon.
La constancia del color en condiciones nocturnas sigue siendo un problema desafiante en la fotografía computacional debido al ruido en condiciones de poca luz y a las complejas condiciones de iluminación. Presentamos RL-AWB, un novedoso marco que combina métodos estadísticos con aprendizaje por refuerzo profundo para el balance de blancos nocturno. Nuestro método comienza con un algoritmo estadístico diseñado para escenas nocturnas, integrando la detección de píxeles grises salientes con una novedosa estimación de iluminación. Sobre esta base, desarrollamos el primer enfoque de aprendizaje por refuerzo profundo para la constancia del color que utiliza el algoritmo estadístico como núcleo, imitando a los expertos profesionales en ajuste de AWB al optimizar dinámicamente los parámetros para cada imagen. Para facilitar la evaluación multisensor, presentamos el primer conjunto de datos nocturnos multisensor. Los resultados experimentales demuestran que nuestro método logra una capacidad de generalización superior tanto en imágenes con poca luz como en aquellas bien iluminadas. Página del proyecto: https://ntuneillee.github.io/research/rl-awb/
Los grandes modelos de lenguaje (LLMs) demuestran fortalezas en diversos dominios. Sin embargo, lograr un rendimiento sólido en todos estos dominios con un único modelo de propósito general normalmente requiere escalar a tamaños que son prohibitivamente costosos de entrenar e implementar. Por otro lado, aunque los modelos más pequeños especializados en dominios son mucho más eficientes, tienen dificultades para generalizar más allá de sus distribuciones de entrenamiento. Para abordar este dilema, proponemos FusionRoute, un marco de colaboración multi-LLM robusto y efectivo a nivel de token, en el cual un enrutador ligero selecciona simultáneamente (i) al experto más adecuado en cada paso de decodificación y (ii) contribuye con un logit complementario que refina o corrige la distribución del siguiente token del experto seleccionado mediante la suma de logits. A diferencia de los métodos de colaboración a nivel de token existentes que se basan únicamente en salidas fijas de expertos, proporcionamos un análisis teórico que muestra que el enrutamiento puramente basado en expertos es fundamentalmente limitado: a menos que se cumplan fuertes suposiciones de cobertura global, en general no puede realizar la política de decodificación óptima. Al aumentar la selección de expertos con un generador complementario entrenable, FusionRoute expande la clase de políticas efectiva y permite la recuperación de funciones de valor óptimas bajo condiciones suaves. Empíricamente, en las familias Llama-3 y Gemma-2 y en diversos benchmarks que abarcan razonamiento matemático, generación de código y seguimiento de instrucciones, FusionRoute supera tanto a la colaboración a nivel de secuencia como a nivel de token, a la fusión de modelos y al ajuste fino directo, manteniéndose competitivo con los expertos de dominio en sus respectivas tareas.
La diversidad, cantidad y calidad de los datos de manipulación son cruciales para entrenar políticas robóticas efectivas. Sin embargo, debido a las limitaciones del hardware y la configuración física, la recolección de datos de manipulación a gran escala en entornos del mundo real sigue siendo difícil de escalar en diversos entornos. Trabajos recientes utilizan modelos de difusión de imágenes condicionados por texto para aumentar los datos de manipulación alterando los fondos y los objetos sobre superficies en las observaciones visuales. No obstante, estos enfoques a menudo pasan por alto la necesidad práctica de observaciones coherentes temporalmente y desde múltiples vistas, requeridas por los modelos de políticas más avanzados. Además, los prompts de texto por sí solos no pueden especificar de manera confiable la configuración de la escena. Para proporcionar al modelo de difusión una guía visual explícita, introducimos el "visual identity prompting", que suministra imágenes ejemplares como entradas de condicionamiento para guiar la generación de la configuración de escena deseada. Con este fin, también construimos un pipeline escalable para curar un banco de identidades visuales a partir de grandes conjuntos de datos robóticos. Utilizar nuestros datos de manipulación aumentados para entrenar modelos de políticas visión-lenguaje-acción y visuomotores genera mejoras de rendimiento consistentes tanto en entornos de simulación como en configuraciones con robots reales.
Los Modelos de Lenguaje Grandes (LLM) para el razonamiento complejo a menudo se ven obstaculizados por altos costes computacionales y latencia, mientras que los Modelos de Lenguaje Pequeños (SLM) eficientes en recursos generalmente carecen de la capacidad de razonamiento necesaria. Los enfoques colaborativos existentes, como la cascada o el enrutamiento, operan con una granularidad gruesa, descargando consultas completas a los LLM, lo que resulta en un desperdicio computacional significativo cuando el SLM es capaz de manejar la mayoría de los pasos de razonamiento. Para abordar esto, proponemos RelayLLM, un marco novedoso para el razonamiento eficiente mediante decodificación colaborativa a nivel de token. A diferencia de los enrutadores, RelayLLM permite que el SLM actúe como un controlador activo que invoca dinámicamente al LLM solo para tokens críticos mediante un comando especial, "relevando" efectivamente el proceso de generación. Introducimos un marco de entrenamiento de dos etapas, que incluye calentamiento y Optimización de la Política Relativa de Grupo (GRPO), para enseñar al modelo a equilibrar la independencia con la búsqueda estratégica de ayuda. Los resultados empíricos en seis puntos de referencia demuestran que RelayLLM logra una precisión promedio del 49.52%, cerrando efectivamente la brecha de rendimiento entre los dos modelos. Notablemente, esto se logra invocando al LLM para solo el 1.07% del total de tokens generados, ofreciendo una reducción de costes del 98.2% en comparación con enrutadores aleatorios de rendimiento equivalente.
Los agentes de LLM han surgido como sistemas potentes para abordar tareas multi-turno mediante la intercalación de razonamiento interno e interacciones con herramientas externas. El Aprendizaje por Refuerzo Agéntico ha atraído recientemente una atención significativa en la investigación como un paradigma crítico de post-entrenamiento para refinar aún más estas capacidades. En este artículo, presentamos AT^2PO (Optimización de Políticas por Turnos Agéntica mediante Búsqueda en Árbol), un marco unificado para el aprendizaje por refuerzo agéntico multi-turno que aborda tres desafíos centrales: diversidad de exploración limitada, asignación de crédito dispersa y optimización de políticas desalineada. AT^2PO introduce una estructura de árbol a nivel de turno que permite conjuntamente una Expansión de Árbol Guiada por Entropía para la exploración estratégica y una Asignación de Crédito por Turnos para la propagación de recompensas de grano fino a partir de resultados dispersos. Complementando esto, proponemos la Optimización de Políticas por Turnos Agéntica, un objetivo de aprendizaje a nivel de turno que alinea las actualizaciones de políticas con la granularidad natural de decisión de las interacciones agénticas. ATPO es ortogonal a la búsqueda en árbol y puede integrarse fácilmente en cualquier pipeline de aprendizaje por refuerzo multi-turno. Los experimentos en siete benchmarks demuestran mejoras consistentes sobre el estado del arte, de hasta 1.84 puntos porcentuales en promedio, con estudios de ablación que validan la efectividad de cada componente. Nuestro código está disponible en https://github.com/zzfoutofspace/ATPO.
El razonamiento de cadena de pensamiento (CoT) ha surgido como una herramienta poderosa para los modelos de lenguaje grandes multimodales en tareas de comprensión de videos. Sin embargo, su necesidad y ventajas sobre la respuesta directa siguen siendo poco exploradas. En este artículo, primero demostramos que para los modelos de video entrenados con aprendizaje por refuerzo, la respuesta directa a menudo iguala o incluso supera el rendimiento de CoT, a pesar de que CoT produce análisis paso a paso con un costo computacional mayor. Motivados por esto, proponemos VideoAuto-R1, un marco de comprensión de videos que adopta una estrategia de razonar-cuando-sea-necesario. Durante el entrenamiento, nuestro enfoque sigue un paradigma de Pensar Una Vez, Responder Dos Veces: el modelo genera primero una respuesta inicial, luego realiza el razonamiento y finalmente produce una respuesta revisada. Ambas respuestas se supervisan mediante recompensas verificables. Durante la inferencia, el modelo utiliza la puntuación de confianza de la respuesta inicial para determinar si proceder con el razonamiento. En diversos puntos de referencia de QA y grounding de videos, VideoAuto-R1 logra una precisión de vanguardia con una eficiencia significativamente mejorada, reduciendo la longitud promedio de respuesta en ~3.3x, por ejemplo, de 149 a solo 44 tokens. Además, observamos una baja tasa de activación del modo de pensamiento en tareas orientadas a la percepción, pero una tasa más alta en tareas intensivas en razonamiento. Esto sugiere que el razonamiento explícito basado en lenguaje es generalmente beneficioso pero no siempre necesario.
Los modelos deíndole visual-lingüística (VLM, por sus siglas en inglés) logran un rendimiento notable, pero siguen siendo vulnerables a los ataques adversarios. La entropía, una medida de la incertidumbre del modelo, está fuertemente correlacionada con la confiabilidad de los VLM. Los ataques adversarios previos basados en entropía maximizan la incertidumbre en todos los pasos de decodificación, asumiendo implícitamente que cada *token* contribuye por igual a la inestabilidad de la generación. En cambio, demostramos que una pequeña fracción (aproximadamente el 20%) de *tokens* de alta entropía, es decir, puntos de decisión críticos en la generación autoregresiva, gobierna de manera desproporcionada las trayectorias de salida. Al concentrar las perturbaciones adversarias en estas posiciones, logramos una degradación semántica comparable a los métodos globales mientras utilizamos presupuestos sustancialmente más pequeños. Más importante aún, en múltiples VLM representativos, tales ataques selectivos convierten entre el 35% y el 49% de las salidas benignas en salidas dañinas, exponiendo un riesgo de seguridad más crítico. Notablemente, estas bifurcaciones vulnerables de alta entropía se repiten en VLM arquitectónicamente diversos, permitiendo una transferibilidad factible (tasas de conversión a dañinas del 17-26% en objetivos no vistos). Motivados por estos hallazgos, proponemos los Ataques Adversarios Guiados por Banco de Entropía (EGA), que logra tasas de éxito de ataque competitivas (93-95%) junto con una alta conversión a contenido dañino, revelando así nuevas debilidades en los mecanismos de seguridad de los VLM actuales.
Los modelos de mundo de vídeo buscan simular entornos dinámicos del mundo real, pero los métodos existentes tienen dificultades para proporcionar un control unificado y preciso sobre el movimiento de la cámara y de múltiples objetos, ya que los vídeos operan inherentemente con dinámicas en el plano de imagen 2D proyectado. Para salvar esta brecha, presentamos VerseCrafter, un modelo de mundo de vídeo consciente del espacio 4D que permite un control explícito y coherente tanto de la dinámica de la cámara como de los objetos dentro de un estado mundial geométrico 4D unificado. Nuestro enfoque se centra en una novedosa representación de Control Geométrico 4D, que codifica el estado mundial mediante una nube de puntos de fondo estática y trayectorias de Gaussianos 3D por objeto. Esta representación captura no solo la trayectoria de un objeto, sino también su ocupación probabilística 3D a lo largo del tiempo, ofreciendo una alternativa flexible e independiente de la categoría a los rígidos cuadros delimitadores o modelos paramétricos. Estos controles 4D se renderizan en señales de condicionamiento para un modelo de difusión de vídeo preentrenado, permitiendo la generación de vídeos de alta fidelidad y consistencia visual que se adhieren precisamente a las dinámicas especificadas. Lamentablemente, otro desafío importante radica en la escasez de datos de entrenamiento a gran escala con anotaciones 4D explícitas. Abordamos esto desarrollando un motor de datos automático que extrae los controles 4D requeridos a partir de vídeos del mundo real, permitiéndonos entrenar nuestro modelo con un conjunto de datos masivo y diverso.
Se asume ampliamente que los modelos Mixture of Experts logran especialización de dominio mediante el enrutamiento disperso. En este trabajo, cuestionamos esta suposición al introducir COMMITTEEAUDIT, un marco *post hoc* que analiza el comportamiento de enrutamiento a nivel de grupos de expertos en lugar de expertos individuales. En tres modelos representativos y el benchmark MMLU, descubrimos un Comité Permanente invariante al dominio. Esta es una coalición compacta de expertos enrutados que captura consistentemente la mayoría de la masa de enrutamiento a través de dominios, capas y presupuestos de enrutamiento, incluso cuando las arquitecturas ya incluyen expertos compartidos. Un análisis cualitativo muestra además que los Comités Permanentes anclan la estructura de razonamiento y la sintaxis, mientras que los expertos periféricos manejan el conocimiento específico del dominio. Estos hallazgos revelan un fuerte sesgo estructural hacia la computación centralizada, lo que sugiere que la especialización en los modelos Mixture of Experts es mucho menos generalizada de lo que comúnmente se cree. Este sesgo inherente también indica que los objetivos de entrenamiento actuales, como las pérdidas de equilibrio de carga que imponen una utilización uniforme de los expertos, podrían estar operando en contra de la ruta natural de optimización del modelo, limitando así la eficiencia del entrenamiento y el rendimiento.
El modelo LLM-como-juez ha revolucionado la evaluación de IA al aprovechar los modelos de lenguaje extensos para realizar evaluaciones escalables. Sin embargo, a medida que los elementos a evaluar se vuelven cada vez más complejos, especializados y multifásicos, la fiabilidad del modelo LLM-como-juez se ha visto limitada por sesgos inherentes, razonamientos superficiales de única pasada y la incapacidad de verificar las evaluaciones frente a observaciones del mundo real. Esto ha catalizado la transición hacia el modelo Agente-como-juez, donde los jueces agentes emplean planificación, verificación aumentada con herramientas, colaboración multiagente y memoria persistente para permitir evaluaciones más sólidas, verificables y matizadas. A pesar de la rápida proliferación de sistemas de evaluación agenticos, el campo carece de un marco unificado para navegar este panorama cambiante. Para cerrar esta brecha, presentamos la primera revisión exhaustiva que traza esta evolución. Específicamente, identificamos dimensiones clave que caracterizan este cambio de paradigma y establecemos una taxonomía de desarrollo. Organizamos metodologías centrales y revisamos aplicaciones en dominios generales y profesionales. Además, analizamos desafíos de vanguardia e identificamos direcciones de investigación prometedoras, proporcionando finalmente una hoja de ruta clara para la próxima generación de evaluación agentica.
Los métodos de re-renderizado de vídeo generativo controlados por cámara, como ReCamMaster, han logrado avances notables. Sin embargo, a pesar de su éxito en entornos de vista única, estos trabajos suelen tener dificultades para mantener la coherencia en escenarios multivista. Garantizar la coherencia espacio-temporal en las regiones alucinadas sigue siendo un desafío debido a la estocasticidad inherente de los modelos generativos. Para abordarlo, presentamos PlenopticDreamer, un framework que sincroniza las alucinaciones generativas para mantener una memoria espacio-temporal. La idea central es entrenar un modelo de vídeo condicionado multi-entrada-single-salida de manera autoregresiva, asistido por una estrategia de recuperación de vídeo guiada por cámara que selecciona adaptativamente vídeos salientes de generaciones previas como entradas condicionales. Adicionalmente, nuestro entrenamiento incorpora escalado progresivo de contexto para mejorar la convergencia, auto-condicionamiento para aumentar la robustez frente a la degradación visual a largo plazo causada por la acumulación de errores, y un mecanismo de condicionamiento de vídeo largo para soportar la generación de vídeos extendidos. Experimentos exhaustivos en los benchmarks Basic y Agibot demuestran que PlenopticDreamer logra un re-renderizado de vídeo estado del arte, ofreciendo una sincronización de vistas superior, visuales de alta fidelidad, control preciso de cámara y transformaciones de vista diversas (por ejemplo, de tercera persona a tercera persona, y de vista de cabeza a vista de pinza en manipulación robótica). Página del proyecto: https://research.nvidia.com/labs/dir/plenopticdreamer/
La respuesta a preguntas en entornos 3D (EQA) a menudo requiere recopilar contexto distribuido en múltiples puntos de vista y parcialmente ocluido. Sin embargo, la mayoría de los modelos visión-lenguaje (VLM) recientes están limitados a un conjunto fijo y finito de vistas de entrada, lo que restringe su capacidad para adquirir contexto relevante para la pregunta en el momento de la inferencia y dificulta el razonamiento espacial complejo. Proponemos el prompting de Cadena-de-Vista (CoV), un marco de razonamiento en tiempo de prueba que no requiere entrenamiento y que transforma un VLM en un razonador activo de puntos de vista mediante un proceso de exploración de grueso a fino. CoV emplea primero un agente de Selección de Vista para filtrar fotogramas redundantes e identificar vistas ancla alineadas con la pregunta. Luego realiza un ajuste de vista de grano fino intercalando razonamiento iterativo con acciones discretas de cámara, obteniendo nuevas observaciones de la representación subyacente de la escena 3D hasta que se reúne suficiente contexto o se alcanza un límite de pasos. Evaluamos CoV en OpenEQA utilizando cuatro VLMs principales y obtenemos una mejora promedio de +11.56% en LLM-Match, con una ganancia máxima de +13.62% en Qwen3-VL-Flash. CoV exhibe además escalado en tiempo de prueba: aumentar el presupuesto mínimo de acción produce una mejora promedio adicional de +2.51%, alcanzando un pico de +3.73% en Gemini-2.5-Flash. En ScanQA y SQA3D, CoV ofrece un rendimiento sólido (por ejemplo, 116 CIDEr / 31.9 EM@1 en ScanQA y 51.1 EM@1 en SQA3D). En general, estos resultados sugieren que la selección de vistas alineada con la pregunta, combinada con una búsqueda de vistas abiertas, es una estrategia efectiva y agnóstica al modelo para mejorar el razonamiento espacial en EQA 3D sin necesidad de entrenamiento adicional.
El razonamiento de Cadena de Pensamiento (CoT) mejora la resolución de problemas matemáticos multi-etapa en modelos de lenguaje grandes, pero sigue siendo vulnerable al sesgo de exposición y a la acumulación de errores, ya que los errores tempranos se propagan irreversiblemente a través de la decodificación autoregresiva. En este trabajo, proponemos DiffCoT, un marco CoT de estilo difusivo que reformula el razonamiento CoT como un proceso iterativo de eliminación de ruido. DiffCoT integra principios de difusión a nivel de paso de razonamiento mediante un mecanismo de ventana deslizante, permitiendo la generación unificada y la corrección retrospectiva de pasos intermedios mientras preserva la autoregresión a nivel de token. Para mantener la consistencia causal, introducimos además un programa de ruido de difusión causal que respeta la estructura temporal de las cadenas de razonamiento. Experimentos exhaustivos en tres benchmarks de razonamiento CoT multi-etapa con diversos modelos base demuestran que DiffCoT supera consistentemente a los métodos existentes de optimización de preferencias CoT, logrando una mayor robustez y capacidad de corrección de errores en el razonamiento CoT.
La Respuesta a Preguntas sobre Documentos (DocQA) se centra en responder preguntas basadas en documentos dados, pero los agentes de DocQA existentes carecen de una utilización efectiva de herramientas y dependen en gran medida de modelos de código cerrado. En este trabajo, presentamos DocDancer, un agente de documentos de código abierto entrenado de extremo a extremo. Formulamos DocQA como un problema de búsqueda de información y proponemos un marco de agente impulsado por herramientas que modela explícitamente la exploración y comprensión de documentos. Para permitir el entrenamiento de extremo a extremo de dichos agentes, introducimos una canalización de síntesis de datos de Exploración-y-luego-Síntesis que aborda la escasez de datos de entrenamiento de alta calidad para DocQA. El entrenamiento con los datos sintetizados, y los modelos resultantes evaluados en dos benchmarks de comprensión de documentos de contexto largo, MMLongBench-Doc y DocBench, demuestran su eficacia. Un análisis adicional proporciona información valiosa para el diseño de herramientas de agentes y los datos sintéticos.
La generación y edición de imágenes en contexto (ICGE) permite a los usuarios especificar conceptos visuales mediante indicaciones intercaladas de imagen y texto, lo que exige una comprensión precisa y una ejecución fiel de la intención del usuario. Aunque los modelos multimodales unificados recientes exhiben capacidades de comprensión prometedoras, estas fortalezas a menudo no se transfieren eficazmente a la generación de imágenes. Presentamos Re-Align, un marco unificado que salva la brecha entre la comprensión y la generación mediante una alineación guiada por razonamiento estructurado. En su núcleo se encuentra la Cadena de Razonamiento en Contexto (IC-CoT), un paradigma de razonamiento estructurado que desacopla la guía semántica y la asociación de referencias, proporcionando un objetivo textual claro y mitigando la confusión entre imágenes de referencia. Además, Re-Align introduce un esquema de entrenamiento efectivo con Aprendizaje por Refuerzo que aprovecha una recompensa sustitutiva para medir la alineación entre el texto de razonamiento estructurado y la imagen generada, mejorando así el rendimiento general del modelo en tareas ICGE. Experimentos exhaustivos verifican que Re-Align supera a métodos competitivos de escala y recursos comparables tanto en tareas de generación como de edición de imágenes en contexto.
Los modelos generativos se utilizan cada vez más en visión 3D para sintetizar formas novedosas, aunque aún no está claro si su generación se basa en memorizar las formas de entrenamiento. Comprender su memorización podría ayudar a prevenir la filtración de datos de entrenamiento y mejorar la diversidad de los resultados generados. En este artículo, diseñamos un marco de evaluación para cuantificar la memorización en modelos generativos 3D y estudiar la influencia de diferentes diseños de datos y modelos en la memorización. Primero aplicamos nuestro marco para cuantificar la memorización en métodos existentes. Luego, mediante experimentos controlados con un modelo de difusión de vectores latentes (Vecset), encontramos que, en cuanto a los datos, la memorización depende de la modalidad de los datos y aumenta con la diversidad de datos y un condicionamiento más granular; en cuanto al modelado, alcanza su punto máximo con una escala de guía moderada y puede mitigarse con Vecsets más largos y una simple aumentación por rotación. En conjunto, nuestro marco y análisis proporcionan una comprensión empírica de la memorización en modelos generativos 3D y sugieren estrategias simples pero efectivas para reducirla sin degradar la calidad de la generación. Nuestro código está disponible en https://github.com/zlab-princeton/3d_mem.
Los límites suaves, como cabellos finos, son comúnmente observados en imágenes naturales y generadas por computadora, pero siguen siendo un desafío para la visión 3D debido a la ambigua mezcla de indicios de primer plano y fondo. Este artículo presenta Guardians of the Hair (HairGuard), un marco diseñado para recuperar detalles de límites suaves de grano fino en tareas de visión 3D. Específicamente, primero proponemos una novedosa canalización de curación de datos que aprovecha conjuntos de datos de recorte de imágenes para el entrenamiento y diseñamos una red fijadora de profundidad para identificar automáticamente regiones de límites suaves. Con un módulo residual con compuerta, el fijador de profundidad refina la profundidad con precisión alrededor de los límites suaves mientras mantiene la calidad de la profundidad global, permitiendo una integración plug-and-play con modelos de profundidad de vanguardia. Para la síntesis de vistas, realizamos un warping hacia adelante basado en profundidad para retener texturas de alta fidelidad, seguido de un pintor generativo de escenas que rellena regiones desocludidas y elimina artefactos de fondo redundantes dentro de los límites suaves. Finalmente, un fusionador de color combina adaptativamente los resultados deformados e inpintados para producir nuevas vistas con geometría consistente y detalles de grano fino. Experimentos exhaustivos demuestran que HairGuard logra un rendimiento de vanguardia en estimación de profundidad monocular, conversión de imágenes/vídeo estéreo y síntesis de nuevas vistas, con mejoras significativas en regiones de límites suaves.
La capacidad de razonamiento de los grandes modelos de lenguaje (LLMs) puede ser potenciada mediante el aprendizaje por refuerzo (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). El éxito de los intentos existentes de RL en LLMs suele depender de muestras de alta calidad que ascienden a miles o más. En este artículo, cuestionamos los supuestos fundamentales sobre los requisitos de datos en RL para LLMs al demostrar la notable eficacia del aprendizaje one-shot. Específicamente, presentamos el *polymath learning*, un marco para diseñar una única muestra de entrenamiento que genera un impacto multidisciplinario. Presentamos tres hallazgos clave: (1) Una única muestra de razonamiento matemático, seleccionada estratégicamente, puede producir mejoras significativas de rendimiento en múltiples dominios, incluyendo física, química y biología, mediante RL; (2) Las habilidades matemáticas relevantes para el razonamiento sugieren las características de la muestra *polymath* óptima; y (3) Una muestra sintética diseñada que integra elementos multidisciplinares supera al entrenamiento con muestras individuales que aparecen de forma natural. Nuestro enfoque logra un rendimiento superior al entrenamiento con conjuntos de datos más grandes en varios benchmarks de razonamiento, lo que demuestra que la calidad y el diseño de la muestra, más que la cantidad, podrían ser la clave para desbloquear capacidades de razonamiento mejoradas en los modelos de lenguaje. Nuestros resultados sugieren un cambio, denominado *sample engineering* (ingeniería de muestras), hacia la ingeniería de precisión de las muestras de entrenamiento en lugar de simplemente aumentar el volumen de datos.
Presentamos ProFuse, un marco eficiente y consciente del contexto para la comprensión de escenas 3D de vocabulario abierto mediante *Gaussian Splatting* 3D (3DGS). La canalización mejora la consistencia multi-vista y la cohesión intra-máscara dentro de una configuración de registro directo, añadiendo una sobrecarga mínima y sin requerir ajuste fino supervisado por renderizado. En lugar de depender de una escena 3DGS preentrenada, introducimos una fase de preregistro guiado por correspondencias densas que inicializa los Gaussianos con una geometría precisa mientras construye conjuntamente *Propuestas de Contexto 3D* mediante agrupamiento multi-vista. Cada propuesta porta una característica global obtenida mediante la agregación ponderada de los *embeddings* de sus miembros, y esta característica se fusiona en los Gaussianos durante el registro directo para mantener la coherencia lingüística por primitiva en todas las vistas. Al establecer las asociaciones de antemano, la fusión semántica no requiere optimización adicional más allá de la reconstrucción estándar, y el modelo conserva el refinamiento geométrico sin necesidad de densificación. ProFuse logra una sólida comprensión 3DGS de vocabulario abierto mientras completa la anotación semántica en aproximadamente cinco minutos por escena, lo que es dos veces más rápido que el estado de la técnica (SOTA).
Los modelos autorregresivos (AR) han logrado un éxito notable en la síntesis de imágenes, aunque su naturaleza secuencial impone restricciones significativas de latencia. La Decodificación Especulativa ofrece una vía prometedora para la aceleración, pero los enfoques existentes están limitados por la ambigüedad a nivel de token y la falta de conciencia espacial. En este trabajo, presentamos la Decodificación Especulativa Local Multi-Escala (MuLo-SD), un marco novedoso que combina la generación de borradores multi-resolución con una verificación espacialmente informada para acelerar la generación de imágenes AR. Nuestro método aprovecha un generador de borradores de baja resolución emparejado con muestreadores ascendentes aprendidos para proponer tokens de imagen candidatos, que luego son verificados en paralelo por un modelo objetivo de alta resolución. De manera crucial, incorporamos un mecanismo local de rechazo y remuestreo, que permite la corrección eficiente de errores en los borradores al centrarse en vecindarios espaciales, en lugar de un remuestreo secuencial tras el primer rechazo. Demostramos que MuLo-SD logra aceleraciones sustanciales —hasta 1.7 veces— superando a líneas base sólidas de decodificación especulativa como EAGLE-2 y LANTERN en términos de aceleración, manteniendo una alineación semántica y calidad perceptual comparables. Estos resultados se validan utilizando GenEval, DPG-Bench y FID/HPSv2 en la división de validación de 5k imágenes de MS-COCO. Ablaciones extensivas destacan el impacto del diseño del muestreo ascendente, la agrupación de probabilidades y el rechazo y remuestreo local con expansión de vecindario. Nuestro enfoque establece un nuevo estado del arte en la decodificación especulativa para síntesis de imágenes, cerrando la brecha entre eficiencia y fidelidad.
Los recientes avances en agentes de grandes modelos de lenguaje (LLM) se han centrado principalmente en incorporar mecanismos de auto-mejora dentro del agente o en realizar búsquedas sobre múltiples variantes concurrentes. Si bien estos enfoques pueden elevar las puntuaciones agregadas, a menudo producen trayectorias de mejora inestables y difíciles de auditar, lo que dificulta garantizar la no regresión o analizar fallos entre versiones. Replanteamos la mejora de agentes como ingeniería de versiones: los agentes se tratan como artefactos entregables, y la mejora se externaliza en un pipeline de lanzamiento consciente de regresiones. Presentamos AgentDevel, un pipeline de ingeniería de versiones que ejecuta iterativamente el agente actual, genera señales de calidad ciegas a la implementación a nivel de síntomas a partir de trazas de ejecución, sintetiza un único candidato a lanzamiento (RC) mediante diagnóstico ejecutable y lo promueve bajo una compuerta de validación centrada en cambios de estado. AgentDevel presenta tres diseños principales: (i) un crítico de LLM ciego a la implementación que caracteriza las apariencias de fallo sin acceder a los internos del agente, (ii) un diagnóstico ejecutable basado en scripts que agrega patrones de síntomas dominantes y produce especificaciones de ingeniería auditables, y (iii) una compuerta de validación centrada en cambios de estado que prioriza las regresiones de paso a fallo y las correcciones de fallo a paso como evidencia de primer orden. A diferencia de la búsqueda basada en poblaciones o el auto-refinamiento interno del agente, AgentDevel mantiene una única línea de versión canónica y enfatiza la no regresión como objetivo principal. Los experimentos en benchmarks con alta carga de ejecución demuestran que AgentDevel produce mejoras estables con significativamente menos regresiones, generando artefactos reproducibles y auditables. En general, AgentDevel proporciona una disciplina de desarrollo práctica para construir, depurar y lanzar agentes de LLM como desarrollo de software.
La clonación de comportamiento está experimentando un resurgimiento en popularidad, ya que escalar tanto el tamaño de los modelos como el de los datos demuestra ser un punto de partida sólido para muchas tareas de interés. En este trabajo, presentamos una receta abierta para entrenar un modelo fundacional que juega a videojuegos, diseñado para realizar inferencias en tiempo real en una GPU de consumo. Publicamos todos los datos (más de 8300 horas de juego humano de alta calidad), el código de entrenamiento e inferencia, y los puntos de control preentrenados bajo una licencia abierta. Demostramos que nuestro mejor modelo es capaz de jugar a una variedad de videojuegos en 3D a un nivel competitivo con el juego humano. Utilizamos esta receta para examinar sistemáticamente las leyes de escalado de la clonación de comportamiento, con el fin de entender cómo el rendimiento y el razonamiento causal del modelo varían con la escala del modelo y de los datos. Primero demostramos en un problema juguete simple que, para algunos tipos de razonamiento causal, aumentar tanto la cantidad de datos de entrenamiento como la profundidad de la red resulta en que el modelo aprenda una política más causal. Luego estudiamos sistemáticamente cómo varía la causalidad con el número de parámetros (y la profundidad) y los pasos de entrenamiento en modelos escalados de hasta 1.2 mil millones de parámetros, y encontramos resultados de escalado similares a los que observamos en el problema juguete.
Los recientes avances en modelos de difusión de video han migrado hacia arquitecturas basadas en transformadores, logrando una generación de video de vanguardia pero a costa de una complejidad de atención cuadrática, lo que limita severamente la escalabilidad para secuencias más largas. Presentamos ReHyAt, un mecanismo de Atención Híbrida Recurrente que combina la fidelidad de la atención softmax con la eficiencia de la atención lineal, permitiendo una reformulación recurrente por fragmentos y un uso de memoria constante. A diferencia del modelo concurrente SANA Video que utiliza solo atención lineal, el diseño híbrido de ReHyAt permite una destilación eficiente a partir de modelos existentes basados en softmax, reduciendo el coste de entrenamiento en dos órdenes de magnitud hasta ~160 horas de GPU, manteniéndose competitivo en calidad. Nuestro pipeline ligero de destilación y ajuste fino proporciona una receta aplicable a futuros modelos bidireccionales de última generación basados en softmax. Los experimentos en VBench y VBench-2.0, junto con un estudio de preferencia humana, demuestran que ReHyAt alcanza una calidad de video state-of-the-art mientras reduce el coste de atención de cuadrático a lineal, permitiendo una escalabilidad práctica para la generación de video de larga duración y en dispositivos. La página del proyecto está disponible en https://qualcomm-ai-research.github.io/rehyat.
Este artículo investiga la integración del paradigma de Aprendizaje Utilizando Información Privilegiada (LUPI) en la detección de objetos para aprovechar información detallada y descriptiva disponible durante el entrenamiento pero no durante la inferencia. Introducimos una metodología general e independiente del modelo para inyectar información privilegiada—como máscaras de cuadros delimitadores, mapas de saliencia y claves de profundidad—en detectores de objetos basados en aprendizaje profundo mediante una arquitectura maestro-estudiante. Se realizan experimentos en cinco modelos de vanguardia de detección de objetos y múltiples benchmarks públicos, incluyendo conjuntos de datos de detección de basura basados en UAV y Pascal VOC 2012, para evaluar el impacto en la precisión, generalización y eficiencia computacional. Nuestros resultados demuestran que los modelos estudiante entrenados con LUPI superan consistentemente a sus contrapartes de referencia, logrando mejoras significativas en la precisión de detección sin aumentar la complejidad de inferencia ni el tamaño del modelo. Las mejoras de rendimiento son especialmente notables para objetos medianos y grandes, mientras que estudios de ablación revelan que una ponderación intermedia de la guía del maestro equilibra óptimamente el aprendizaje a partir de entradas privilegiadas y estándar. Los hallazgos confirman que el marco LUPI proporciona una estrategia efectiva y práctica para avanzar en los sistemas de detección de objetos, tanto en entornos con recursos limitados como en escenarios del mundo real.
La alineación posterior al entrenamiento de modelos de difusión se basa en señales simplificadas, como recompensas escalares o preferencias binarias. Esto limita la alineación con la experiencia humana compleja, que es jerárquica y de grano fino. Para abordar esto, primero construimos un criterio de evaluación jerárquico y detallado con expertos en el dominio, que descompone la calidad de la imagen en múltiples atributos positivos y negativos organizados en una estructura de árbol. Sobre esta base, proponemos un marco de alineación de dos etapas. Primero, inyectamos conocimiento del dominio a un modelo de difusión auxiliar mediante Ajuste Supervisado. Segundo, introducimos la Optimización de Preferencias Complejas (CPO), que extiende DPO para alinear el modelo de difusión objetivo con nuestros criterios jerárquicos no binarios. Específicamente, reformulamos el problema de alineación para maximizar simultáneamente la probabilidad de los atributos positivos y minimizar la probabilidad de los atributos negativos utilizando el modelo de difusión auxiliar. Instanciamos nuestro enfoque en el dominio de la generación de pinturas y realizamos el entrenamiento CPO con un conjunto de datos anotado de pinturas con atributos detallados basados en nuestros criterios. Experimentos exhaustivos demuestran que CPO mejora significativamente la calidad de la generación y la alineación con la experiencia experta, abriendo nuevas vías para la alineación con criterios de grano fino.
Los modelos piramidales propuestos recientemente descomponen los procesos convencionales de difusión hacia adelante y hacia atrás en múltiples etapas que operan a distintas resoluciones. Estos modelos manejan entradas con niveles de ruido más altos en resoluciones más bajas, mientras que las entradas menos ruidosas se procesan en resoluciones más altas. Este enfoque jerárquico reduce significativamente el costo computacional de la inferencia en modelos de desruido multi-etapa. Sin embargo, los modelos piramidales de video de código abierto existentes han sido entrenados desde cero y tienden a tener un rendimiento inferior en comparación con los sistemas de vanguardia en términos de plausibilidad visual. En este trabajo, presentamos un *pipeline* que convierte un modelo de difusión preentrenado en uno piramidal mediante un ajuste fino de bajo costo, logrando esta transformación sin degradación en la calidad de los videos de salida. Además, investigamos y comparamos varias estrategias de destilación de pasos dentro de modelos piramidales, con el objetivo de mejorar aún más la eficiencia de la inferencia. Nuestros resultados están disponibles en https://qualcomm-ai-research.github.io/PyramidalWan.
Presentamos IMDD-1M, el primer conjunto de datos a gran escala de Defectos Multimodales Industriales que comprende 1.000.000 de pares alineados de imagen-texto, diseñado para impulsar el aprendizaje multimodal en manufactura e inspección de calidad. IMDD-1M contiene defectos del mundo real en alta resolución que abarcan más de 60 categorías de materiales y más de 400 tipos de defectos, cada uno acompañado de anotaciones verificadas por expertos y descripciones textuales detalladas que especifican la ubicación, severidad y atributos contextuales del defecto. Este conjunto de datos permite un amplio espectro de aplicaciones, incluyendo clasificación, segmentación, recuperación, generación de descripciones y modelado generativo. Basándonos en IMDD-1M, entrenamos desde cero un modelo base de visión y lenguaje basado en difusión, específicamente adaptado para escenarios industriales. El modelo sirve como base generalizable que puede adaptarse eficientemente a dominios especializados mediante ajuste fino ligero. Requiriendo menos del 5% de los datos específicos por tarea que necesitan los modelos expertos dedicados, logra un rendimiento comparable, destacando el potencial de la adaptación eficiente de modelos base para inspección y generación industrial, allanando el camino para una inteligencia de manufactura escalable, adaptable al dominio y basada en conocimiento.
Este trabajo presenta VERSE, una metodología para analizar y mejorar los Modelos de Lenguaje y Visión aplicados a la Comprensión de Documentos Visualmente Ricos mediante la exploración de su espacio de incrustaciones visuales. VERSE permite visualizar las representaciones latentes, respaldando la evaluación de la viabilidad del modelo. También facilita la identificación de regiones problemáticas y guía la generación de datos sintéticos para mejorar el rendimiento en esos conglomerados. Validamos la metodología entrenando con el conjunto de datos sintético MERIT y evaluando en su contraparte del mundo real, MERIT Secret. Los resultados muestran que VERSE ayuda a descubrir las características visuales asociadas con conglomerados propensos a errores, y que el reentrenamiento con muestras que contienen estas características aumenta sustancialmente el rendimiento F1 sin degradar la generalización. Además, demostramos que modelos locales como Donut e Idefics2, cuando se optimizan con VERSE, igualan o incluso superan el rendimiento de soluciones SaaS como GPT-4 y Pixtral.
A medida que los agentes conversacionales acumulan experiencia colaborando con usuarios, la adaptación a las preferencias del usuario es esencial para fomentar relaciones a largo plazo y mejorar la calidad de la colaboración con el tiempo. Presentamos MultiSessionCollab, un benchmark que evalúa la capacidad de los agentes para aprender las preferencias del usuario y aprovecharlas para mejorar la calidad de la colaboración a lo largo de múltiples sesiones. Para desarrollar agentes que tengan éxito en este entorno, presentamos agentes colaborativos a largo plazo equipados con una memoria que persiste y refina las preferencias del usuario a medida que se acumula la experiencia de interacción. Además, demostramos que se pueden derivar señales de aprendizaje del comportamiento del simulador de usuarios en MultiSessionCollab para entrenar a los agentes a generar reflexiones más completas y actualizar su memoria de manera más efectiva. Experimentos exhaustivos muestran que equipar a los agentes con memoria mejora la colaboración a largo plazo, logrando mayores tasas de éxito en las tareas, interacciones más eficientes y una reducción del esfuerzo del usuario. Finalmente, realizamos un estudio con usuarios humanos que demuestra que la memoria ayuda a mejorar la experiencia del usuario en entornos del mundo real.
El ajuste fino de modelos de lenguaje grandes (LLM) alineados con la seguridad puede comprometer sustancialmente su seguridad. Los enfoques anteriores requieren muchas muestras de seguridad o conjuntos de calibración, lo que no solo genera una sobrecarga computacional significativa durante el realineamiento, sino que también provoca una degradación notable en la utilidad del modelo. Contrario a esta creencia, demostramos que la alineación de seguridad puede recuperarse completamente con solo un único ejemplo de seguridad, sin sacrificar la utilidad y a un costo mínimo. Notablemente, esta recuperación es efectiva independientemente del número de ejemplos dañinos utilizados en el ajuste fino o del tamaño del modelo subyacente, y la convergencia se logra en solo unas pocas épocas. Además, descubrimos la estructura de bajo rango del gradiente de seguridad, lo que explica por qué es posible una corrección tan eficiente. Validamos nuestros hallazgos en cinco LLM alineados con la seguridad y múltiples conjuntos de datos, demostrando la generalidad de nuestro enfoque.
Presentamos LEMAS-Dataset, que, hasta donde sabemos, es actualmente el corpus de voz multilingüe de código abierto más grande con marcas de tiempo a nivel de palabra. Abarcando más de 150.000 horas en 10 idiomas principales, LEMAS-Dataset se construye mediante una canalización de procesamiento de datos eficiente que garantiza datos y anotaciones de alta calidad. Para validar la efectividad de LEMAS-Dataset en diversos paradigmas generativos, entrenamos dos modelos de referencia con arquitecturas y especializaciones de tareas distintas en este conjunto de datos. LEMAS-TTS, basado en un marco no autoregresivo de emparejamiento de flujos, aprovecha la escala masiva y la diversidad lingüística del conjunto de datos para lograr una síntesis multilingüe robusta de cero disparos. Nuestro entrenamiento acento-adversario propuesto y la pérdida CTC mitigan los problemas de acento cruzado, mejorando la estabilidad de la síntesis. De manera complementaria, LEMAS-Edit emplea una arquitectura autoregresiva solo-decodificador que formula la edición de voz como una tarea de relleno de tokens enmascarados. Al explotar las alineaciones precisas a nivel de palabra para construir máscaras de entrenamiento y adoptar estrategias de decodificación adaptativas, logra una edición de voz fluida, con límites suaves y transiciones naturales. Los resultados experimentales demuestran que los modelos entrenados en LEMAS-Dataset ofrecen una síntesis y un rendimiento de edición de alta calidad, lo que confirma la calidad del conjunto de datos. Prevemos que este corpus multilingüe de grano fino, ricamente anotado con marcas de tiempo, impulsará futuros avances en los sistemas de generación de voz basados en prompts.