Artículos de investigación en IA seleccionados diariamente con traducciones
En los modelos de Transformador de Difusión (DiT), particularmente para la generación de video, la latencia de atención es un cuello de botella importante debido a la longitud de las secuencias y la complejidad cuadrática. Descubrimos que los pesos de atención pueden separarse en dos partes: una pequeña fracción de pesos grandes con rango alto y los pesos restantes con rango muy bajo. Esto sugiere naturalmente aplicar aceleración dispersa a la primera parte y aceleración de bajo rango a la segunda. Basándonos en este hallazgo, proponemos SLA (Atención Lineal Dispersa), un método de atención entrenable que fusiona atención dispersa y lineal para acelerar los modelos de difusión. SLA clasifica los pesos de atención en categorías críticos, marginales y despreciables, aplicando atención O(N^2) a los pesos críticos, atención O(N) a los pesos marginales y omitiendo los despreciables. SLA combina estos cálculos en un único núcleo de GPU y soporta tanto pasos hacia adelante como hacia atrás. Con solo unos pocos pasos de ajuste fino utilizando SLA, los modelos DiT logran una reducción de 20x en el cálculo de atención, lo que resulta en una aceleración significativa sin pérdida de calidad en la generación. Los experimentos muestran que SLA reduce el cálculo de atención en un 95% sin degradar la calidad de generación de extremo a extremo, superando a los métodos de referencia. Además, implementamos un núcleo de GPU eficiente para SLA, que produce una aceleración de 13.7x en el cálculo de atención y una aceleración de 2.2x en la generación de video de extremo a extremo en Wan2.1-1.3B.
Los tokenizadores semánticos de habla predominantes, diseñados para capturar contenido lingüístico, son sorprendentemente frágiles. Descubrimos que no son robustos frente a perturbaciones acústicas irrelevantes para el significado; incluso en relaciones Señal-Ruido (SNR) altas, donde el habla es perfectamente inteligible, sus secuencias de tokens de salida pueden cambiar drásticamente, aumentando la carga de aprendizaje para los modelos de lenguaje grandes (LLM) posteriores. Esta inestabilidad se debe a dos fallas: una arquitectura de cuantización de ruta única frágil y una señal de entrenamiento distante indiferente a la estabilidad de los tokens intermedios. Para abordar esto, presentamos StableToken, un tokenizador que logra estabilidad mediante un mecanismo basado en consenso. Su arquitectura de múltiples ramas procesa el audio en paralelo, y estas representaciones se fusionan mediante un potente mecanismo de votación bit a bit para formar una única secuencia de tokens estable. StableToken establece un nuevo estado del arte en estabilidad de tokens, reduciendo drásticamente la Distancia de Edición de Unidades (UED) bajo diversas condiciones de ruido. Esta estabilidad fundamental se traduce directamente en beneficios posteriores, mejorando significativamente la robustez de los SpeechLLM en una variedad de tareas.
El aprendizaje por refuerzo basado en retroalimentación humana (RLHF, por sus siglas en inglés) ha surgido como el paradigma estándar para alinear modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con las preferencias humanas. Sin embargo, los métodos basados en recompensas construidos bajo el supuesto de Bradley-Terry tienen dificultades para capturar la naturaleza no transitiva y heterogénea de las preferencias del mundo real. Para abordar esto, estudios recientes han replanteado la alineación como un juego de Nash de dos jugadores, dando lugar al aprendizaje de Nash basado en retroalimentación humana (NLHF, por sus siglas en inglés). Aunque esta perspectiva ha inspirado algoritmos como INPO, ONPO y EGPO, con sólidas garantías teóricas y empíricas, estos siguen estando fundamentalmente restringidos a interacciones de dos jugadores, creando un sesgo de un solo oponente que no logra capturar la complejidad completa de las estructuras de preferencias realistas. En este trabajo, presentamos la Optimización de Preferencias de Nash Multi-Jugador (MNPO, por sus siglas en inglés), un marco novedoso que generaliza NLHF al régimen de múltiples jugadores. Este formula la alineación como un juego de n jugadores, donde cada política compite contra una población de oponentes mientras se regulariza hacia un modelo de referencia. Nuestro marco establece equilibrios de Nash bien definidos en entornos de múltiples jugadores y extiende el concepto de brecha de dualidad para cuantificar la calidad de la aproximación. Demostramos que MNPO hereda las garantías de equilibrio de los métodos de dos jugadores, al tiempo que permite dinámicas competitivas más ricas y una mejor cobertura de estructuras de preferencias diversas. A través de una evaluación empírica exhaustiva, mostramos que MNPO supera consistentemente los baselines existentes de NLHF en benchmarks de seguimiento de instrucciones, logrando una calidad de alineación superior bajo condiciones de anotadores heterogéneos y escenarios de evaluación de políticas mixtas. En conjunto, estos resultados establecen a MNPO como un marco fundamentado y escalable para alinear LLMs con preferencias humanas complejas y no transitivas. El código está disponible en https://github.com/smiles724/MNPO.
El rendimiento de los modelos multimodales unificados para la generación y edición de imágenes está fundamentalmente limitado por la calidad y exhaustividad de sus datos de entrenamiento. Aunque los conjuntos de datos existentes han cubierto tareas básicas como la transferencia de estilos y la manipulación simple de objetos, a menudo carecen de la estructura sistemática y los escenarios desafiantes necesarios para aplicaciones del mundo real. Para abordar este cuello de botella, presentamos OpenGPT-4o-Image, un conjunto de datos a gran escala construido mediante una metodología novedosa que combina una taxonomía jerárquica de tareas con la generación automatizada de datos. Nuestra taxonomía no solo incluye capacidades fundamentales como la representación de texto y el control de estilos, sino que también introduce categorías altamente prácticas pero desafiantes, como imágenes científicas para ilustraciones de química y edición de instrucciones complejas que requieren la ejecución simultánea de múltiples operaciones. A través de una canalización automatizada que aprovecha recursos estructurados y GPT-4o, generamos 80k pares de instrucción-imagen de alta calidad con diversidad controlada, cubriendo 11 dominios principales y 51 subtareas. Experimentos extensos muestran que el ajuste fino de modelos líderes en nuestro conjunto de datos logra mejoras significativas en múltiples puntos de referencia, con avances de hasta el 18\% en tareas de edición (UniWorld-V1 en ImgEdit-Bench) y el 13% en tareas de generación (Harmon en GenEval). Nuestro trabajo demuestra que la construcción sistemática de datos es clave para avanzar en las capacidades de la IA multimodal.
Una visión predominante en el Aprendizaje por Refuerzo para Recompensas Verificables (RLVR) interpreta los avances recientes a través de la lente de un equilibrio entre exploración y explotación, una perspectiva en gran medida moldeada por métricas a nivel de tokens. Reexaminamos esta perspectiva, proponiendo que este equilibrio percibido podría no ser una restricción fundamental, sino más bien un artefacto del nivel de medición. Para investigar esto, trasladamos el análisis al espacio de estados ocultos semánticamente rico, adoptando el Rango Efectivo (ER) para cuantificar la exploración y proponiendo sus novedosas derivadas de primer y segundo orden, denominadas Velocidad del Rango Efectivo (ERV) y Aceleración del Rango Efectivo (ERA), para capturar las dinámicas de explotación. Nuestro análisis revela que, a nivel de estados ocultos, la exploración y la explotación podrían desacoplarse (Sección 4). Este hallazgo revela una oportunidad para mejorar ambas capacidades simultáneamente. Esta idea motiva nuestro método, Aprendizaje de Rango con Explotación de Velocidad (VERL), el primero en operacionalizar el principio de mejora sinérgica de exploración-explotación al moldear directamente la función de ventaja del RL. La innovación clave es aprovechar la ERA teóricamente estable como un meta-controlador predictivo para crear una estructura de incentivos sinérgica de doble canal. En lugar de forzar un equilibrio, VERL amplifica prospectivamente las recompensas para la exploración para prevenir la sobreconfianza y refuerza las ganancias explotativas para consolidar el razonamiento. Los experimentos en diversos LLM y benchmarks de razonamiento muestran mejoras consistentes, incluyendo un aumento de hasta el 21.4% en precisión absoluta en el desafiante conjunto de datos Gaokao 2024.
La integración de la comprensión y generación visual en modelos multimodales unificados representa un avance significativo hacia la inteligencia artificial de propósito general. Sin embargo, una pregunta fundamental sigue sin respuesta en los benchmarks existentes: ¿realmente esta unificación arquitectónica permite una interacción sinérgica entre las capacidades constituyentes? Los paradigmas de evaluación actuales, que principalmente evalúan la comprensión y la generación de manera aislada, son insuficientes para determinar si un modelo unificado puede aprovechar su comprensión para mejorar su generación o utilizar la simulación generativa para facilitar una comprensión más profunda. Para abordar esta brecha crítica, presentamos RealUnify, un benchmark diseñado específicamente para evaluar la sinergia bidireccional de capacidades. RealUnify comprende 1,000 instancias meticulosamente anotadas por humanos que abarcan 10 categorías y 32 subtareas. Está estructurado en torno a dos ejes principales: 1) La Comprensión Mejora la Generación, que requiere razonamiento (por ejemplo, sentido común, lógica) para guiar la generación de imágenes, y 2) La Generación Mejora la Comprensión, que exige simulación mental o reconstrucción (por ejemplo, de entradas visuales transformadas o desordenadas) para resolver tareas de razonamiento. Una contribución clave es nuestro protocolo de evaluación dual, que combina la evaluación directa de extremo a extremo con una evaluación diagnóstica paso a paso que descompone las tareas en fases distintas de comprensión y generación. Este protocolo nos permite discernir con precisión si los cuellos de botella en el rendimiento se deben a deficiencias en las capacidades centrales o a un fallo en su integración. A través de evaluaciones a gran escala de 12 modelos unificados líderes y 6 líneas base especializadas, encontramos que los modelos unificados actuales aún tienen dificultades para lograr una sinergia efectiva, lo que indica que la unificación arquitectónica por sí sola es insuficiente. Estos resultados resaltan la necesidad de nuevas estrategias de entrenamiento y sesgos inductivos para desbloquear plenamente el potencial del modelado unificado.
Presentamos SANA-Video, un pequeño modelo de difusión que puede generar eficientemente videos con una resolución de hasta 720x1280 y una duración de varios minutos. SANA-Video sintetiza videos de alta resolución, alta calidad y larga duración con una fuerte alineación texto-video a una velocidad notablemente rápida, desplegable en GPU RTX 5090. Dos diseños clave aseguran nuestra generación de videos eficiente, efectiva y de larga duración: (1) Linear DiT: Utilizamos la atención lineal como operación central, que es más eficiente que la atención convencional dado el gran número de tokens procesados en la generación de videos. (2) Caché KV de memoria constante para Atención Lineal por Bloques: diseñamos un enfoque autoregresivo por bloques para la generación de videos largos empleando un estado de memoria constante, derivado de las propiedades acumulativas de la atención lineal. Este caché KV proporciona al Linear DiT un contexto global con un costo de memoria fijo, eliminando la necesidad de un caché KV tradicional y permitiendo una generación eficiente de videos de varios minutos. Además, exploramos filtros de datos efectivos y estrategias de entrenamiento del modelo, reduciendo el costo de entrenamiento a 12 días en 64 GPUs H100, lo que representa solo el 1% del costo de MovieGen. Dado su bajo costo, SANA-Video logra un rendimiento competitivo en comparación con los modelos modernos de difusión pequeños más avanzados (por ejemplo, Wan 2.1-1.3B y SkyReel-V2-1.3B), siendo 16 veces más rápido en latencia medida. Además, SANA-Video puede desplegarse en GPUs RTX 5090 con precisión NVFP4, acelerando la velocidad de inferencia para generar un video de 5 segundos en 720p de 71s a 29s (una aceleración de 2.4x). En resumen, SANA-Video permite la generación de videos de alta calidad a bajo costo.
Los modelos de lenguaje de difusión (DLMs, por sus siglas en inglés) poseen una fuerte eficiencia teórica, pero están limitados por la decodificación de longitud fija y la incompatibilidad con las cachés de clave-valor (KV). La difusión por bloques mitiga estos problemas, aunque aún impone un tamaño de bloque fijo y requiere un entrenamiento costoso. Introducimos la Predicción de la Siguiente Secuencia (NSP, por sus siglas en inglés), que unifica la predicción del siguiente token y del siguiente bloque, permitiendo que el modelo determine de manera adaptativa la longitud de generación en cada paso. Cuando la longitud se fija en 1, NSP se reduce a la predicción estándar del siguiente token. Basándonos en NSP, proponemos el Modelo de Lenguaje de Difusión Secuencial (SDLM, por sus siglas en inglés), que puede adaptar modelos de lenguaje autorregresivos (ALMs, por sus siglas en inglés) preentrenados con un costo mínimo. Específicamente, SDLM realiza inferencia de difusión dentro de bloques de máscara de tamaño fijo, pero decodifica dinámicamente subsecuencias consecutivas basándose en la confianza del modelo, preservando así la compatibilidad con las cachés KV y mejorando la robustez frente a la variabilidad de la incertidumbre y la semántica a lo largo de la secuencia. Los experimentos muestran que SDLM iguala o supera a fuertes líneas base autorregresivas utilizando solo 3.5 millones de muestras de entrenamiento, mientras logra un rendimiento 2.1 veces mayor que Qwen-2.5. Notablemente, el modelo SDLM-32B ofrece ganancias de eficiencia aún más pronunciadas, demostrando el fuerte potencial de escalabilidad de nuestro paradigma de modelado. Página del proyecto y códigos: https://github.com/OpenGVLab/SDLM.
Los científicos de IA están desarrollando sistemas computacionales que funcionan como colaboradores en el descubrimiento. Estos sistemas siguen siendo difíciles de construir porque son personalizados, están vinculados a flujos de trabajo rígidos y carecen de entornos compartidos que unifiquen herramientas, datos y análisis en un ecosistema común. En el ámbito de las ómicas, los ecosistemas unificados han transformado la investigación al permitir la interoperabilidad, la reutilización y el desarrollo impulsado por la comunidad; los científicos de IA requieren una infraestructura comparable. Presentamos ToolUniverse, un ecosistema para construir científicos de IA a partir de cualquier lenguaje o modelo de razonamiento, ya sea abierto o cerrado. TOOLUNIVERSE estandariza cómo los científicos de IA identifican y llaman a las herramientas, integrando más de 600 modelos de aprendizaje automático, conjuntos de datos, APIs y paquetes científicos para el análisis de datos, la recuperación de conocimiento y el diseño experimental. Refina automáticamente las interfaces de las herramientas para su uso correcto por parte de los científicos de IA, crea nuevas herramientas a partir de descripciones en lenguaje natural, optimiza iterativamente las especificaciones de las herramientas y las compone en flujos de trabajo agentivos. En un estudio de caso sobre hipercolesterolemia, ToolUniverse se utilizó para crear un científico de IA que identificó un análogo potente de un fármaco con propiedades predichas favorables. El código abierto de ToolUniverse está disponible en https://aiscientist.tools.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) con capacidades de razonamiento han alcanzado un rendimiento de vanguardia en una amplia gama de tareas. A pesar de su éxito empírico, las tareas y escalas de modelos en las que el razonamiento se vuelve efectivo, así como sus costos de entrenamiento e inferencia, siguen siendo poco explorados. En este trabajo, nos basamos en un marco de destilación de datos sintéticos para llevar a cabo un estudio supervisado a gran escala. Comparamos el Ajuste Fino por Instrucción (IFT, por sus siglas en inglés) y modelos de razonamiento de diversos tamaños, en una amplia variedad de tareas centradas en matemáticas y de propósito general, evaluando tanto formatos de opción múltiple como de respuesta abierta. Nuestro análisis revela que el razonamiento mejora consistentemente el rendimiento del modelo, a menudo igualando o superando significativamente a sistemas IFT de mayor tamaño. Notablemente, aunque el IFT sigue siendo Pareto-óptimo en términos de costos de entrenamiento e inferencia, los modelos de razonamiento se vuelven cada vez más valiosos a medida que aumenta el tamaño del modelo, superando los límites de rendimiento del IFT en tareas intensivas en razonamiento y de respuesta abierta.
El entrenamiento posterior basado en aprendizaje por refuerzo ha surgido recientemente como un paradigma poderoso para mejorar las capacidades de alineación y razonamiento de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés). Si bien el entrenamiento posterior centrado en la visión es crucial para mejorar la comprensión intrínseca de las señales visuales en los MLLMs, los paradigmas actuales de entrenamiento posterior son predominantemente centrados en texto, donde las entradas visuales densas solo se utilizan para extraer indicios dispersos para el razonamiento basado en texto. Existen algunos enfoques en esta dirección; sin embargo, a menudo aún dependen del texto como mediador intermedio o introducen diseños generativos visuales adicionales. En este trabajo, presentamos Visual Jigsaw, un marco genérico de entrenamiento posterior autosupervisado diseñado para fortalecer la comprensión visual en los MLLMs. Visual Jigsaw se formula como una tarea general de ordenación: las entradas visuales se dividen, se mezclan y el modelo debe reconstruir la información visual produciendo la permutación correcta en lenguaje natural. Esto se alinea naturalmente con el aprendizaje por refuerzo a partir de recompensas verificables (RLVR, por sus siglas en inglés), no requiere componentes generativos visuales adicionales y deriva su señal de supervisión automáticamente sin necesidad de anotaciones. Instanciamos Visual Jigsaw en tres modalidades visuales, incluyendo imágenes, videos y datos 3D. Experimentos extensos demuestran mejoras sustanciales en la percepción de detalles finos, el razonamiento temporal y la comprensión espacial en 3D. Nuestros hallazgos resaltan el potencial de las tareas autosupervisadas centradas en la visión en el entrenamiento posterior de MLLMs y buscan inspirar más investigaciones sobre diseños de pretexto centrados en la visión. Página del proyecto: https://penghao-wu.github.io/visual_jigsaw/
Si bien los modelos de lenguaje basados en difusión (DLMs, por sus siglas en inglés) representan una alternativa prometedora a los modelos autorregresivos (ARs), los DLMs de código abierto existentes presentan una latencia de inferencia elevada. Este cuello de botella se debe principalmente a la complejidad cuadrática de la atención con respecto a la longitud del contexto al calcular todos los pares consulta-clave. Intuitivamente, para reducir esta complejidad, una estrategia natural es restringir la atención a patrones dispersos que retengan únicamente las conexiones más relevantes. Estos enfoques están bien establecidos en los ARs, donde la atención sigue patrones dispersos fijos y claramente definidos. Sin embargo, en los DLMs, observamos comportamientos de dispersión distintos: (1) los patrones de atención varían entre las cabezas, (2) los patrones de atención en cada cabeza permanecen altamente similares a lo largo de los pasos de desruido, y (3) los pasos iniciales de desruido son críticos para la generación. Estos hallazgos hacen que los métodos de atención dispersa diseñados para ARs sean en gran medida incompatibles con los DLMs, ya que no logran capturar estructuras específicas de cada cabeza y corren el riesgo de degradar la generación cuando se aplican en los pasos iniciales de desruido. Para abordar estos desafíos, proponemos SparseD, un novedoso método de atención dispersa para DLMs. Aprovechando las observaciones, SparseD solo requiere precalcular una vez los patrones dispersos específicos de cada cabeza y los reutiliza en todos los pasos. Esto evita recalcular los patrones dispersos en cada paso de desruido. Al mismo tiempo, SparseD utiliza atención completa en los pasos iniciales y luego cambia a atención dispersa en etapas posteriores para mantener la calidad de la generación. En conjunto, esto establece a SparseD como una solución práctica y eficiente para implementar DLMs en aplicaciones de contexto largo. Los resultados experimentales demuestran que SparseD logra una aceleración sin pérdidas, alcanzando una velocidad hasta 1.50 veces mayor que FlashAttention con una longitud de contexto de 64k y 1,024 pasos de desruido.
Los modelos de lenguaje visual (VLMs, por sus siglas en inglés) logran una modelización unificada de imágenes y texto, permitiéndoles realizar tareas complejas del mundo real a través de la percepción, planificación y razonamiento. Entre estas tareas, el razonamiento es particularmente representativo, siendo el razonamiento matemático un ejemplo destacado. Este resalta la capacidad de alto nivel de los VLMs para comprender información matemática en imágenes y llevar a cabo razonamientos sofisticados. Recientemente, se han propuesto numerosos puntos de referencia (benchmarks) de razonamiento matemático visual, pero a menudo se limitan a la geometría, carecen de cobertura de problemas matemáticos verbales y rara vez evalúan el razonamiento a través de múltiples imágenes. Para abordar estas brechas, presentamos GSM8K-V, un benchmark de razonamiento matemático visual puramente basado en múltiples imágenes. GSM8K-V se construye mapeando sistemáticamente cada muestra del ampliamente utilizado GSM8K basado en texto a su forma visual. A través de una pipeline de generación de imágenes automatizada cuidadosamente diseñada, combinada con una meticulosa anotación humana, seleccionamos 1,319 muestras de alta calidad. Evaluamos una amplia gama de modelos de código abierto y cerrado en GSM8K-V. Los resultados muestran que, aunque los VLMs existentes han casi saturado su rendimiento en GSM8K basado en texto, aún existe un margen sustancial de mejora en GSM8K-V. Por ejemplo, el modelo con mejor rendimiento, Gemini-2.5-Pro, alcanza un 95.22% de precisión en GSM8K, pero solo un 46.93% en GSM8K-V. Realizamos un análisis exhaustivo de GSM8K-V, examinando las limitaciones de los modelos actuales, así como las posibles direcciones de mejora. GSM8K-V ofrece una nueva perspectiva sobre el razonamiento matemático visual y establece un benchmark para guiar el desarrollo de VLMs más robustos y generalizables.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido como un paradigma prometedor para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Los métodos actuales se basan principalmente en marcos de optimización de políticas como PPO y GRPO, que siguen una iteración de políticas generalizada que alterna entre evaluar el valor de la política actual y mejorar la política basándose en dicha evaluación. Aunque son efectivos, a menudo sufren de inestabilidad en el entrenamiento y colapso de la diversidad, requiriendo trucos heurísticos complejos y un ajuste cuidadoso. Observamos que el RLVR estándar en el razonamiento matemático puede formalizarse como un Proceso de Decisión de Markov de horizonte finito especializado, con transiciones de estado deterministas, dinámicas estructuradas en árbol y recompensas terminales binarias. Aunque es de gran escala, la estructura subyacente es más simple que los entornos de control de propósito general para los cuales se desarrollaron los algoritmos populares de RL (por ejemplo, PPO), lo que sugiere que varias técnicas sofisticadas en los métodos existentes podrían reducirse o incluso omitirse. Basándonos en esta idea, demostramos un resultado sorprendente: la acción óptima puede recuperarse a partir de la función Q de una política uniformemente aleatoria fija, evitando así el ciclo de iteración de políticas generalizada y sus heurísticas asociadas. Introducimos la Valoración de Políticas Aleatorias para el Razonamiento Diverso (ROVER, por sus siglas en inglés) para traducir este principio en un algoritmo práctico y escalable para el razonamiento matemático en LLMs, un método de RL minimalista pero altamente efectivo que muestrea acciones a partir de un softmax sobre estos valores Q de política uniforme. ROVER preserva la diversidad durante todo el entrenamiento, permitiendo una exploración sostenida de múltiples vías válidas. En múltiples modelos base y benchmarks estándar de razonamiento matemático, ROVER demuestra un rendimiento superior tanto en calidad (+8.2 en pass@1, +16.8 en pass@256) como en diversidad (+17.6\%), a pesar de su radical simplificación en comparación con métodos existentes fuertes y complicados.
La edición de imágenes guiada por instrucciones ha logrado avances notables, sin embargo, los modelos actuales aún enfrentan desafíos con instrucciones complejas y a menudo requieren múltiples muestras para producir un resultado deseado. El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ofrece una solución prometedora, pero su adopción en la edición de imágenes se ha visto severamente obstaculizada por la falta de una señal de recompensa eficiente y de alta fidelidad. En este trabajo, presentamos una metodología integral para superar esta barrera, centrada en el desarrollo de un modelo de recompensa especializado y de vanguardia. Primero introducimos EditReward-Bench, un punto de referencia integral para evaluar sistemáticamente los modelos de recompensa en la calidad de la edición. Basándonos en este punto de referencia, desarrollamos EditScore, una serie de modelos de recompensa (7B-72B) para evaluar la calidad de la edición de imágenes guiada por instrucciones. A través de una cuidadosa curación y filtrado de datos, EditScore iguala efectivamente el rendimiento de los modelos de lenguaje visual (VLMs) propietarios. Además, junto con una estrategia de auto-ensamblaje efectiva adaptada a la naturaleza generativa de EditScore, nuestra variante más grande incluso supera a GPT-5 en el punto de referencia. Luego demostramos que un modelo de recompensa de alta fidelidad es la clave para desbloquear el RL en línea para la edición de imágenes. Nuestros experimentos muestran que, aunque incluso los VLMs de código abierto más grandes no logran proporcionar una señal de aprendizaje efectiva, EditScore permite una optimización de políticas eficiente y robusta. La aplicación de nuestro marco a un modelo base sólido, OmniGen2, resulta en un modelo final que muestra una mejora sustancial y consistente en el rendimiento. En general, este trabajo proporciona el primer camino sistemático desde la evaluación comparativa hasta el modelado de recompensas y el entrenamiento de RL en la edición de imágenes, demostrando que un modelo de recompensa especializado en el dominio y de alta fidelidad es la clave para desbloquear todo el potencial del RL en este ámbito.
Los Agentes de Investigación Profunda (DRAs, por sus siglas en inglés) pueden llevar a cabo investigaciones complejas de manera autónoma y generar informes exhaustivos, demostrando un fuerte potencial en el mundo real. Sin embargo, las evaluaciones existentes se basan principalmente en benchmarks de respuestas cerradas, mientras que los benchmarks de investigación profunda de respuestas abiertas siguen siendo escasos y, por lo general, descuidan los escenarios personalizados. Para cerrar esta brecha, presentamos el Personalized Deep Research Bench, el primer benchmark diseñado para evaluar la personalización en los DRAs. Este empareja 50 tareas de investigación diversas en 10 dominios con 25 perfiles de usuarios auténticos que combinan atributos de persona estructurados con contextos dinámicos del mundo real, generando 250 consultas realistas de usuario-tarea. Para evaluar el rendimiento del sistema, proponemos el Marco de Evaluación PQR, que mide conjuntamente (P) la Alineación de Personalización, (Q) la Calidad del Contenido y (R) la Fiabilidad de los Hechos. Nuestros experimentos en una variedad de sistemas destacan las capacidades y limitaciones actuales en el manejo de la investigación profunda personalizada. Este trabajo establece una base rigurosa para el desarrollo y evaluación de la próxima generación de asistentes de investigación con IA verdaderamente personalizados.
El direccionamiento de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) ha surgido como un paradigma prometedor para controlar el comportamiento de los modelos durante la inferencia mediante la manipulación dirigida de estados ocultos, ofreciendo una alternativa ligera al costoso reentrenamiento. Sin embargo, los marcos de direccionamiento existentes presentan limitaciones críticas: ineficiencia computacional, extensibilidad limitada y funcionalidad restringida que obstaculizan tanto el progreso de la investigación como la implementación práctica. Presentamos EasySteer, un marco unificado para el direccionamiento de LLM de alto rendimiento y extensible, construido sobre vLLM. Nuestro sistema cuenta con una arquitectura modular con interfaces conectables para métodos basados en análisis y aprendizaje, control de parámetros de grano fino, vectores de direccionamiento precalculados para ocho dominios de aplicación y un sistema de demostración interactivo. Gracias a la integración profunda con el motor de inferencia optimizado de vLLM, EasySteer logra una aceleración de 5.5 a 11.4 veces en comparación con los marcos existentes. Experimentos exhaustivos demuestran su eficacia en la mitigación de sobrepensamiento, la reducción de alucinaciones y otras aplicaciones clave. EasySteer transforma el direccionamiento de una técnica de investigación en una capacidad lista para producción, estableciendo una infraestructura crítica para modelos de lenguaje implementables y controlables.
Los recientes avances en la generación de texto a video han producido contenido cada vez más realista y diverso; sin embargo, evaluar dichos videos sigue siendo un desafío fundamental debido a su naturaleza multifacética, que abarca calidad visual, alineación semántica y consistencia física. Los evaluadores y modelos de recompensa existentes se limitan a puntuaciones únicas y opacas, carecen de interpretabilidad o proporcionan solo análisis superficiales, lo que los hace insuficientes para capturar la naturaleza integral de la evaluación de la calidad del video. Presentamos VideoScore2, un marco multidimensional, interpretable y alineado con humanos que evalúa explícitamente la calidad visual, la alineación texto-video y la consistencia física/de sentido común, mientras genera razonamientos detallados en cadena de pensamiento. Nuestro modelo se entrena en un conjunto de datos a gran escala, VideoFeedback2, que contiene 27,168 videos anotados por humanos con puntuaciones y trazas de razonamiento en tres dimensiones, utilizando una canalización de dos etapas que incluye ajuste fino supervisado seguido de aprendizaje por refuerzo con Optimización de Política Relativa de Grupo (GRPO) para mejorar la robustez analítica. Experimentos extensos demuestran que VideoScore2 logra un rendimiento superior con una precisión de 44.35 (+5.94) en nuestro punto de referencia interno VideoScore-Bench-v2 y un rendimiento promedio de 50.37 (+4.32) en cuatro puntos de referencia externos (VideoGenReward-Bench, VideoPhy2, etc.), al tiempo que proporciona evaluaciones interpretables que cierran la brecha entre la evaluación y la generación controlable mediante un modelado efectivo de recompensas para el muestreo Best-of-N. Página del proyecto: https://tiger-ai-lab.github.io/VideoScore2/
La generación de video en streaming, como un componente fundamental en los modelos de mundo interactivo y motores de juegos neuronales, tiene como objetivo producir flujos de video largos de alta calidad, baja latencia y coherencia temporal. Sin embargo, la mayoría de los trabajos existentes sufren de una acumulación severa de errores que a menudo degrada significativamente los videos generados en horizontes temporales prolongados. Diseñamos Rolling Forcing, una técnica novedosa de generación de video que permite la transmisión de videos largos con una acumulación mínima de errores. Rolling Forcing incorpora tres diseños innovadores. En primer lugar, en lugar de muestrear iterativamente fotogramas individuales, lo que acelera la propagación de errores, diseñamos un esquema de eliminación de ruido conjunto que elimina simultáneamente el ruido de múltiples fotogramas con niveles de ruido progresivamente crecientes. Este diseño relaja la causalidad estricta entre fotogramas adyacentes, suprimiendo efectivamente el crecimiento de errores. En segundo lugar, introducimos el mecanismo de atención de anclaje en la tarea de generación de video en streaming de largo horizonte, lo que permite al modelo mantener los estados clave de los fotogramas iniciales como un ancla de contexto global, mejorando así la consistencia global a largo plazo. En tercer lugar, diseñamos un algoritmo de entrenamiento eficiente que permite la destilación en pocos pasos sobre ventanas de eliminación de ruido ampliamente extendidas. Este algoritmo opera en ventanas no superpuestas y mitiga el sesgo de exposición condicionado a historias autogeneradas. Experimentos extensivos demuestran que Rolling Forcing permite la generación en tiempo real de videos de varios minutos en una sola GPU, con una acumulación de errores sustancialmente reducida.
Presentamos HunyuanImage 3.0, un modelo multimodal nativo que unifica la comprensión y generación multimodal dentro de un marco autoregresivo, con su módulo de generación de imágenes disponible públicamente. El logro de HunyuanImage 3.0 se basa en varios componentes clave, que incluyen una curación meticulosa de datos, un diseño de arquitectura avanzado, un esquema nativo de Cadena de Pensamientos (Chain-of-Thoughts), un preentrenamiento progresivo del modelo, un postentrenamiento agresivo y una infraestructura eficiente que permite el entrenamiento e inferencia a gran escala. Con estos avances, entrenamos exitosamente un modelo de Mezcla de Expertos (Mixture-of-Experts, MoE) que comprende más de 80 mil millones de parámetros en total, con 13 mil millones de parámetros activados por token durante la inferencia, convirtiéndolo en el modelo generativo de imágenes de código abierto más grande y potente hasta la fecha. Realizamos experimentos extensivos, y los resultados de la evaluación automática y humana de la alineación texto-imagen y la calidad visual demuestran que HunyuanImage 3.0 rivaliza con los modelos más avanzados anteriores. Al liberar el código y los pesos de HunyuanImage 3.0, nuestro objetivo es permitir que la comunidad explore nuevas ideas con un modelo base de última generación, fomentando un ecosistema multimodal dinámico y vibrante. Todos los recursos de código abierto están disponibles públicamente en https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.
El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha surgido como un paradigma de entrenamiento popular, especialmente cuando se combina con modelos de razonamiento. Aunque es efectivo, se centra principalmente en generar respuestas y carece de mecanismos para fomentar explícitamente la crítica o la reflexión. Varios estudios recientes, como el Ajuste Fino con Crítica (CFT) y la Destilación Guiada por Crítica (CGD), han demostrado los beneficios de enseñar explícitamente a los Modelos de Lenguaje de Gran Escala (LLMs) cómo criticar. Motivados por estos trabajos, proponemos el Aprendizaje por Refuerzo con Crítica (CRL), donde el modelo tiene la tarea de generar una crítica para un par (pregunta, solución). La recompensa se determina únicamente por si la etiqueta de juicio final \( c \) en {Verdadero, Falso} de la crítica generada coincide con el juicio de referencia \( c^* \). Basándonos en este punto, presentamos Critique-Coder, que se entrena con una combinación de RL y CRL, sustituyendo el 20\% de los datos estándar de RL con datos de CRL. Ajustamos finamente múltiples modelos (Critique-Coder) y los evaluamos en diferentes benchmarks para demostrar sus ventajas sobre los modelos que solo utilizan RL. Mostramos que Critique-Coder supera consistentemente a los baselines que solo utilizan RL en todos los benchmarks evaluados. En particular, nuestro Critique-Coder-8B puede alcanzar más del 60\% en LiveCodeBench (v5), superando a otros modelos de razonamiento como DeepCoder-14B y GPT-o1. Más allá de la generación de código, Critique-Coder también demuestra habilidades mejoradas de razonamiento general, como lo evidencia su mejor desempeño en tareas de razonamiento lógico del conjunto de datos BBEH. Esto indica que la aplicación de CRL en conjuntos de datos de codificación mejora las habilidades generales de razonamiento y crítica, que son transferibles a una amplia gama de tareas. Por lo tanto, creemos que CRL funciona como un gran complemento al RL estándar para el razonamiento en LLMs.
Postulamos que, para lograr una mejora continua del modelo y una alineación multifacética, los modelos futuros deben aprender de la interacción humana natural. Los modelos conversacionales actuales se alinean utilizando comentarios humanos preanotados y generados por expertos. En este trabajo, presentamos el Aprendizaje por Refuerzo a partir de la Interacción Humana (RLHI, por sus siglas en inglés), un paradigma que aprende directamente de conversaciones de usuarios en entornos no controlados. Desarrollamos dos métodos complementarios: (1) RLHI con Reescribas Guiadas por el Usuario, que revisa las respuestas insatisfactorias del modelo basándose en las respuestas de seguimiento en lenguaje natural de los usuarios, y (2) RLHI con Recompensas Basadas en el Usuario, que aprende mediante un modelo de recompensa condicionado al conocimiento del historial de interacción a largo plazo del usuario (denominado persona). Juntos, estos métodos vinculan las personas a largo plazo con las preferencias a nivel de turno mediante la optimización de preferencias condicionadas por la persona. Entrenados en conversaciones derivadas de WildChat, ambas variantes de RLHI superan a líneas de base sólidas en personalización y seguimiento de instrucciones, y comentarios similares mejoran el rendimiento en pruebas de razonamiento. Estos resultados sugieren que la interacción humana orgánica ofrece una supervisión escalable y efectiva para la alineación personalizada.
Estudiamos el problema de aplicar Modelos Fundamentales 3D (3DFMs) a la Síntesis de Nuevas Vistas Densas (NVS, por sus siglas en inglés). A pesar del progreso significativo en la Síntesis de Nuevas Vistas impulsado por NeRF y 3DGS, los enfoques actuales siguen dependiendo de atributos 3D precisos (por ejemplo, poses de cámara y nubes de puntos) obtenidos mediante Estructura a partir del Movimiento (SfM), que a menudo es lento y frágil en capturas con baja textura o superposición limitada. Los 3DFMs recientes muestran una aceleración de órdenes de magnitud en comparación con el pipeline tradicional y un gran potencial para NVS en línea. Sin embargo, la mayoría de las validaciones y conclusiones se limitan a configuraciones de vistas escasas. Nuestro estudio revela que escalar 3DFMs de manera ingenua a vistas densas enfrenta dos barreras fundamentales: un aumento dramático en la carga de VRAM y salidas imperfectas que degradan el entrenamiento 3D sensible a la inicialización. Para abordar estas barreras, presentamos VGGT-X, que incorpora una implementación eficiente en memoria de VGGT que escala a más de 1,000 imágenes, una alineación global adaptativa para mejorar la salida de VGGT y prácticas robustas de entrenamiento 3DGS. Experimentos extensos muestran que estas medidas cierran sustancialmente la brecha de fidelidad con pipelines inicializados por COLMAP, logrando resultados de vanguardia en NVS densa sin COLMAP y estimación de poses. Además, analizamos las causas de las brechas restantes con la renderización inicializada por COLMAP, proporcionando insights para el desarrollo futuro de modelos fundamentales 3D y NVS densa. Nuestra página del proyecto está disponible en https://dekuliutesla.github.io/vggt-x.github.io/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sobresalen en razonamiento matemático general, pero fracasan catastróficamente en matemáticas técnicas especializadas. En comunicaciones inalámbricas, donde los problemas requieren una manipulación precisa de límites teóricos de la información, restricciones de optimización y formulaciones de procesamiento de señales, incluso los modelos más avanzados luchan por alcanzar un desempeño competente. Presentamos WirelessMathLM, demostrando que modelos compactos (0.5B-7B parámetros) pueden igualar o superar a modelos mucho más grandes mediante aprendizaje por refuerzo específico del dominio con recompensas verificables. Nuestra idea clave es que los problemas de matemáticas inalámbricas poseen una propiedad única—la verificabilidad de la corrección—que permite un aprendizaje por refuerzo efectivo sin retroalimentación humana. Construimos WirelessMathBench-XL, un benchmark exhaustivo de 4,027 problemas extraídos de 970 artículos. Utilizando Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) con recompensas de verificación binaria, entrenamos modelos directamente desde puntos de control base sin un calentamiento supervisado. Nuestro modelo de 7B alcanza un 39.5% de precisión en WirelessMathBench-XL, acercándose a GPT-4o (40.4%) mientras utiliza aproximadamente 100 veces menos parámetros que DeepSeek-R1 (671B, 57.4%). Notablemente, el entrenamiento con GRPO casi duplica el rendimiento en todas las escalas de modelos (0.5B +11%, 3B +103%, 7B +81%), con transferencia positiva a benchmarks de matemáticas generales—nuestros modelos ganan +8.4 puntos en promedio en MATH, Minerva-Math, OlympiadBench, AMC y AIME sin ningún entrenamiento en estas tareas.
¿El aprendizaje por refuerzo (RL) enseña a los modelos de lenguaje grandes (LLMs) habilidades genuinamente nuevas, o simplemente activa las existentes? Esta pregunta está en el centro de los debates actuales sobre el papel del RL en el post-entrenamiento de los LLMs. Por un lado, se pueden lograr resultados empíricos sólidos con RL incluso sin un ajuste supervisado previo; por otro, los críticos argumentan que el RL contribuye poco más allá de reajustar las estrategias de razonamiento existentes. Este trabajo proporciona evidencia concreta de que los LLMs pueden adquirir habilidades genuinamente nuevas durante el RL al componer las existentes, reflejando uno de los mecanismos centrales mediante los cuales los humanos adquieren nuevas habilidades cognitivas. Para mitigar la contaminación de datos y otros factores de confusión, y permitir un control preciso sobre la complejidad de las tareas, desarrollamos un marco sintético para nuestra investigación. Específicamente, definimos una habilidad como la capacidad de inferir la salida de una función de transformación de cadenas f(x) dado x. Cuando un LLM ya ha aprendido f y g antes del RL, nuestros experimentos revelan que el RL le permite aprender composiciones no vistas de ellas h(x)=g(f(x)). Además, esta capacidad composicional se generaliza a problemas más difíciles, como composiciones de >2 funciones no vistas durante el entrenamiento de RL. Sorprendentemente, nuestros experimentos muestran que la habilidad composicional adquirida en una tarea fuente se transfiere a una tarea objetivo diferente. Esta transferencia ocurre incluso sin entrenamiento composicional en el objetivo, requiriendo solo conocimiento previo de las habilidades atómicas del objetivo. Nuestro análisis cualitativo muestra que el RL cambia fundamentalmente los comportamientos de razonamiento de los modelos. En contraste, el entrenamiento de siguiente token con los mismos datos no produce ninguno de estos hallazgos. Nuestros experimentos sistemáticos proporcionan nuevas perspectivas sobre el aprendizaje de los LLMs, sugiriendo el valor de construir primero modelos base con habilidades básicas, y luego usar el RL para incentivar habilidades avanzadas y generalizables para problemas complejos.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en tareas de razonamiento dependen en gran medida de conjuntos de datos masivos y de alta calidad, típicamente anotados por humanos y, por lo tanto, difíciles de escalar. Aunque la síntesis o destilación de datos ofrece una alternativa prometedora, los métodos existentes enfrentan problemas de calidad inconsistente y una incapacidad para adaptarse dinámicamente a las capacidades evolutivas del modelo, lo que resulta en señales de entrenamiento subóptimas. Para abordar estas limitaciones, presentamos Socratic-Zero, un marco completamente autónomo que genera datos de entrenamiento de alta calidad a partir de ejemplos mínimos iniciales mediante la coevolución de tres agentes: el Maestro, el Solucionador y el Generador. El Solucionador refina continuamente su razonamiento al aprender de la retroalimentación de preferencias sobre trayectorias exitosas y fallidas; el Maestro diseña preguntas cada vez más desafiantes basándose en las debilidades del Solucionador; y el Generador destila la estrategia de diseño de preguntas del Maestro para permitir una generación escalable y de alta fidelidad del currículo. Este sistema de bucle cerrado produce un currículo de auto-mejora que no requiere tareas o etiquetas preexistentes. Notablemente, partiendo de solo 100 preguntas iniciales, nuestro Socratic-Solver-8B logra una mejora promedio de +20.2 puntos porcentuales sobre los métodos previos de síntesis de datos en siete benchmarks de razonamiento matemático (AMC23, AIME24-25, Olimpiada, MATH-500, Minerva y GSM8K), con ganancias consistentes en los modelos de las series Qwen3 y GLM4. Aún más sorprendente, los datos sintéticos generados por Socratic-Generator-32B permiten que los LLMs estudiantiles alcancen un rendimiento superior en comparación con otros LLMs comerciales de última generación (SOTA) en estos benchmarks, incluyendo Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 y Claude-4.1-Opus.
Los agentes de análisis de datos están surgiendo como un catalizador clave para el descubrimiento científico automatizado y para la visión de la Innovación en IA. Sin embargo, los enfoques actuales dependen en gran medida de la ingeniería de prompts sobre modelos propietarios, mientras que los modelos de código abierto luchan por enfrentarse a archivos de datos a gran escala con formatos diversos y a razonamientos de múltiples pasos y largo alcance que exige el análisis del mundo real. Este artículo presenta DataMind, una receta escalable de síntesis de datos y entrenamiento de agentes diseñada para construir agentes generalistas de análisis de datos. DataMind aborda tres desafíos clave en la construcción de agentes de análisis de datos de código abierto, incluyendo recursos de datos insuficientes, estrategias de entrenamiento inadecuadas y un despliegue multiturno basado en código inestable. Concretamente, DataMind aplica 1) una taxonomía de tareas detallada y un mecanismo de composición de tareas recursivo de fácil a difícil para aumentar la diversidad y dificultad de las consultas sintetizadas; 2) una estrategia de muestreo de trayectorias aumentada con conocimiento seguida de filtrado basado en modelos y reglas; 3) un objetivo de entrenamiento ajustable dinámicamente que combina pérdidas de SFT y RL; 4) un marco de despliegue multiturno basado en código estable y eficiente en memoria. Basado en DataMind, hemos creado DataMind-12K, un conjunto de trayectorias de alta calidad que abarca diversos dominios, categorías de tareas y formatos de archivos de datos para tareas de análisis de datos. Entrenado en DataMind-12K, nuestro DataMind-14B alcanza un estado del arte con una puntuación promedio del 71.16% en múltiples benchmarks de análisis de datos, superando a los baselines propietarios más fuertes, DeepSeek-V3.1 y GPT-5. Nuestro DataMind-7B también obtiene el mejor rendimiento entre todos los modelos de código abierto con una puntuación del 68.10%. Además, incorporamos algunas ideas empíricas obtenidas de nuestros ensayos exploratorios en los experimentos de análisis, con el objetivo de proporcionar conocimientos prácticos sobre el entrenamiento de agentes para la comunidad. Liberaremos DataMind-12K y DataMind-7B,14B para futuras investigaciones de la comunidad.
La inteligencia espacial abarca un amplio conjunto de habilidades, incluyendo la visualización y transformación de formas, la rotación mental de objetos, la evaluación de posiciones relacionales y contención, y la estimación de numerosidad. Sin embargo, sigue siendo un desafío crítico sin resolver para los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs). Para abordar esta brecha, proponemos tratar la resolución de problemas de geometría euclidiana como una tarea sustitutiva. Específicamente, construimos meticulosamente un conjunto de datos multimodal curado, llamado Euclid30K, que comprende aproximadamente 30K problemas de geometría plana y sólida. Para permitir que el modelo adquiera y aplique principios euclidianos a partir de estos problemas de geometría, empleamos la Optimización de Política Relativa de Grupo (GRPO) para ajustar las familias Qwen2.5VL y RoboBrain2.0, inspirando a los modelos a identificar formas, contar y relacionar entidades, y realizar razonamientos deductivos de múltiples pasos utilizando principios euclidianos. Nuestros experimentos demuestran que los modelos resultantes logran ganancias sustanciales en pruebas de razonamiento espacial (Super-CLEVR, Omni3DBench, VSI-Bench y MindCube) sin adaptaciones específicas para cada tarea. Notablemente, después del entrenamiento en Euclid30K, la precisión media en VSI-Bench de todos los modelos evaluados aumentó de 34.5% a 40.5%, mejorando en 5.5 puntos porcentuales. Entre ellos, RoboBrain2.0-Euclid-7B alcanza una precisión del 49.6%, superando al modelo anteriormente más avanzado, Spatial-MLLM. Hasta donde sabemos, este es el primer estudio sistemático que muestra que el ajuste fino centrado en la geometría puede dotar a los modelos de visión-lenguaje con habilidades espaciales ampliamente transferibles. El código y el conjunto de datos Euclid30K pueden encontrarse en https://zgca-ai4edu.github.io/Euclids_Gift.
La personalización visual es esencial en sistemas de inteligencia artificial orientados al usuario, como hogares inteligentes y atención médica, donde alinear el comportamiento del modelo con conceptos centrados en el usuario es crítico. Sin embargo, los recientes modelos de visión y lenguaje (VLMs, por sus siglas en inglés) de gran escala, a pesar de su amplia aplicabilidad, siguen siendo poco explorados en su capacidad para adaptarse a usuarios individuales. En este artículo, presentamos MMPB, el primer benchmark extenso para evaluar VLMs en personalización. MMPB comprende 10,000 pares de imagen-consulta e incluye 111 conceptos personalizables en cuatro categorías: humanos, animales, objetos y personajes, con la categoría humana enriquecida con consultas basadas en preferencias. Estructuramos la personalización en tres tipos principales de tareas, cada una destacando una propiedad clave diferente de los VLMs. Utilizando 23 VLMs ampliamente utilizados, tanto de código abierto como cerrado, evaluamos el rendimiento de personalización mediante un protocolo de tres etapas: inyección de conceptos, diálogo multiturno y consultas personalizadas. Nuestros hallazgos indican que la mayoría de los VLMs (incluidos algunos modelos de código cerrado) tienen dificultades con la personalización, particularmente en mantener la consistencia durante el diálogo, manejar las preferencias del usuario y adaptarse a señales visuales. Nuestro análisis revela que los desafíos en la personalización de VLMs (como comportamientos de rechazo y olvido de contexto largo) destacan un margen sustancial de mejora. Al identificar estas limitaciones y ofrecer un benchmark escalable, MMPB proporciona valiosas ideas y una base sólida para futuras investigaciones hacia una IA multimodal verdaderamente personalizada. Página del proyecto: aidaslab.github.io/MMPB.
Presentamos MGM-Omni, un modelo de lenguaje multimodal unificado (Omni LLM) para la comprensión omni-modal y la generación expresiva de habla de largo horizonte. A diferencia de los sistemas en cascada que aíslan la síntesis de voz, MGM-Omni adopta un diseño "cerebro-boca" con una arquitectura de doble vía basada en tokens que desacopla de manera clara el razonamiento multimodal de la generación de habla en tiempo real. Este diseño permite una interacción multimodal eficiente y una generación de habla en flujo continuo con baja latencia. Para la comprensión, una estrategia de entrenamiento unificada junto con un diseño de codificador de audio dual permite la percepción de audio de larga duración en diversas condiciones acústicas. Para la generación, un esquema de decodificación paralela basado en fragmentos reduce la brecha entre la tasa de tokens de texto y habla, acelerando la inferencia y permitiendo la clonación de voz en flujo continuo con timbre estable durante períodos prolongados. En comparación con trabajos contemporáneos, MGM-Omni logra estas capacidades con un entrenamiento notablemente eficiente en términos de datos. Experimentos exhaustivos demuestran que MGM-Omni supera a los modelos de código abierto existentes en la preservación de la identidad del timbre a lo largo de secuencias extendidas, la producción de habla natural y contextualmente consciente, y la comprensión superior de audio de larga duración y multimodal. MGM-Omni establece un paradigma eficiente y de extremo a extremo para la comprensión omni-modal y la generación controlada y personalizada de habla de largo horizonte.
La Estimación de Profundidad Monocular (MDE, por sus siglas en inglés) es una tarea fundamental en el campo de la visión por computadora. Los métodos tradicionales se ven limitados por la escasez y calidad de los datos, lo que dificulta su robustez. Para superar esto, proponemos BRIDGE, un marco de generación de profundidad a imagen (D2I, por sus siglas en inglés) optimizado con aprendizaje por refuerzo (RL, por sus siglas en inglés) que sintetiza más de 20 millones de imágenes RGB realistas y geométricamente precisas, cada una intrínsecamente emparejada con su profundidad de referencia, a partir de mapas de profundidad de diversas fuentes. Luego, entrenamos nuestro modelo de estimación de profundidad en este conjunto de datos, empleando una estrategia de supervisión híbrida que integra pseudoetiquetas generadas por un modelo maestro con la profundidad de referencia para un entrenamiento completo y robusto. Este paradigma innovador de generación de datos y entrenamiento permite a BRIDGE lograr avances en escala y diversidad de dominios, superando consistentemente los enfoques más avanzados existentes tanto cuantitativamente como en la captura de detalles en escenas complejas, fomentando así características de profundidad generales y robustas. El código y los modelos están disponibles en https://dingning-liu.github.io/bridge.github.io/.
El Razonamiento Integrado con Herramientas (TIR, por sus siglas en inglés) permite que los modelos de lenguaje de gran escala (LLMs) mejoren su capacidad de razonamiento interno mediante la integración de herramientas externas. Sin embargo, los modelos que emplean TIR suelen exhibir comportamientos subóptimos, como un uso insuficiente o excesivo de herramientas y una sobrecarga de pensamiento después de las llamadas a herramientas. El desafío de incentivar a los LLMs para que realicen TIR de manera eficiente y precisa, mientras se estabiliza el proceso de razonamiento, sigue siendo una pregunta abierta. En este artículo, comenzamos explorando el impacto de las llamadas a herramientas en el razonamiento del modelo desde la perspectiva de la entropía de la información. Nuestros hallazgos indican que los resultados de las llamadas a herramientas provocan un cambio distintivo en la entropía de la información del razonamiento posterior, con la entropía general de la cadena de razonamiento variando según el número de llamadas a herramientas. Basándonos en estas observaciones, proponemos Tool-Light, un marco diseñado para fomentar que los LLMs realicen TIR de manera eficiente y precisa. Nuestro marco incluye la construcción de conjuntos de datos y un ajuste fino en múltiples etapas. Para la construcción de conjuntos de datos, empleamos un muestreo continuo autoevolutivo utilizando el modelo ajustado, integrando tanto el muestreo estándar como el muestreo guiado por entropía. Además, establecemos criterios estrictos para la selección de pares positivo-negativos durante el muestreo. El proceso de entrenamiento implica un enfoque de dos etapas, que comprende el Ajuste Fino Supervisado (SFT) y la Optimización Directa de Preferencias Autoevolutiva (DPO). Los resultados experimentales en 10 conjuntos de datos demuestran la efectividad de Tool-Light, mejorando significativamente la eficiencia del modelo en la ejecución de tareas de TIR.
Los grandes modelos de visión y lenguaje (LVLMs, por sus siglas en inglés) logran un rendimiento sólido en tareas multimodales, aunque a menudo recurren a su prioridad lingüística (LP, por sus siglas en inglés) —patrones textuales memorizados durante el preentrenamiento— mientras subutilizan la evidencia visual. Los análisis previos de LP se basan principalmente en sondeos de entrada-salida, lo que no logra revelar los mecanismos internos que gobiernan cuándo y cómo la visión influye en el comportamiento del modelo. Para abordar esta brecha, presentamos el primer análisis sistemático de la prioridad lingüística a través de la lente de la cadena de incrustaciones, que examina la dinámica de representación capa por capa dentro de los LVLMs. Nuestro análisis revela un fenómeno universal: cada modelo exhibe un Punto de Integración Visual (VIP, por sus siglas en inglés), una capa crítica en la que la información visual comienza a remodelar significativamente las representaciones ocultas e influir en la decodificación. Basándonos en esta observación, introducimos el estimador de Integración Visual Total (TVI, por sus siglas en inglés), que agrega la distancia de representación más allá del VIP para cuantificar cuán fuertemente la consulta visual influye en la generación de respuestas. A través de 54 combinaciones de modelos y conjuntos de datos que abarcan 9 LVLMs contemporáneos y 6 puntos de referencia, demostramos que el VIP emerge consistentemente y que el TVI predice de manera confiable la fuerza de la prioridad lingüística. Esto ofrece un conjunto de herramientas fundamentales para diagnosticar y comprender la prioridad lingüística en los LVLMs.
El procesamiento de secuencias largas es una capacidad crítica para los modelos de lenguaje modernos de gran escala. Sin embargo, el mecanismo de autoatención en la arquitectura estándar del Transformer enfrenta severos cuellos de botella computacionales y de memoria al procesar secuencias largas. Aunque los métodos de atención dispersa entrenables ofrecen una solución prometedora, enfoques existentes como NSA introducen parámetros adicionales excesivos y alteran el flujo de trabajo convencional de preentrenamiento en secuencias cortas y ajuste fino en secuencias largas, lo que resulta en una convergencia lenta y dificultad para acelerar. Para superar estas limitaciones, presentamos un marco de atención conmutable densa-dispersa, denominado InfLLM-V2. InfLLM-V2 es una atención dispersa entrenable que adapta de manera fluida los modelos de secuencias cortas a largas. Específicamente, InfLLM-V2 reutiliza los parámetros de atención densa mediante una modificación arquitectónica sin parámetros, manteniendo la coherencia entre el procesamiento de secuencias cortas y largas. Además, InfLLM-V2 garantiza eficiencia computacional en todas las longitudes de secuencia, utilizando atención densa para entradas cortas y transicionando suavemente a atención dispersa para secuencias largas. Para lograr una aceleración práctica, introducimos una implementación eficiente de InfLLM-V2 que reduce significativamente la sobrecarga computacional. Nuestros experimentos en comprensión de contexto largo y razonamiento en cadena demuestran que InfLLM-V2 es 4 veces más rápido que la atención densa mientras retiene el 98.1% y el 99.7% del rendimiento, respectivamente. Basado en el marco de InfLLM-V2, hemos entrenado y liberado públicamente MiniCPM4.1 (https://huggingface.co/openbmb/MiniCPM4.1-8B), un modelo de razonamiento híbrido, proporcionando una implementación reproducible para la comunidad de investigación.
Los agentes de interfaz gráfica de usuario (GUI) basados en modelos de visión-lenguaje (VLM) muestran potencial para automatizar tareas complejas en entornos de escritorio y móviles, pero enfrentan desafíos significativos al aplicar el aprendizaje por refuerzo (RL): (1) interacciones multiturno lentas con entornos de GUI para el despliegue de políticas, y (2) interacciones insuficientes y de baja calidad entre el agente y el entorno para el aprendizaje de políticas. Para abordar estos desafíos, proponemos DART, un marco de Entrenamiento de Aprendizaje por Refuerzo Agéntico Desacoplado para agentes de GUI, que coordina módulos heterogéneos de manera altamente desacoplada. DART separa el sistema de entrenamiento en cuatro módulos asíncronos: clúster de entorno, servicio de despliegue, gestor de datos y entrenador. Este diseño permite comunicación no bloqueante, entrenamiento asíncrono, muestreo de trayectorias por despliegue y sincronización de modelos por trabajador, mejorando significativamente la eficiencia del sistema: 1.6* de utilización de GPU para el despliegue, 1.9* de rendimiento en el entrenamiento y 5.5* de utilización del entorno. Para facilitar un aprendizaje efectivo a partir de muestras abundantes, introducimos un esquema de curación de datos adaptativo: (1) pre-recolección de trayectorias exitosas para tareas desafiantes para complementar el éxito escaso en el muestreo en línea; (2) ajuste dinámico del número de despliegues y la longitud de las trayectorias según la dificultad de la tarea; (3) entrenamiento selectivo en pasos de alta entropía para priorizar decisiones críticas; (4) estabilización del aprendizaje mediante muestreo de importancia truncado para el desajuste de políticas entre el despliegue y la actualización de políticas. En el benchmark OSWorld, DART-GUI-7B logra una tasa de éxito en tareas del 42.13%, una mejora absoluta del 14.61% sobre el modelo base y un 7.34% más que el estado del arte (SOTA) de código abierto. Abriremos completamente nuestro marco de entrenamiento, datos y puntos de control del modelo a través de computer-use-agents.github.io/dart-gui, lo que consideramos una contribución oportuna a la comunidad de código abierto en el entrenamiento agéntico de RL.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) son hoy en día potentes solucionadores de problemas en múltiples dominios, y continúan fortaleciéndose a medida que escalan en tamaño del modelo, tamaño del conjunto de entrenamiento y calidad del conjunto de entrenamiento, como lo demuestra una extensa investigación y experimentación en la industria. Entrenar un modelo de vanguardia hoy en día requiere del orden de decenas a cientos de yottaflops, lo que representa una inversión masiva de tiempo, capacidad de cómputo y energía. Por lo tanto, mejorar la eficiencia del preentrenamiento es esencial para habilitar la próxima generación de LLMs aún más capaces. Si bien el entrenamiento con precisión de punto flotante de 8 bits (FP8) es ampliamente adoptado, la transición a precisiones aún más reducidas, como el punto flotante de 4 bits (FP4), podría desbloquear mejoras adicionales en velocidad computacional y utilización de recursos. Sin embargo, la cuantización a este nivel plantea desafíos en la estabilidad del entrenamiento, la convergencia y la implementación, especialmente para modelos de gran escala entrenados con horizontes de tokens largos. En este estudio, presentamos un enfoque novedoso para el entrenamiento estable y preciso de modelos de lenguaje de gran escala (LLMs) utilizando el formato NVFP4. Nuestro método integra transformadas de Hadamard aleatorias (RHT) para limitar los valores atípicos a nivel de bloque, emplea un esquema de cuantización bidimensional para representaciones consistentes tanto en las pasadas hacia adelante como hacia atrás, utiliza redondeo estocástico para la estimación imparcial de gradientes e incorpora capas selectivas de alta precisión. Validamos nuestro enfoque entrenando un modelo de 12 mil millones de parámetros con 10 billones de tokens, la ejecución de entrenamiento más larga documentada públicamente en precisión de 4 bits hasta la fecha. Nuestros resultados muestran que el modelo entrenado con nuestra técnica de preentrenamiento basada en NVFP4 alcanza una pérdida de entrenamiento y precisiones en tareas posteriores comparables a una línea base FP8. Estos hallazgos destacan que NVFP4, combinado con nuestro enfoque de entrenamiento, representa un avance significativo en los algoritmos de entrenamiento de LLMs con precisión reducida.
Presentamos SIRI, Scaling Iterative Reinforcement Learning with Interleaved Compression (Aprendizaje por Refuerzo Iterativo con Compresión Intercalada), un enfoque simple pero efectivo de aprendizaje por refuerzo (RL) para Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) que permite un razonamiento más eficiente y preciso. Estudios previos han observado patrones de pensamiento repetitivos en los LRMs, y los intentos por reducirlos suelen implicar un costo en el rendimiento. En este artículo, demostramos que este compromiso puede superarse mediante un régimen de entrenamiento que alterna iterativamente entre comprimir y expandir el presupuesto de razonamiento, ajustando dinámicamente la longitud máxima de despliegue durante el entrenamiento. La fase de compresión reduce la longitud del despliegue, obligando al modelo a tomar decisiones precisas y valiosas dentro de un contexto limitado, lo que reduce efectivamente los tokens redundantes y aumenta la densidad del razonamiento. La fase de expansión relaja el límite de longitud, proporcionando espacio para que el modelo explore y planifique en escenarios de largo alcance. Notablemente, observamos que después de cada ciclo de compresión-expansión, el rendimiento del modelo mejora incluso cuando su longitud de salida disminuye, acercándolo gradualmente a la frontera de Pareto en el compromiso entre rendimiento y eficiencia. Al entrenar en DeepSeek-R1-Distill-Qwen-1.5B, SIRI-low mejora el rendimiento en AIME24 en un 43.2% mientras reduce el uso de tokens en un 46.9% después de tres iteraciones, y SIRI-high alcanza la mayor precisión en comparación con todos los demás métodos (Figura 1). Nuestros hallazgos arrojan luz sobre el potencial de oscilar periódicamente la longitud de truncamiento de salida del LRM durante el entrenamiento para equilibrar dinámicamente la exploración y la eficiencia en el razonamiento, convergiendo hacia un "punto óptimo" entre ambos. Nuestros modelos están disponibles públicamente.
El Escalado en Tiempo de Prueba (TTS, por sus siglas en inglés) mejora la capacidad de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) al asignar computación adicional durante la inferencia. Sin embargo, los enfoques existentes se basan principalmente en el muestreo a nivel de salida, pasando por alto el papel de la arquitectura del modelo. En los LLMs principales basados en Mezcla de Expertos (MoE, por sus siglas en inglés), observamos que variar el número de expertos activados produce conjuntos de soluciones complementarios con precisión estable, revelando una fuente de diversidad nueva y poco explorada. Motivados por esta observación, proponemos Búsqueda Dinámica de Expertos (DES, por sus siglas en inglés), una estrategia TTS que eleva la activación de expertos a una dimensión controlable del espacio de búsqueda. DES integra dos componentes clave: (1) MoE Dinámico, que permite el control directo del número de expertos durante la inferencia para generar trayectorias de razonamiento diversas sin costos adicionales; y (2) Herencia de Configuración de Expertos, que preserva un número consistente de expertos dentro de una ruta de razonamiento mientras los varía entre ejecuciones, equilibrando así estabilidad y diversidad durante la búsqueda. Experimentos extensos en arquitecturas MoE, verificadores y benchmarks de razonamiento (es decir, matemáticas, código y conocimiento) demuestran que DES supera de manera confiable los baselines TTS, mejorando la precisión y la estabilidad sin costos adicionales. Estos resultados destacan a DES como una forma práctica y escalable de TTS consciente de la arquitectura, ilustrando cómo la flexibilidad estructural en los LLMs modernos puede avanzar el razonamiento.
Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés), que integran módulos de planificación, memoria, reflexión y uso de herramientas, han demostrado ser prometedores para resolver tareas complejas y de múltiples pasos. Sin embargo, sus arquitecturas sofisticadas amplifican la vulnerabilidad a fallos en cascada, donde un único error de causa raíz se propaga a través de decisiones posteriores, lo que lleva al fracaso de la tarea. Los sistemas actuales carecen de un marco que pueda comprender de manera integral y sistémica los errores de los agentes de forma modular y, por lo tanto, no logran detectar estos errores adecuadamente. Abordamos esta brecha con tres contribuciones. Primero, presentamos la AgentErrorTaxonomy, una clasificación modular de modos de fallo que abarca memoria, reflexión, planificación, acción y operaciones a nivel de sistema. Segundo, construimos AgentErrorBench, el primer conjunto de datos de trayectorias de fallos anotadas sistemáticamente provenientes de ALFWorld, GAIA y WebShop, fundamentando el análisis de errores en ejecuciones reales de agentes. Tercero, proponemos AgentDebug, un marco de depuración que aísla fallos de causa raíz y proporciona retroalimentación correctiva, permitiendo que los agentes se recuperen y mejoren de manera iterativa. Los experimentos en AgentErrorBench muestran que AgentDebug logra un 24% más de precisión en todas las respuestas correctas y un 17% más de precisión por paso en comparación con el mejor modelo de referencia. Más allá de la detección, la retroalimentación específica generada por AgentDebug permite que los agentes LLM se recuperen iterativamente de los fallos, obteniendo mejoras relativas de hasta el 26% en el éxito de las tareas en ALFWorld, GAIA y WebShop. Estos resultados establecen la depuración basada en principios como una vía hacia agentes LLM más confiables y adaptativos. El código y los datos estarán disponibles en https://github.com/ulab-uiuc/AgentDebug.
Presentamos un enfoque novedoso para la destilación de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) al formularlo como un problema de aprendizaje por refuerzo con restricciones. Si bien trabajos recientes han comenzado a explorar la integración de recompensas específicas de tareas en los procesos de destilación, los métodos existentes suelen depender de ponderaciones de recompensas ad-hoc. Proponemos un marco de optimización fundamentado que maximiza las recompensas específicas de la tarea mientras restringe la divergencia del modelo maestro para que permanezca por debajo de un umbral especificado. Nuestro enfoque adapta el aprendizaje por refuerzo con aumento de estado restringido al contexto de destilación, introduciendo una función de recompensa modificada que mantiene garantías teóricas de satisfacción de restricciones sin requerir aumento de estado ni acceso al modelo maestro durante la implementación, y sin la sobrecarga computacional de los métodos duales de Lagrange. A través de experimentos exhaustivos en tareas de razonamiento matemático, demostramos que nuestro método logra mejores tasas de satisfacción de restricciones y un razonamiento superior en comparación con los baselines de relajación suave de Lagrange, manteniendo un rendimiento competitivo en las tareas. Nuestro marco proporciona una solución teóricamente fundamentada y prácticamente eficiente para la destilación consciente de recompensas en entornos con recursos limitados.
Los avances recientes, como DeepSeek-R1, han demostrado que el algoritmo GRPO, un enfoque de Aprendizaje por Refuerzo (RL, por sus siglas en inglés), puede entrenar eficazmente el razonamiento en Cadena de Pensamiento (CoT, por sus siglas en inglés) en Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) y Modelos de Lenguaje-Visión (VLMs, por sus siglas en inglés). En este artículo, analizamos tres desafíos del GRPO: el acoplamiento de gradientes entre pensamientos y respuestas, las señales de recompensa dispersas causadas por un muestreo paralelo limitado y la estimación inestable de ventajas. Para mitigar estos desafíos, proponemos GRPO-MA, un método simple pero teóricamente fundamentado que aprovecha la generación de múltiples respuestas a partir de cada proceso de pensamiento, permitiendo una optimización más robusta y eficiente. Teóricamente, demostramos que la varianza de la ventaja del pensamiento disminuye a medida que aumenta el número de respuestas por pensamiento. Empíricamente, nuestro análisis de gradientes confirma este efecto, mostrando que GRPO-MA reduce los picos de gradiente en comparación con GRPO. Los experimentos en tareas de matemáticas, programación y diversas tareas multimodales demuestran que GRPO-MA mejora sustancialmente el rendimiento y la eficiencia del entrenamiento. Nuestros estudios de ablación revelan además que aumentar el número de respuestas por pensamiento mejora consistentemente el rendimiento del modelo.
Los modelos de lenguaje de razonamiento recientes (RLMs, por sus siglas en inglés), especialmente aquellos entrenados con aprendizaje por refuerzo basado en verificadores, a menudo tienen un rendimiento inferior con el razonamiento en pocos ejemplos (CoT) que con la respuesta directa. Revisitamos esta paradoja utilizando trazas de razonamiento de alta calidad de DeepSeek-R1 como demostraciones y encontramos que agregar más ejemplos degrada consistentemente la precisión, incluso cuando las demostraciones son óptimas. Un análisis detallado revela dos mecanismos detrás de este declive: (i) la desorientación semántica, donde una alta similitud textual lleva al modelo a tratar el objetivo como idéntico al ejemplo y a copiar los pasos intermedios textualmente; y (ii) el fracaso en la transferencia de estrategias, donde el modelo lucha por extraer estrategias de razonamiento útiles y aplicarlas a las preguntas objetivo. Guiados por estos hallazgos, introducimos Insight-to-Solve (I2S), un procedimiento secuencial en tiempo de prueba que convierte las demostraciones en insights explícitos y reutilizables y deriva una traza de razonamiento específica para el objetivo; opcionalmente, el razonamiento se auto-refina para mejorar su coherencia y corrección (I2S+). Experimentos extensos en diversos benchmarks muestran que I2S e I2S+ superan consistentemente tanto la respuesta directa como las líneas base de escalado en tiempo de prueba en modelos de código abierto y cerrado. Incluso para los modelos GPT, nuestro método es útil: en AIME'25, GPT-4.1 aumenta un +14.0%, y o1-mini mejora un +2.7% en AIME y un +1.7% en GPQA, lo que indica que las demostraciones en contexto pueden aprovecharse efectivamente mediante el marco de insight-refine-solve.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) busca mitigar las alucinaciones en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) al fundamentar las respuestas en documentos recuperados. Sin embargo, los LLMs basados en RAG aún generan alucinaciones incluso cuando se les proporciona un contexto correcto y suficiente. Una línea creciente de investigación sugiere que esto se debe a un desequilibrio entre cómo los modelos utilizan el contexto externo y su conocimiento interno, y varios enfoques han intentado cuantificar estas señales para la detección de alucinaciones. No obstante, los métodos existentes requieren un ajuste extensivo de hiperparámetros, lo que limita su generalización. Proponemos LUMINA, un marco novedoso que detecta alucinaciones en sistemas RAG mediante señales de contexto-conocimiento: la utilización del contexto externo se cuantifica a través de la distancia distribucional, mientras que la utilización del conocimiento interno se mide rastreando cómo evolucionan los tokens predichos a través de las capas del transformador. Además, introducimos un marco para validar estadísticamente estas mediciones. Los experimentos en puntos de referencia comunes de alucinaciones en RAG y cuatro LLMs de código abierto muestran que LUMINA alcanza puntuaciones consistentemente altas en AUROC y AUPRC, superando a los métodos basados en utilización previos en hasta un +13% de AUROC en HalluRAG. Además, LUMINA se mantiene robusto bajo supuestos relajados sobre la calidad de la recuperación y la coincidencia del modelo, ofreciendo tanto efectividad como practicidad.
Las Arquitecturas de Predicción de Incrustación Conjunta de Video (V-JEPA) aprenden representaciones de video generalizables listas para usar al predecir regiones enmascaradas en el espacio latente con un profesor actualizado mediante una media móvil exponencial (EMA). Si bien la EMA previene el colapso de la representación, complica la selección escalable de modelos y acopla las arquitecturas del profesor y el estudiante. Revisitamos la predicción de latentes enmascarados y demostramos que un profesor congelado es suficiente. Concretamente, (i) entrenamos un codificador objetivo con un objetivo simple de reconstrucción de píxeles bajo el enmascaramiento de V-JEPA, luego (ii) lo congelamos y entrenamos un estudiante para predecir los latentes del profesor en regiones enmascaradas. Esto da lugar a un esquema de dos etapas sin regularización que denominamos SALT (Entrenamiento Asimétrico de Latentes con Profesor Estático). SALT desacopla la optimización en reconstrucción de píxeles (profesor) y predicción de latentes enmascarados (estudiante), aumentando la transparencia, eficiencia y escalabilidad mientras se preserva la capacidad de la representación para generalizar bajo evaluación congelada. Empíricamente, nuestros modelos estudiantiles superan a los codificadores V-JEPA 2 recientemente propuestos en evaluación con backbone congelado en diversos benchmarks. También son más óptimos en términos de cómputo: con FLOPs de preentrenamiento equivalentes, nuestro método logra mayor precisión en pruebas, y sus curvas de escalado dominan la frontera de Pareto precisión-FLOPs de V-JEPA. Finalmente, encontramos que la calidad del estudiante es notablemente robusta a la calidad del profesor: estudiantes de alto rendimiento emergen incluso con profesores pequeños y subóptimos. Esto sugiere una asignación del presupuesto de cómputo que debería favorecer abrumadoramente al estudiante. Estos resultados posicionan a SALT como una alternativa simple, escalable y eficiente en cómputo a la auto-distilación basada en EMA para el aprendizaje de representaciones de video.
El ajuste fino de modelos de lenguaje preentrenados de gran escala (LLMs, por sus siglas en inglés) para tareas específicas es un paso crítico en el proceso de implementación de la inteligencia artificial. El aprendizaje por refuerzo (RL, por sus siglas en inglés) es, sin duda, el método de ajuste fino más destacado, contribuyendo al desarrollo de muchos LLMs de vanguardia. En contraste, las estrategias evolutivas (ES, por sus siglas en inglés), que alguna vez mostraron un rendimiento comparable al RL en modelos con unos pocos millones de parámetros, fueron relegadas debido a la percepción pesimista sobre su escalabilidad en modelos más grandes. En este trabajo, presentamos el primer intento exitoso de escalar las ES para ajustar fino todos los parámetros de los LLMs, demostrando el hecho sorprendente de que las ES pueden buscar eficientemente entre miles de millones de parámetros y superar los métodos de ajuste fino basados en RL en múltiples aspectos, incluyendo la eficiencia de muestreo, la tolerancia a recompensas de largo plazo, la robustez frente a diferentes LLMs base, una menor tendencia al "hackeo de recompensas" y un rendimiento más estable entre ejecuciones. Por lo tanto, este trabajo sienta las bases para abrir una nueva dirección en el ajuste fino de LLMs más allá de lo que ofrecen las técnicas actuales de RL. Los códigos fuente están disponibles en: https://github.com/VsonicV/es-fine-tuning-paper.
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se aplican cada vez más al razonamiento científico, la complejidad de los formatos de respuesta y la diversidad de expresiones equivalentes convierten la verificación de respuestas en una tarea crítica pero desafiante. Los estudios de verificación existentes en dominios científicos presentan dos limitaciones principales: (a) la ausencia de estándares de evaluación sistemáticos y una cobertura disciplinaria insuficiente, lo que dificulta su evaluación integral; y (b) una fuerte dependencia del diseño de reglas engorrosas o de la ingeniería de prompts, lo que reduce su efectividad en escenarios de razonamiento complejo o limita su generalización interdisciplinaria. Para abordar estos desafíos, proponemos soluciones tanto a nivel de datos como de modelos. En el lado de los datos, construimos SCI-VerifyBench, un benchmark interdisciplinario que cubre matemáticas, física, biología, química y preguntas y respuestas científicas generales. Este benchmark se construye a partir de respuestas reales de LLMs y se enriquece con transformaciones de equivalencia específicas del dominio que generan datos desafiantes y realistas. Anotaciones basadas en modelos y expertos garantizan tanto la calidad como la diversidad, permitiendo una evaluación rigurosa de la capacidad de verificación. En el lado del modelo, enfatizamos la importancia del razonamiento para la verificación e introducimos SCI-Verifier, un verificador unificado aumentado con razonamiento para dominios científicos. A través del post-entrenamiento, SCI-Verifier demuestra fuertes capacidades de razonamiento lógico y juicio de equivalencia, manteniendo salidas concisas y estables. Juntos, SCI-VerifyBench y SCI-Verifier proporcionan un marco de trabajo fundamentado para la verificación científica, ofreciendo tanto una evaluación sistemática como vías prácticas para mejorar la confiabilidad y aplicabilidad de los LLMs en dominios científicos.
El feedback humano desempeña un papel fundamental en la alineación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) con las preferencias humanas. Sin embargo, dicho feedback suele ser ruidoso o inconsistente, lo que puede degradar la calidad de los modelos de recompensa y dificultar la alineación. Aunque se han propuesto diversos métodos automatizados de limpieza de datos para mitigar este problema, aún falta una evaluación sistemática de su efectividad y generalización. Para abordar esta brecha, presentamos el primer benchmark integral para evaluar 13 métodos de limpieza de datos de preferencias en el contexto de la alineación de LLMs. PrefCleanBench ofrece un protocolo estandarizado para evaluar estrategias de limpieza en términos de rendimiento de alineación y generalización en diversos conjuntos de datos, arquitecturas de modelos y algoritmos de optimización. Al unificar métodos dispares y compararlos rigurosamente, descubrimos factores clave que determinan el éxito de la limpieza de datos en tareas de alineación. Este benchmark sienta las bases para enfoques fundamentados y reproducibles que mejoren la alineación de LLMs mediante una mejor calidad de los datos, destacando el papel crucial pero poco explorado del preprocesamiento de datos en el desarrollo responsable de la inteligencia artificial. Publicamos implementaciones modulares de todos los métodos para impulsar futuras investigaciones: https://github.com/deeplearning-wisc/PrefCleanBench.
Los modelos de lenguaje de difusión enmascarada (MDLMs, por sus siglas en inglés) han surgido recientemente como una alternativa prometedora a los modelos de lenguaje autorregresivos (AR), ofreciendo propiedades como decodificación paralela, órdenes de generación flexibles y el potencial de requerir menos pasos de inferencia. A pesar de estas ventajas, las estrategias de decodificación y los algoritmos de aprendizaje por refuerzo (RL, por sus siglas en inglés) adaptados para MDLMs siguen siendo poco explorados. Un enfoque ingenuo es transferir directamente técnicas bien establecidas para modelos AR a los MDLMs. Sin embargo, esto plantea una pregunta inmediata: ¿Es realmente óptima esta transferencia ingenua? Por ejemplo, 1) Las estrategias de decodificación por bloques y semi-AR no se emplean durante el entrenamiento de los MDLMs, entonces, ¿por qué superan a la decodificación de estilo de difusión completa durante la inferencia? 2) La aplicación directa de algoritmos de RL diseñados para modelos AR a los MDLMs exhibe una inconsistencia entre el entrenamiento y la inferencia, ya que la decodificación de los MDLMs no es causal (es paralela). Esto resulta en inconsistencias entre la trayectoria de despliegue y la trayectoria de optimización. Para abordar estos desafíos, proponemos el Rechazo Temprano de EOS (EOSER, por sus siglas en inglés) y el Planificador de Decodificación de Tamaño de Paso Ascendente (ASS, por sus siglas en inglés), que desbloquean el potencial de los MDLMs para realizar una decodificación de estilo de difusión completa, logrando un rendimiento competitivo con menos pasos de decodificación. Además, introducimos la Optimización de Política Relativa de Grupo de Trayectoria de Consistencia (CJ-GRPO, por sus siglas en inglés) para domar los MDLMs, que enfatiza la consistencia entre la trayectoria de despliegue y la trayectoria de optimización, y reduce los errores de optimización causados por la optimización de pasos omitidos. Realizamos experimentos extensos en tareas de razonamiento, como benchmarks matemáticos y de planificación, utilizando LLaDA-8B-Instruct. Los resultados demuestran que los mecanismos propuestos EOSER y ASS, junto con CJ-GRPO, tienen un potencial significativo para domar eficaz y eficientemente los MDLMs. Código: https://github.com/yjyddq/EOSER-ASS-RL.
Presentamos DafnyCOMP, un punto de referencia para evaluar modelos de lenguaje de gran escala (LLMs) en la generación de especificaciones composicionales en Dafny. A diferencia de puntos de referencia previos que se centran en tareas de una sola función, DafnyCOMP se enfoca en programas compuestos por múltiples funciones interactivas con dependencias de datos, lo que requiere razonamiento a través de los límites de los componentes. El punto de referencia consta de 300 programas multifunción sintetizados automáticamente. Evaluamos varias familias de LLMs de última generación y encontramos que, aunque tienen un buen desempeño en la verificación de funciones individuales, su rendimiento disminuye drásticamente en tareas composicionales. El análisis revela fallos sistemáticos en el razonamiento entre funciones, incluyendo especificaciones frágiles, desalineación entre implementaciones y pruebas, y razonamiento inestable. DafnyCOMP proporciona así una herramienta diagnóstica para medir el avance hacia la generación de código confiable, verificable y composicional con LLMs.
Los modelos de lenguaje visual (VLMs, por sus siglas en inglés) pueden abordar de manera flexible diversas tareas de visión a través de interacciones de texto. Aunque tienen éxito en la comprensión semántica, los VLMs más avanzados, incluido GPT-5, aún tienen dificultades para comprender la información 3D a partir de entradas 2D. Por otro lado, los modelos de visión pura expertos logran una precisión superior a la humana en la estimación de profundidad métrica, una tarea clave para la comprensión 3D. Sin embargo, estos requieren arquitecturas y funciones de pérdida específicas para cada tarea. Esta diferencia nos motiva a preguntar: ¿Pueden los VLMs alcanzar una precisión de nivel experto sin cambios en su arquitectura o función de pérdida? Tomamos la estimación de profundidad métrica por píxel como tarea representativa y demostramos que la respuesta es ¡sí! Sorprendentemente, un análisis exhaustivo muestra que el ajuste fino supervisado basado en texto con etiquetas dispersas es suficiente para que los VLMs desbloqueen una sólida comprensión 3D, sin necesidad de cabezales de predicción densa o funciones de pérdida complejas de regresión/regularización. El cuello de botella para los VLMs radica realmente en la referencia de píxeles y la ambigüedad de la cámara entre conjuntos de datos, lo cual abordamos mediante indicaciones visuales y aumentación condicionada intrínseca. Con modelos mucho más pequeños, nuestro método DepthLM supera la precisión de la mayoría de los VLMs más avanzados en más de 2x, haciendo que los VLMs sean, por primera vez, comparables con los modelos de visión pura. Curiosamente, sin una imposición explícita durante el entrenamiento, los VLMs entrenados con DepthLM evitan naturalmente el sobre-suavizado, presentando muchos menos puntos voladores en las regiones de borde que los modelos de visión pura. La simplicidad de DepthLM también permite que un solo VLM cubra diversas tareas 3D más allá de la profundidad métrica. Nuestro código y modelo se publicarán en el enlace a continuación.
La generación de imágenes multi-sujeto tiene como objetivo sintetizar sujetos proporcionados por el usuario en una sola imagen, preservando la fidelidad de los sujetos, asegurando la consistencia con las indicaciones y alineándose con las preferencias estéticas humanas. Sin embargo, los métodos existentes, particularmente aquellos basados en el paradigma de Aprendizaje en Contexto (In-Context-Learning), están limitados por su dependencia de objetivos simples basados en reconstrucción, lo que conduce tanto a una fuga severa de atributos que compromete la fidelidad de los sujetos como a una falta de alineación con las preferencias humanas más sutiles. Para abordar esto, proponemos MultiCrafter, un marco que asegura una generación de alta fidelidad y alineada con las preferencias. En primer lugar, descubrimos que la causa principal de la fuga de atributos es un entrelazamiento significativo de la atención entre diferentes sujetos durante el proceso de generación. Por lo tanto, introducimos una supervisión posicional explícita para separar claramente las regiones de atención para cada sujeto, mitigando efectivamente la fuga de atributos. Para permitir que el modelo planifique con precisión la región de atención de diferentes sujetos en diversos escenarios, empleamos una arquitectura de Mezcla de Expertos (Mixture-of-Experts) para mejorar la capacidad del modelo, permitiendo que diferentes expertos se enfoquen en diferentes escenarios. Finalmente, diseñamos un novedoso marco de aprendizaje por refuerzo en línea para alinear el modelo con las preferencias humanas, que incluye un mecanismo de puntuación para evaluar con precisión la fidelidad multi-sujeto y una estrategia de entrenamiento más estable adaptada a la arquitectura MoE. Los experimentos validan que nuestro marco mejora significativamente la fidelidad de los sujetos mientras se alinea mejor con las preferencias humanas.
Los modelos de difusión de texto a imagen existentes sobresalen en la generación de imágenes de alta calidad, pero enfrentan desafíos significativos de eficiencia cuando se escalan a resoluciones altas, como la generación de imágenes en 4K. Si bien investigaciones previas han acelerado los modelos de difusión en varios aspectos, rara vez abordan la redundancia inherente dentro del espacio latente. Para cerrar esta brecha, este artículo presenta DC-Gen, un marco general que acelera los modelos de difusión de texto a imagen aprovechando un espacio latente profundamente comprimido. En lugar de un enfoque costoso de entrenamiento desde cero, DC-Gen utiliza una canalización eficiente de posentrenamiento para preservar la calidad del modelo base. Un desafío clave en este paradigma es la brecha de representación entre el espacio latente del modelo base y un espacio latente profundamente comprimido, lo que puede generar inestabilidad durante el ajuste fino directo. Para superar esto, DC-Gen primero cierra la brecha de representación con un entrenamiento ligero de alineación de incrustaciones. Una vez que las incrustaciones latentes están alineadas, solo se necesita una pequeña cantidad de ajuste fino LoRA para desbloquear la calidad de generación inherente del modelo base. Verificamos la efectividad de DC-Gen en SANA y FLUX.1-Krea. Los modelos resultantes, DC-Gen-SANA y DC-Gen-FLUX, logran una calidad comparable a sus modelos base pero con una aceleración significativa. Específicamente, DC-Gen-FLUX reduce la latencia de la generación de imágenes en 4K en 53 veces en la GPU NVIDIA H100. Cuando se combina con NVFP4 SVDQuant, DC-Gen-FLUX genera una imagen en 4K en solo 3.5 segundos en una sola GPU NVIDIA 5090, logrando una reducción total de latencia de 138 veces en comparación con el modelo base FLUX.1-Krea. Código: https://github.com/dc-ai-projects/DC-Gen.
Los modelos de lenguaje de gran escala (LLM) potenciados por búsqueda a menudo enfrentan dificultades en tareas de razonamiento complejo debido a una recuperación ineficaz de múltiples saltos y una capacidad de razonamiento limitada. Proponemos AceSearcher, un marco de juego cooperativo en el que un único modelo de lenguaje de gran escala (LLM) se entrena para alternar entre dos roles: un descomponedor que divide consultas complejas y un solucionador que integra contextos recuperados para la generación de respuestas. AceSearcher combina un ajuste fino supervisado en una mezcla diversa de tareas de búsqueda, razonamiento y descomposición con un ajuste fino por refuerzo optimizado para la precisión de la respuesta final, eliminando la necesidad de anotaciones intermedias. Experimentos exhaustivos en tres tareas intensivas en razonamiento a través de 10 conjuntos de datos muestran que AceSearcher supera a los modelos de referencia más avanzados, logrando una mejora promedio en la coincidencia exacta del 7.6%. Notablemente, en tareas de razonamiento financiero a nivel de documento, AceSearcher-32B iguala el rendimiento del modelo DeepSeek-V3 utilizando menos del 5% de sus parámetros. Incluso en escalas más pequeñas (1.5B y 8B), AceSearcher a menudo supera a los LLM potenciados por búsqueda existentes con hasta 9 veces más parámetros, destacando su excepcional eficiencia y efectividad en la resolución de tareas de razonamiento complejo. Nuestro código se publicará en https://github.com/ritaranx/AceSearcher y https://huggingface.co/AceSearcher.
Los modelos autorregresivos (AR) son prometedores para la generación de imágenes, sin embargo, las variantes de AR con tokens continuos suelen quedar por detrás de los modelos de difusión latente y generación enmascarada. El problema central es la varianza heterogénea en los latentes de los VAE, que se amplifica durante la decodificación AR, especialmente bajo la guía sin clasificador (CFG), y puede causar un colapso de la varianza. Proponemos SphereAR para abordar este problema. Su diseño central consiste en restringir todas las entradas y salidas del AR —incluyendo después de la CFG— a que se encuentren en una hiperesfera de radio fijo (norma ell_2 constante), aprovechando los VAE hiperesféricos. Nuestro análisis teórico muestra que la restricción hiperesférica elimina el componente de escala (la causa principal del colapso de la varianza), estabilizando así la decodificación AR. Empíricamente, en la generación de ImageNet, SphereAR-H (943M) establece un nuevo estado del arte para los modelos AR, logrando un FID de 1.34. Incluso a escalas más pequeñas, SphereAR-L (479M) alcanza un FID de 1.54 y SphereAR-B (208M) alcanza 1.92, igualando o superando líneas base mucho más grandes como MAR-H (943M, 1.55) y VAR-d30 (2B, 1.92). Hasta donde sabemos, esta es la primera vez que un generador de imágenes AR puro de siguiente token con orden de ráster supera a los modelos de difusión y generación enmascarada en escalas de parámetros comparables.
La comprensión de videos largos sigue siendo un desafío para los recientes Modelos de Video-Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) debido al conflicto entre la comprensión temporal de larga duración y la percepción espacial detallada. Los LVLMs que utilizan un mecanismo de muestreo uniforme de fotogramas, el cual selecciona fotogramas con un tamaño de cuadro igual y una tasa de muestreo fija, inevitablemente sacrifican ya sea las pistas temporales o los detalles espaciales, lo que resulta en soluciones subóptimas. Para mitigar este dilema, proponemos LOVE-R1, un modelo que puede acercarse de manera adaptativa a un clip de video. El modelo primero recibe fotogramas muestreados de manera densa pero en una resolución pequeña. Si se necesitan algunos detalles espaciales, el modelo puede acercarse a un clip de interés con una resolución de cuadro grande basándose en su razonamiento hasta obtener la información visual clave. Todo el proceso se implementa como un proceso de razonamiento de múltiples pasos. Para entrenar la capacidad de razonamiento, primero ajustamos el modelo en nuestros 38k datos de alta calidad de CoT recopilados y lo mejoramos con un ajuste fino de refuerzo desacoplado. Dado que las recompensas de resultados no pueden proporcionar una supervisión de proceso detallada, desacoplamos el razonamiento de múltiples pasos en múltiples razonamientos de un solo paso y optimizamos explícitamente la capacidad interna de acercamiento. Los experimentos en puntos de referencia de comprensión de videos largos muestran que nuestro modelo con el mecanismo de muestreo de fotogramas adaptativo lento-rápido logra un gran equilibrio entre la densidad de muestreo y las resoluciones de cuadro, y LOVE-R1 supera a nuestra línea base Qwen2.5-VL en un promedio de 3.1 puntos porcentuales en 4 puntos de referencia comunes de comprensión de videos largos.
La optimización de preferencias es crucial para alinear los modelos de lenguaje de gran escala (LLMs) con los valores e intenciones humanas. Un desafío significativo en este proceso es la discrepancia en la distribución entre los datos de preferencia recopilados previamente de manera offline y la política del modelo en evolución. Los métodos existentes intentan reducir esta brecha utilizando heurísticas estáticas o estrategias de muestreo online desacopladas, pero a menudo no logran adaptarse al estado dinámico de aprendizaje del modelo. Para cerrar esta brecha, proponemos Meta-Weighted Adaptive Preference Optimization (MetaAPO), un marco novedoso que acopla dinámicamente la generación de datos con el entrenamiento del modelo. MetaAPO emplea un meta-aprendizaje ligero, como un "estimador de la brecha de alineación", para evaluar los beneficios potenciales del muestreo on-policy en relación con los datos offline. Esto guía la generación online dirigida y asigna pesos meta específicos para cada muestra al objetivo de optimización, equilibrando dinámicamente la calidad y la distribución de los datos online y offline. Los experimentos en AlpacaEval 2, Arena-Hard y MT-Bench demuestran que MetaAPO supera consistentemente los enfoques existentes de optimización de preferencias en diversos entornos, al tiempo que reduce un 42% los costos de anotación online.
La tarea de convertir páginas web en código requiere que los modelos comprendan las representaciones visuales de las páginas web y generen el código correspondiente. Sin embargo, los puntos de referencia existentes se centran principalmente en tareas estáticas de captura de pantalla a código, pasando por alto las interacciones dinámicas fundamentales para las aplicaciones web del mundo real. Para abordar esta limitación, este artículo presenta IWR-Bench, un nuevo punto de referencia para evaluar las capacidades de los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés) en la reconstrucción interactiva de páginas web a partir de videos. IWR-Bench consta de 113 tareas cuidadosamente seleccionadas de 100 sitios web reales, con 1,001 acciones y que presentan diversas complejidades de interacción (por ejemplo, juegos web), estilos visuales y dominios. Alineado con las prácticas estándar de desarrollo web, cada tarea incluye no solo videos de interacción del usuario, sino también todos los recursos estáticos rastreados (por ejemplo, imágenes, videos). Este punto de referencia evalúa a los modelos en dos desafíos fundamentales: el razonamiento multimodal integral para inferir la lógica de interacción a partir de videos y recursos, y la generación avanzada de código para traducir esta lógica en código funcional. Un marco de agente-como-juez con un sistema métrico integral evalúa automáticamente la corrección funcional y la fidelidad visual de las páginas web generadas. Experimentos extensos en 28 LVLMs revelan un desafío significativo: el mejor modelo alcanza una puntuación general de solo 36.35%, ya que la corrección funcional (24.39% IFS) se queda significativamente por detrás de la fidelidad visual (64.25% VFS). Estos resultados resaltan limitaciones críticas en la capacidad de los modelos actuales para razonar sobre dinámicas temporales y sintetizar lógica impulsada por eventos, estableciendo a IWR-Bench como una frontera desafiante para la investigación en visión y lenguaje. El punto de referencia y el código de evaluación estarán disponibles públicamente. El código está disponible en https://github.com/L-O-I/IWR-Bench.
El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha surgido como un paradigma central para avanzar en los Modelos de Lenguaje a Gran Escala (LLMs), donde el preentrenamiento y el postentrenamiento con RL comparten la misma formulación de verosimilitud logarítmica. En contraste, los enfoques recientes de RL para modelos de difusión, destacándose la Optimización de Políticas de Difusión de Ruido (DDPO), optimizan un objetivo diferente a los objetivos de preentrenamiento: la pérdida de coincidencia de puntuación/flujo. En este trabajo, establecemos un nuevo análisis teórico: DDPO es una forma implícita de coincidencia de puntuación/flujo con objetivos ruidosos, lo que aumenta la varianza y ralentiza la convergencia. Basándonos en este análisis, introducimos la Coincidencia Ponderada por Ventaja (AWM), un método de gradiente de políticas para difusión. Utiliza la misma pérdida de coincidencia de puntuación/flujo que el preentrenamiento para obtener un objetivo de menor varianza y reponderar cada muestra según su ventaja. En efecto, AWM aumenta la influencia de las muestras de alta recompensa y suprime las de baja recompensa, manteniendo el objetivo de modelado idéntico al preentrenamiento. Esto unifica conceptual y prácticamente el preentrenamiento y el RL, es consistente con la teoría de gradiente de políticas, reduce la varianza y produce una convergencia más rápida. Este diseño simple pero efectivo ofrece beneficios sustanciales: en los puntos de referencia GenEval, OCR y PickScore, AWM proporciona una aceleración de hasta 24 veces sobre Flow-GRPO (que se basa en DDPO), cuando se aplica a Stable Diffusion 3.5 Medium y FLUX, sin comprometer la calidad de la generación. El código está disponible en https://github.com/scxue/advantage_weighted_matching.
Las imágenes estructuradas (por ejemplo, gráficos y diagramas geométricos) siguen siendo un desafío para los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), ya que los errores perceptivos pueden desencadenar conclusiones erróneas. Las señales visuales intermedias pueden guiar el razonamiento; sin embargo, los métodos basados en señales existentes están limitados por un procesamiento de imágenes de baja fidelidad y patrones de razonamiento lineales y rígidos, lo que reduce su efectividad en tareas complejas de imágenes estructuradas. En este artículo, proponemos PixelCraft, un sistema multiagente novedoso para el procesamiento de imágenes de alta fidelidad y el razonamiento visual flexible en imágenes estructuradas. El sistema incluye un despachador, un planificador, un razonador, críticos y un conjunto de agentes de herramientas visuales. Para lograr un procesamiento de alta fidelidad, construimos un corpus de alta calidad y ajustamos un MLLM para convertirlo en un modelo de anclaje, cuyas localizaciones a nivel de píxel se integran con algoritmos tradicionales de visión por computadora (CV, por sus siglas en inglés) en los agentes de herramientas. Sobre esta base, PixelCraft facilita el razonamiento visual flexible mediante un flujo de trabajo dinámico de tres etapas: selección de herramientas, discusión entre agentes y autocrítica. Además, a diferencia de los patrones de razonamiento lineales anteriores que simplemente añaden imágenes históricas, PixelCraft mantiene una memoria de imágenes que permite al planificador revisar adaptativamente pasos visuales anteriores, explorar ramas alternativas de razonamiento y ajustar dinámicamente la trayectoria del razonamiento durante la discusión. Experimentos exhaustivos en benchmarks desafiantes de gráficos y geometría demuestran que PixelCraft mejora significativamente el rendimiento del razonamiento visual para MLLMs avanzados, estableciendo un nuevo estándar para el razonamiento en imágenes estructuradas. Nuestro código estará disponible en https://github.com/microsoft/PixelCraft.
La búsqueda de agentes artificiales que puedan aprender a dominar entornos complejos ha llevado a éxitos notables, aunque los métodos predominantes de aprendizaje por refuerzo profundo suelen depender de una experiencia inmensa, codificando su conocimiento de manera opaca en los pesos de las redes neuronales. Proponemos un paradigma diferente, en el que un agente aprende a jugar mediante razonamiento y planificación. Introducimos *Cogito, ergo ludo* (CEL), una arquitectura novedosa de agente que aprovecha un Modelo de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) para construir una comprensión explícita, basada en lenguaje, de la mecánica de su entorno y de su propia estrategia. Partiendo de un estado de *tabula rasa* sin conocimiento previo (excepto el conjunto de acciones), CEL opera en un ciclo de interacción y reflexión. Después de cada episodio, el agente analiza su trayectoria completa para realizar dos procesos de aprendizaje concurrentes: Inducción de Reglas, donde refina su modelo explícito de la dinámica del entorno, y Resumen de Estrategia y Libro de Jugadas, donde destila sus experiencias en un libro de jugadas estratégico y accionable. Evaluamos CEL en diversas tareas de mundos en cuadrícula (por ejemplo, Buscaminas, Lago Congelado y Sokoban), y demostramos que el agente CEL aprende con éxito a dominar estos juegos al descubrir de manera autónoma sus reglas y desarrollar políticas efectivas a partir de recompensas escasas. Los estudios de ablación confirman que el proceso iterativo es crítico para el aprendizaje sostenido. Nuestro trabajo demuestra un camino hacia agentes más generales e interpretables que no solo actúan de manera efectiva, sino que también construyen un modelo transparente y en mejora de su mundo a través del razonamiento explícito sobre la experiencia cruda.
El creciente despliegue de agentes basados en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) que interactúan con entornos externos ha creado nuevas superficies de ataque para la manipulación adversaria. Una amenaza importante es la inyección indirecta de instrucciones, donde los atacantes incrustan instrucciones maliciosas en la salida del entorno externo, haciendo que los agentes las interpreten y ejecuten como si fueran instrucciones legítimas. Si bien investigaciones previas se han centrado principalmente en ataques de inyección de texto plano, identificamos una vulnerabilidad significativa y poco explorada: la dependencia de los LLM en plantillas de chat estructuradas y su susceptibilidad a la manipulación contextual a través de diálogos persuasivos de múltiples turnos. Con este fin, presentamos ChatInject, un ataque que formatea cargas maliciosas para imitar plantillas de chat nativas, aprovechando así las tendencias inherentes del modelo a seguir instrucciones. Sobre esta base, desarrollamos una variante de múltiples turnos impulsada por la persuasión, que prepara al agente a lo largo de los turnos de conversación para aceptar y ejecutar acciones que de otro modo serían sospechosas. A través de experimentos exhaustivos en LLM de vanguardia, demostramos tres hallazgos críticos: (1) ChatInject logra tasas de éxito promedio significativamente más altas que los métodos tradicionales de inyección de instrucciones, mejorando del 5,18% al 32,05% en AgentDojo y del 15,13% al 45,90% en InjecAgent, con diálogos de múltiples turnos mostrando un rendimiento particularmente fuerte con una tasa de éxito promedio del 52,33% en InjecAgent, (2) las cargas basadas en plantillas de chat demuestran una fuerte transferibilidad entre modelos y siguen siendo efectivas incluso contra LLM de código cerrado, a pesar de sus estructuras de plantilla desconocidas, y (3) las defensas existentes basadas en instrucciones son en gran medida ineficaces contra este enfoque de ataque, especialmente contra las variantes de múltiples turnos. Estos hallazgos resaltan vulnerabilidades en los sistemas de agentes actuales.
Los modelos de lenguaje de gran escala (LLMS, por sus siglas en inglés) han demostrado una eficacia creciente en tareas de Texto-a-SQL. Sin embargo, otro problema estrechamente relacionado, la Traducción de SQL entre Sistemas (también conocida como SQL-a-SQL), que adapta una consulta escrita para un sistema de base de datos (por ejemplo, MySQL) a su equivalente para otro sistema (por ejemplo, ClickHouse), es de gran importancia práctica pero sigue siendo poco explorado. Los benchmarks de SQL existentes no son adecuados para la evaluación de SQL-a-SQL, ya que (1) se centran en un conjunto limitado de sistemas de bases de datos (a menudo solo SQLite) y (2) no pueden capturar muchos dialectos de SQL específicos del sistema (por ejemplo, funciones personalizadas, tipos de datos y reglas de sintaxis). Por lo tanto, en este artículo, presentamos PARROT, un Benchmark Práctico y Realista para la Traducción de SQL entre Sistemas. PARROT incluye 598 pares de traducción de 38 benchmarks de código abierto y servicios empresariales del mundo real, específicamente preparados para desafiar la comprensión de SQL específica del sistema (por ejemplo, los LLMS logran una precisión promedio inferior al 38,53%). También proporcionamos múltiples variantes del benchmark, incluyendo PARROT-Diverse con 28,003 traducciones (para pruebas extensivas de sintaxis) y PARROT-Simple con 5,306 muestras representativas (para pruebas de estrés focalizadas), cubriendo 22 sistemas de bases de datos de grado de producción. Para promover futuras investigaciones, publicamos un tablero de clasificación público y el código fuente en: https://code4db.github.io/parrot-bench/.
Este artículo presenta MathBode, una herramienta de diagnóstico dinámico para el razonamiento matemático en modelos de lenguaje de gran escala (LLMs). En lugar de medir la precisión en una sola instancia, MathBode trata cada problema paramétrico como un sistema: variamos un único parámetro de forma sinusoidal y ajustamos las respuestas de primer armónico de las salidas del modelo y las soluciones exactas. Esto produce métricas interpretables y resueltas en frecuencia —ganancia (seguimiento de amplitud) y fase (retraso)— que forman huellas digitales al estilo de Bode. A través de cinco familias de problemas de forma cerrada (resolución lineal, razón/saturación, interés compuesto, sistemas lineales 2x2 y triángulos semejantes), el diagnóstico revela un comportamiento sistemático de paso bajo y un creciente retraso de fase que la precisión por sí sola no detecta. Comparamos varios modelos con una línea base simbólica que calibra el instrumento (G ≈ 1, φ ≈ 0). Los resultados distinguen a los modelos de vanguardia de los de nivel medio en términos de dinámica, proporcionando un protocolo compacto y reproducible que complementa los puntos de referencia estándar con mediciones accionables de fidelidad y consistencia en el razonamiento. Publicamos el conjunto de datos y el código para facilitar investigaciones futuras y su adopción.
La modelización unificada de video que combina capacidades de generación y comprensión es cada vez más importante, pero enfrenta dos desafíos clave: mantener la fidelidad semántica durante la generación basada en flujo debido al desequilibrio entre tokens textuales y visuales, y las limitaciones de la atención multimodal uniforme a lo largo de la trayectoria del flujo, así como extender de manera eficiente los MLLM centrados en imágenes al video sin un costoso reentrenamiento. Presentamos UniVid, una arquitectura unificada que acopla un MLLM con un decodificador de difusión a través de un adaptador ligero, permitiendo tanto la comprensión como la generación de video. Introducimos la Alineación de Modalidad por Temperatura para mejorar la adherencia a las indicaciones y la Reflexión en Pirámide para un razonamiento temporal eficiente mediante la selección dinámica de fotogramas clave. Experimentos exhaustivos en benchmarks estándar demuestran un rendimiento de vanguardia, logrando una mejora del 2.2% en la puntuación total de VBench-Long en comparación con EasyAnimateV5.1, y ganancias de precisión del 1.0% y 3.3% en MSVD-QA y ActivityNet-QA, respectivamente, en comparación con los mejores baselines previos de 7B.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han demostrado capacidades notables en la resolución de problemas complejos a través del razonamiento en Cadena de Pensamiento (CoT, por sus siglas en inglés). Sin embargo, la naturaleza de múltiples pasos del CoT introduce nuevos desafíos de seguridad que van más allá de la alineación convencional de los modelos de lenguaje. Identificamos un modo de fallo en los métodos actuales de ajuste de seguridad del CoT: el efecto bola de nieve, donde las desviaciones menores en el razonamiento se amplifican progresivamente a lo largo del proceso de pensamiento, llevando a una conformidad dañina o a un rechazo excesivo. Este efecto surge de que los modelos son entrenados para imitar guiones de razonamiento perfectos sin aprender a autocorregirse. Para abordar esta limitación, proponemos AdvChain, un paradigma de alineación que enseña a los modelos la autocorrección dinámica mediante el ajuste adversario del CoT. Nuestro método implica la construcción de un conjunto de datos que contiene muestras de Tentación-Corrección y Hesitación-Corrección, donde los modelos aprenden a recuperarse de desviaciones dañinas en el razonamiento y precauciones innecesarias. Experimentos extensos muestran que AdvChain mejora significativamente la robustez frente a ataques de jailbreak y secuestro del CoT, al mismo tiempo que reduce sustancialmente el rechazo excesivo en indicaciones benignas, logrando un equilibrio superior entre seguridad y utilidad sin comprometer las capacidades de razonamiento. Nuestro trabajo establece una nueva dirección para la construcción de modelos de razonamiento más robustos y confiables.
El rápido avance de los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) y los agentes de IA basados en la nube está transformando la colaboración humano-IA en una interacción bidireccional y multimodal. Sin embargo, los códecs existentes siguen optimizados para la comunicación unimodal y unidireccional, lo que resulta en una degradación repetida bajo los flujos convencionales de compresión-transmisión-reconstrucción. Para abordar esta limitación, proponemos UniMIC, un marco de Codificación Interactiva Multimodal Unificada basado en tokens que conecta dispositivos periféricos y agentes de IA en la nube. En lugar de transmitir píxeles en bruto o texto plano, UniMIC emplea representaciones tokenizadas compactas como medio de comunicación, permitiendo una transmisión eficiente a bajas tasas de bits mientras mantiene la compatibilidad con los LMMs. Para mejorar aún más la compresión, modelos de entropía ligeros basados en Transformers con diseños específicos para cada escenario—genéricos, enmascarados y condicionados por texto—minimizan eficazmente la redundancia entre tokens. Experimentos exhaustivos en generación de imágenes a partir de texto, restauración guiada por texto, expansión de imágenes y respuesta a preguntas visuales muestran que UniMIC logra ahorros sustanciales en la tasa de bits y se mantiene robusto incluso en tasas de bits ultra bajas (<0.05 bpp), sin comprometer el rendimiento de las tareas posteriores. Estos resultados establecen a UniMIC como un paradigma práctico y visionario para la comunicación interactiva multimodal de próxima generación.
La escalabilidad ha impulsado los avances recientes en modelado generativo, sin embargo, sus principios siguen siendo poco explorados en el aprendizaje adversarial. Investigamos la escalabilidad de las Redes Generativas Adversarias (GANs) a través de dos decisiones de diseño que han demostrado ser efectivas en otros tipos de modelos generativos: entrenamiento en un espacio latente compacto de Autoencoders Variacionales y la adopción de generadores y discriminadores basados exclusivamente en transformadores. El entrenamiento en el espacio latente permite un cálculo eficiente mientras se preserva la fidelidad perceptual, y esta eficiencia se combina naturalmente con transformadores simples, cuyo rendimiento escala con el presupuesto computacional. Basándonos en estas decisiones, analizamos los modos de fallo que surgen al escalar GANs de manera ingenua. Específicamente, encontramos problemas como la subutilización de las capas iniciales en el generador y la inestabilidad en la optimización a medida que la red escala. En consecuencia, ofrecemos soluciones simples y compatibles con la escalabilidad, como una supervisión intermedia ligera y ajustes en la tasa de aprendizaje conscientes del ancho. Nuestros experimentos muestran que GAT, una GAN basada exclusivamente en transformadores y en espacio latente, puede entrenarse de manera confiable y fácil en un amplio rango de capacidades (desde S hasta XL). Además, GAT-XL/2 logra un rendimiento de generación condicional a clases de un solo paso de última generación (FID de 2.96) en ImageNet-256 en solo 40 épocas, 6 veces menos épocas que los baselines más robustos.
La navegación guiada por lenguaje orientada a objetivos requiere capacidades de exploración robustas para que los agentes puedan navegar hacia metas específicas en entornos desconocidos sin instrucciones paso a paso. Los métodos existentes tienden a utilizar exclusivamente trayectorias de camino más corto, careciendo de prioridades de exploración efectivas para entrenar agentes de navegación. Para abordar estos desafíos, presentamos SID, un enfoque de aprendizaje de navegación guiada por lenguaje orientado a objetivos con Demostraciones de Automejora. Específicamente, SID entrena un agente inicial con datos de camino más corto muestreados de los entornos y luego aprovecha este agente para generar trayectorias de exploración novedosas. Estas nuevas ejecuciones proporcionan demostraciones con estrategias de exploración más sólidas para entrenar un agente mejor, que a su vez produce demostraciones de mayor calidad para la siguiente ronda de entrenamiento. Demostramos que este pipeline iterativo de automejora se escala fácilmente a nuevos entornos, y las demostraciones resultantes pueden transferirse a una variedad de tareas de navegación guiada por lenguaje, elevando el límite de rendimiento en diversas tareas de navegación orientadas a objetivos. Experimentos extensos demuestran que SID mejora significativamente las capacidades de exploración y generalización de los agentes de navegación. El agente resultante alcanza un nuevo rendimiento de vanguardia en tareas de navegación guiada por lenguaje orientadas a objetivos, incluyendo REVERIE y SOON, logrando notablemente una tasa de éxito del 50.9% en las divisiones de validación no vistas de SOON, superando a los enfoques líderes anteriores por un margen del 13.9%.
El Desarrollo Guiado por Pruebas (TDD, por sus siglas en inglés) es una práctica ampliamente adoptada en la ingeniería de software que requiere que los desarrolladores creen y ejecuten pruebas junto con la implementación del código, asegurando que el comportamiento del software sea validado y refinado de manera continua. En la era de la codificación intuitiva, donde los desarrolladores delegan cada vez más la escritura de código a modelos de lenguaje de gran escala (LLMs) especificando intenciones de alto nivel, el TDD se vuelve aún más crucial, ya que los casos de prueba sirven como especificaciones ejecutables que definen y verifican explícitamente la funcionalidad prevista, más allá de lo que las descripciones en lenguaje natural y el contexto del código pueden transmitir. Aunque la codificación intuitiva bajo TDD es prometedora, existen tres desafíos principales: (1) seleccionar un conjunto de pruebas pequeño pero efectivo para mejorar la precisión de la generación y controlar la carga de ejecución, (2) recuperar contexto, como código relevante, de manera eficiente, y (3) utilizar sistemáticamente la retroalimentación de las pruebas para un refinamiento efectivo del código. Para abordar estos desafíos, presentamos TENET, un agente LLM para generar funciones en repositorios complejos del mundo real bajo el entorno TDD. TENET cuenta con tres componentes: (1) un mecanismo novedoso de arnés de pruebas que selecciona un conjunto de pruebas conciso para maximizar la diversidad de escenarios de uso objetivo; (2) un conjunto de herramientas de agente personalizado que realiza una recuperación eficiente de código relevante con depuración interactiva; y (3) un flujo de trabajo de refinamiento basado en reflexión que analiza iterativamente los fallos, complementa el contexto y aplica el refinamiento del código. TENET logra un 69.08% y un 81.77% en Pass@1 en los puntos de referencia RepoCod y RepoEval, superando a los mejores agentes de referencia en 9.49 y 2.17 puntos porcentuales, respectivamente. Además, este es el primer estudio sobre generación de código guiada por pruebas con contexto a nivel de repositorio, examinando cómo diferentes aspectos de los conjuntos de pruebas afectan el rendimiento de los agentes LLM bajo el entorno TDD.
Comprender cómo los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) realizan razonamientos complejos y sus mecanismos de fallo es un desafío en la investigación de interpretabilidad. Para ofrecer una perspectiva medible desde el análisis geométrico, definimos el concepto del *Manifold de Razonamiento*, una estructura geométrica latente de baja dimensión formada por las representaciones internas correspondientes a todas las generaciones razonadas correctamente. Esta estructura puede conceptualizarse como la encarnación de los caminos de pensamiento efectivos que el modelo ha aprendido para resolver con éxito una tarea dada. Basándonos en este concepto, construimos REMA, un marco que explica los orígenes de los fallos al comparar cuantitativamente las relaciones espaciales de las representaciones internas del modelo correspondientes tanto a muestras de razonamiento erróneo como correcto. Específicamente, REMA primero cuantifica la desviación geométrica de cada representación errónea calculando su distancia de los k-vecinos más cercanos al *manifold* aproximado formado por las representaciones correctas, proporcionando así una señal de fallo unificada. Luego, localiza los puntos de divergencia donde estas desviaciones se vuelven significativas al rastrear esta métrica de desviación a través de las capas del modelo y compararla con una línea base de fluctuaciones internas de las representaciones correctas, identificando así dónde comienza a desviarse la cadena de razonamiento. Nuestros extensos experimentos en diversos modelos de lenguaje y multimodales, así como en tareas variadas, demuestran la naturaleza de baja dimensión del *manifold* de razonamiento y la alta separabilidad entre las representaciones de razonamiento erróneo y correcto. Los resultados también validan la efectividad del marco REMA en el análisis de los orígenes de los fallos de razonamiento. Esta investigación conecta los fallos abstractos de razonamiento con desviaciones geométricas medibles en las representaciones, proporcionando nuevas vías para una comprensión profunda y el diagnóstico de los procesos computacionales internos de los modelos de caja negra.
Los datos emparejados RGB-térmicos son cruciales para la fusión de sensores visuales y térmicos, así como para tareas de multimodalidad, incluyendo aplicaciones importantes como la alineación y recuperación de imágenes multimodales. Sin embargo, la escasez de pares de imágenes RGB-térmicas sincronizadas y calibradas representa un obstáculo importante para el avance en estas áreas. Para superar este desafío, la traducción de imágenes RGB a térmicas (RGB-T) ha surgido como una solución prometedora, permitiendo la síntesis de imágenes térmicas a partir de conjuntos de datos RGB abundantes para fines de entrenamiento. En este estudio, proponemos ThermalGen, un modelo generativo basado en flujo adaptativo para la traducción de imágenes RGB-T, que incorpora una arquitectura de condicionamiento de imágenes RGB y un mecanismo de desentrelazado de estilos. Para respaldar el entrenamiento a gran escala, recopilamos ocho conjuntos de datos públicos emparejados RGB-T de satélite-aéreo, aéreo y terrestre, e introdujimos tres nuevos conjuntos de datos RGB-T de satélite-aéreo a gran escala—DJI-day, Bosonplus-day y Bosonplus-night—capturados en diversos momentos, tipos de sensores y regiones geográficas. Evaluaciones exhaustivas en múltiples benchmarks RGB-T demuestran que ThermalGen logra un rendimiento de traducción comparable o superior en comparación con los métodos existentes basados en GAN y difusión. Hasta donde sabemos, ThermalGen es el primer modelo de traducción de imágenes RGB-T capaz de sintetizar imágenes térmicas que reflejan variaciones significativas en puntos de vista, características de los sensores y condiciones ambientales. Página del proyecto: http://xjh19971.github.io/ThermalGen
Los sistemas de inteligencia artificial (IA), y en particular los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), se emplean cada vez más para tareas creativas, como la generación de ideas científicas, lo que constituye una forma de generalización a partir de datos de entrenamiento no abordada por los marcos conceptuales existentes. A pesar de sus similitudes con la generalización composicional (CG), la creatividad combinatoria (CC) es una habilidad de naturaleza abierta. En lugar de evaluar la precisión o corrección frente a objetivos fijos, lo que contradiría la naturaleza abierta de la CC, proponemos un marco teórico y una tarea algorítmica para evaluar las salidas según su grado de novedad y utilidad. A partir de esto, realizamos varias contribuciones empíricas importantes: (1) Obtenemos las primeras perspectivas sobre el comportamiento de escalabilidad de la creatividad en los LLMs. (2) Descubrimos que, para presupuestos de cómputo fijos, existen profundidades y anchuras óptimas de los modelos para la capacidad creativa. (3) Encontramos que la brecha entre ideación y ejecución, por la cual los LLMs sobresalen en la generación de ideas científicas novedosas pero luchan por garantizar su viabilidad práctica, puede explicarse por un equilibrio fundamental entre novedad y utilidad característico de los algoritmos de creatividad en general. Importante, este equilibrio persiste incluso a gran escala, lo que pone en duda el potencial creativo a largo plazo de los LLMs en su forma actual. Juntos, nuestro marco conceptual y los hallazgos empíricos proporcionan una base para comprender y mejorar la creatividad en los modelos modernos de IA, cerrando la brecha entre la inteligencia humana y la máquina.
Wikipedia es el mayor corpus de conocimiento abierto, ampliamente utilizado en todo el mundo y que sirve como un recurso clave para el entrenamiento de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y sistemas de generación aumentada por recuperación (RAG, por sus siglas en inglés). Por lo tanto, garantizar su precisión es fundamental. Pero, ¿qué tan precisa es Wikipedia y cómo podemos mejorarla? Nos enfocamos en las inconsistencias, un tipo específico de imprecisión factual, e introducimos la tarea de detección de inconsistencias a nivel de corpus. Presentamos CLAIRE, un sistema agéntico que combina el razonamiento de LLMs con la recuperación de información para identificar afirmaciones potencialmente inconsistentes junto con evidencia contextual para su revisión humana. En un estudio de usuarios con editores experimentados de Wikipedia, el 87.5% reportó mayor confianza al utilizar CLAIRE, y los participantes identificaron un 64.7% más de inconsistencias en el mismo período de tiempo. Combinando CLAIRE con la anotación humana, contribuimos con WIKICOLLIDE, el primer benchmark de inconsistencias reales de Wikipedia. Utilizando muestreo aleatorio con análisis asistido por CLAIRE, encontramos que al menos el 3.3% de los hechos en la Wikipedia en inglés contradicen otro hecho, con inconsistencias que se propagan en el 7.3% de los ejemplos de FEVEROUS y el 4.0% de AmbigQA. La evaluación de líneas base sólidas en este conjunto de datos revela un margen de mejora significativo: el mejor sistema completamente automatizado alcanza un AUROC de solo el 75.1%. Nuestros resultados muestran que las contradicciones son un componente medible de Wikipedia y que los sistemas basados en LLMs, como CLAIRE, pueden proporcionar una herramienta práctica para ayudar a los editores a mejorar la consistencia del conocimiento a gran escala.
Predecir la movilidad humana es inherentemente desafiante debido a las complejas dependencias de largo alcance y los comportamientos periódicos multi-escala. Para abordar esto, presentamos RHYTHM (Razonamiento con Tokenización Temporal Jerárquica para la Movilidad Humana), un marco unificado que aprovecha los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) como predictores espacio-temporales de propósito general y razonadores de trayectorias. Metodológicamente, RHYTHM emplea la tokenización temporal para dividir cada trayectoria en segmentos diarios y codificarlos como tokens discretos con atención jerárquica que captura tanto las dependencias diarias como semanales, reduciendo significativamente la longitud de la secuencia mientras se preserva la información cíclica. Además, enriquecemos las representaciones de los tokens añadiendo incrustaciones de prompts precalculadas para segmentos de trayectorias y objetivos de predicción mediante un LLM congelado, y alimentamos estas incrustaciones combinadas de vuelta al núcleo del LLM para capturar interdependencias complejas. Computacionalmente, RHYTHM congela el núcleo preentrenado del LLM para reducir la complejidad de la atención y el costo de memoria. Evaluamos nuestro modelo frente a métodos de vanguardia utilizando tres conjuntos de datos del mundo real. Notablemente, RHYTHM logra una mejora del 2.4% en la precisión general, un aumento del 5.0% en los fines de semana y una reducción del 24.6% en el tiempo de entrenamiento. El código está disponible públicamente en https://github.com/he-h/rhythm.
Al editar directamente desde la vida, los fotógrafos han encontrado demasiado difícil ver simultáneamente tanto el azul como el cielo. El fotógrafo y curador Szarkowski reveló de manera perspicaz una de las brechas notables entre la comprensión visual general y la estética: mientras que la primera se centra en identificar el elemento factual en una imagen (el cielo), la última trasciende dicha identificación de objetos, viéndola en cambio como un componente estético—un bloque de color puro (azul). Estas distinciones fundamentales entre la comprensión visual general (detección, localización, etc.) y la estética (color, iluminación, composición, etc.) presentan un desafío significativo para los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs). Aunque algunos trabajos recientes han realizado exploraciones iniciales, a menudo se limitan a nociones generales y básicas de estética. Como resultado, frecuentemente se quedan cortos en escenarios del mundo real (Fig. 1), que requieren un amplio conocimiento experto—incluyendo técnicas fotográficas, conocimientos de pre/post-procesamiento de fotos, y más, para proporcionar un análisis y descripción detallados. Para mejorar fundamentalmente la comprensión estética de los MLLMs, primero presentamos un nuevo conjunto de datos, PhotoCritique, derivado de extensas discusiones entre fotógrafos profesionales y entusiastas, y caracterizado por su gran escala, expertise y diversidad. Luego, para aprender mejor la estética visual de PhotoCritique, proponemos un nuevo modelo, PhotoEye, que cuenta con un mecanismo de fusión de visión multi-vista guiado por lenguaje para comprender la estética de las imágenes desde múltiples perspectivas. Finalmente, presentamos un nuevo punto de referencia, PhotoBench, un benchmark completo y profesional para la comprensión visual estética. En los benchmarks existentes y en PhotoBench, nuestro modelo demuestra claras ventajas sobre los modelos existentes.
La capacidad de resumir documentos extensos de manera concisa es cada vez más importante en la vida diaria debido a la sobrecarga de información, sin embargo, existe una notable falta de este tipo de resúmenes para documentos en español en general, y en el ámbito legal en particular. En este trabajo, presentamos BOE-XSUM, un conjunto de datos curado que comprende 3.648 resúmenes breves y en lenguaje sencillo de documentos extraídos del ``Boletín Oficial del Estado'' (BOE) de España. Cada entrada en el conjunto de datos incluye un resumen corto, el texto original y su etiqueta de tipo de documento. Evaluamos el rendimiento de modelos de lenguaje grandes (LLMs) de tamaño medio ajustados en BOE-XSUM, comparándolos con modelos generativos de propósito general en un escenario de cero disparos. Los resultados muestran que los modelos ajustados superan significativamente a sus contrapartes no especializadas. En particular, el modelo con mejor rendimiento -- BERTIN GPT-J 6B (precisión de 32 bits) -- logra una mejora del 24\% en comparación con el mejor modelo de cero disparos, DeepSeek-R1 (precisión del 41.6\% frente al 33.5\%).
Este artículo presenta BPMN Assistant, una herramienta que aprovecha los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para la creación y edición de diagramas BPMN basada en lenguaje natural. Se introduce una representación especializada basada en JSON como una alternativa estructurada al manejo directo de XML para mejorar la precisión en las modificaciones de procesos. La calidad de la generación de procesos se evalúa utilizando la Distancia de Edición de Grafos (GED, por sus siglas en inglés) y la Distancia de Edición de Grafos Relativa (RGED, por sus siglas en inglés), mientras que el rendimiento en la edición se evalúa con una métrica binaria de éxito. Los resultados muestran que JSON y XML obtienen puntuaciones de similitud similares en la generación, pero JSON ofrece mayor confiabilidad, un procesamiento más rápido y tasas de éxito significativamente más altas en la edición. Se discuten compensaciones clave, limitaciones y mejoras futuras. La implementación está disponible en https://github.com/jtlicardo/bpmn-assistant.
Presentamos ADAM (A Diverse Archive of Mankind), un marco para evaluar y mejorar modelos de lenguaje multimodal de gran escala (MLLMs) en el razonamiento biográfico. Hasta donde sabemos, este es el primer trabajo que examina sistemáticamente las capacidades de los modelos de lenguaje en el ámbito de la biografía, una dimensión crítica pero poco explorada del conocimiento factual. En su núcleo, AdamDB es un conjunto de datos multilingüe y multimodal que abarca a más de 4 millones de individuos a través de la geografía, el tiempo y la profesión, mientras que AdamBench ofrece evaluaciones cognitivamente estructuradas basadas en la taxonomía de Bloom, abarcando seis niveles de razonamiento tanto en inglés como en idiomas nativos. Para abordar las alucinaciones, particularmente en individuos menos conocidos, proponemos AdamRAG, un sistema de generación aumentada por recuperación de información adaptado a contextos biográficos. Los experimentos muestran que AdamRAG mejora sustancialmente los modelos de código abierto y beneficia modestamente a los de código cerrado, con las mayores mejoras en el razonamiento de orden inferior. La popularidad media fuertemente la precisión, y la entrada multimodal a través de imágenes faciales ofrece mejoras menores y menos consistentes que la recuperación de información. ADAM establece el primer punto de referencia y marco para la evaluación biográfica cognitiva, cultural y multimodalmente fundamentada, avanzando en el desarrollo de MLLMs multilingües, precisos y resistentes a las alucinaciones.
Generar estimaciones de confianza precisas y calibradas es fundamental para implementar modelos de lenguaje grandes (LLMs, por sus siglas en inglés) en aplicaciones de alto riesgo o dirigidas a usuarios, y sigue siendo un desafío abierto. Investigaciones previas a menudo han enmarcado la confianza como un problema de elicitar el "autoconocimiento" de un modelo, es decir, la capacidad de un LLM para juzgar si sus propias respuestas son correctas; este enfoque asume implícitamente que existe cierta información privilegiada sobre la corrección de la respuesta que es accesible para el modelo mismo. Sin embargo, nuestros experimentos revelan que un LLM que intenta predecir la corrección de sus propias salidas generalmente no tiene un desempeño mejor que un LLM no relacionado. Además, planteamos la hipótesis de que un factor clave en la construcción de un "Modelo de Corrección" (CM, por sus siglas en inglés) es la exposición a las predicciones históricas de un modelo objetivo. Proponemos múltiples métodos para inyectar esta información histórica de corrección, creando un Modelo Generalizado de Corrección (GCM, por sus siglas en inglés). Primero demostramos que los GCMs pueden entrenarse con datos de corrección de muchos LLMs y aprender patrones para la predicción de corrección aplicables a través de conjuntos de datos y modelos. Luego, utilizamos los CMs como una lente para estudiar la fuente de la capacidad de predicción de corrección y su generalización, controlando sistemáticamente sus datos de entrenamiento y encontrando que la redacción de la respuesta es un predictor fuerte de la corrección. Además, exploramos métodos alternativos de inyectar historia sin entrenar un LLM, encontrando que incluir la historia como ejemplos en contexto puede ayudar a mejorar la predicción de corrección, y que la calibración post-hoc puede proporcionar reducciones complementarias en el error de calibración. Evaluamos los GCMs basados en Qwen3-8B en 5 familias de modelos y en los conjuntos de datos MMLU y TriviaQA, así como en una tarea de predicción selectiva descendente, encontrando que la estimación confiable de la confianza en LLMs es una habilidad generalizable y agnóstica al modelo, aprendida mediante la codificación sistemática de la historia de corrección, en lugar de una habilidad específica del modelo que dependa de la introspección.
El aprendizaje por refuerzo con control óptimo estocástico ofrece un marco prometedor para el ajuste fino de difusión, donde un modelo de difusión preentrenado se optimiza para generar trayectorias que conduzcan a una distribución inclinada por recompensas. Si bien estos enfoques permiten la optimización sin acceso a muestras explícitas de la distribución óptima, requieren entrenamiento en simulaciones bajo el modelo ajustado actual, lo que los hace susceptibles a reforzar trayectorias subóptimas que producen recompensas deficientes. Para superar este desafío, presentamos TRee Search Guided TRajectory-Aware Fine-Tuning for Discrete Diffusion (TR2-D2), un marco novedoso que optimiza trayectorias de difusión discreta guiadas por recompensas mediante búsqueda en árbol para construir buffers de repetición para el ajuste fino consciente de trayectorias. Estos buffers se generan utilizando Búsqueda de Monte Carlo en Árbol (MCTS) y posteriormente se utilizan para ajustar un modelo de difusión discreta preentrenado bajo un objetivo de control óptimo estocástico. Validamos nuestro marco en el ajuste fino de objetivos únicos y múltiples en modelos de difusión de secuencias biológicas, destacando la efectividad general de TR2-D2 para un ajuste fino confiable guiado por recompensas en la generación de secuencias discretas.
Los subtítulos de video ofrecen instantáneas concisas de actores, objetos y acciones dentro de un video, sirviendo como recursos valiosos para aplicaciones como la respuesta a preguntas y la localización de eventos. Sin embargo, la adquisición de anotaciones humanas para los subtítulos de video es costosa o incluso poco práctica, especialmente cuando se trata de dominios de video diversos. Los modelos existentes entrenados en conjuntos de datos supervisados enfrentan desafíos al evaluar su rendimiento en diferentes dominios debido a la dependencia de protocolos de evaluación basados en referencias, que requieren subtítulos de verdad fundamental. Esta suposición es poco realista para evaluar videos en entornos no controlados. Para abordar estas limitaciones, proponemos un marco de evaluación sin referencias que no requiere subtítulos de verdad fundamental, centrándose en la fundamentación factual para garantizar una evaluación precisa de la calidad de los subtítulos. Presentamos VC-Inspector, un novedoso evaluador de calidad de subtítulos que es tanto sin referencias como factualmente fundamentado. Utilizando modelos de lenguaje de gran escala, generamos subtítulos pseudo de calidad variable basados en datos supervisados, que posteriormente se utilizan para entrenar un modelo multimodal (es decir, Qwen2.5-VL) como evaluador. Nuestro enfoque demuestra una alineación superior con los juicios humanos en el conjunto de datos VATEX-Eval, superando a los métodos existentes. El rendimiento también se generaliza a conjuntos de datos de subtítulos de imágenes, Flickr8K-Expert y Flickr8K-CF, al considerar las imágenes como videos de un solo fotograma. En general, VC-Inspector ofrece una solución escalable y generalizable para evaluar la precisión factual de los subtítulos de video, allanando el camino para metodologías de evaluación más efectivas y objetivas en diversos dominios de video.
Durante la última década, la Lingüística Computacional (LC) y el Procesamiento del Lenguaje Natural (PLN) han evolucionado rápidamente, especialmente con el surgimiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) basados en Transformers. Este cambio ha transformado los objetivos y prioridades de investigación, desde los Recursos Léxicos y Semánticos hacia el Modelado del Lenguaje y la Multimodalidad. En este estudio, rastreamos las tendencias de investigación de la comunidad italiana de LC y PLN a través de un análisis de las contribuciones a CLiC-it, considerada la principal conferencia italiana en el campo. Compilamos las actas de las primeras 10 ediciones de la conferencia CLiC-it (desde 2014 hasta 2024) en el Corpus CLiC-it, proporcionando un análisis exhaustivo tanto de sus metadatos, incluyendo la procedencia de los autores, género, afiliaciones y más, como del contenido de los artículos mismos, que abordan diversos temas. Nuestro objetivo es ofrecer a las comunidades de investigación italiana e internacional valiosas perspectivas sobre las tendencias emergentes y los desarrollos clave a lo largo del tiempo, apoyando decisiones informadas y futuras direcciones en el campo.