Artículos de investigación en IA seleccionados diariamente con traducciones
Proponemos QeRL, un marco de Aprendizaje por Refuerzo Mejorado con Cuantización para modelos de lenguaje grandes (LLMs). Si bien el Aprendizaje por Refuerzo (RL) es esencial para las capacidades de razonamiento de los LLMs, es intensivo en recursos, requiriendo una memoria GPU sustancial y largas duraciones de ejecución. QeRL aborda estos problemas combinando la cuantización NVFP4 con la Adaptación de Bajo Rango (LoRA), acelerando la fase de ejecución del RL mientras reduce la sobrecarga de memoria. Más allá de la eficiencia, nuestros hallazgos muestran que el ruido de cuantización aumenta la entropía de la política, mejorando la exploración y permitiendo el descubrimiento de mejores estrategias durante el RL. Para optimizar aún más la exploración, QeRL introduce un mecanismo de Ruido de Cuantización Adaptativo (AQN), que ajusta dinámicamente el ruido durante el entrenamiento. Los experimentos demuestran que QeRL ofrece una aceleración de más de 1.5 veces en la fase de ejecución. Además, este es el primer marco que permite el entrenamiento de RL de un LLM de 32B en una sola GPU H100 de 80GB, mientras ofrece aceleraciones generales para el entrenamiento de RL. También logra un crecimiento más rápido de la recompensa y una precisión final más alta que LoRA de 16 bits y QLoRA, igualando el rendimiento del ajuste fino de parámetros completos en benchmarks matemáticos como GSM8K (90.8%) y MATH 500 (77.4%) en el modelo de 7B. Estos resultados establecen a QeRL como un marco eficiente y efectivo para el entrenamiento de RL en LLMs.
El modelado generativo latente, donde un autocodificador preentrenado mapea píxeles en un espacio latente para el proceso de difusión, se ha convertido en la estrategia estándar para los Transformadores de Difusión (DiT); sin embargo, el componente del autocodificador apenas ha evolucionado. La mayoría de los DiT siguen dependiendo del codificador VAE original, lo que introduce varias limitaciones: arquitecturas obsoletas que comprometen la simplicidad estructural, espacios latentes de baja dimensión que restringen la capacidad de información y representaciones débiles que resultan de un entrenamiento basado únicamente en la reconstrucción, lo que finalmente limita la calidad generativa. En este trabajo, exploramos reemplazar el VAE con codificadores de representación preentrenados (por ejemplo, DINO, SigLIP, MAE) combinados con decodificadores entrenados, formando lo que denominamos Autocodificadores de Representación (RAE). Estos modelos proporcionan tanto reconstrucciones de alta calidad como espacios latentes semánticamente ricos, al mismo tiempo que permiten una arquitectura escalable basada en transformadores. Dado que estos espacios latentes suelen ser de alta dimensión, un desafío clave es permitir que los transformadores de difusión operen eficazmente dentro de ellos. Analizamos las fuentes de esta dificultad, proponemos soluciones teóricamente fundamentadas y las validamos empíricamente. Nuestro enfoque logra una convergencia más rápida sin pérdidas auxiliares de alineación de representaciones. Utilizando una variante de DiT equipada con una cabeza DDT ligera y amplia, obtenemos resultados sólidos en la generación de imágenes en ImageNet: 1.51 FID a 256x256 (sin guía) y 1.13 tanto a 256x256 como a 512x512 (con guía). RAE ofrece ventajas claras y debería ser el nuevo estándar para el entrenamiento de transformadores de difusión.
Los modelos autorregresivos (AR) siguen siendo el estándar para la generación de lenguaje natural, pero aún sufren de alta latencia debido a la decodificación estrictamente secuencial. Enfoques recientes inspirados en difusión, como LlaDA y Dream, mitigan esto generando en paralelo, aunque presentan dos limitaciones principales: la pérdida de información, ya que las distribuciones predictivas para tokens no finalizados se descartan en cada paso, y el compromiso prematuro, donde se toman decisiones locales sin una coordinación global suficiente. Introducimos Latent Refinement Decoding (LRD), un marco de dos etapas con Refinamiento Latente y un Bucle de Retroalimentación Predictiva. La primera etapa mantiene posiciones enmascaradas como mezclas distribucionales de tokens predichos y la incrustación de la máscara, permitiendo que el modelo establezca creencias más consistentes a nivel global. La segunda etapa finaliza progresivamente los tokens confiables mientras retiene los inciertos para una retroalimentación iterativa. La dinámica de divergencia KL proporciona un criterio fundamentado y confiable para la convergencia y la detención temprana. Los experimentos en tareas de codificación (HumanEval +6.3, MBPP +2.6) y razonamiento (GSM8K +2.9, MATH500 +3.8) muestran que LRD mejora la precisión mientras ofrece aceleraciones de hasta 10.6x, convirtiéndolo en una alternativa sólida y versátil para la generación paralela de secuencias.
Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han demostrado un potencial considerable en la comprensión de videos. Sin embargo, los puntos de referencia existentes no logran evaluar de manera integral las capacidades de razonamiento sinérgico a través de las modalidades de audio y visuales, a menudo descuidando una de las modalidades o integrándolas de manera lógicamente inconsistente. Para cerrar esta brecha, presentamos OmniVideoBench, un punto de referencia de gran escala y rigurosamente diseñado dedicado a evaluar la comprensión sinérgica de audio y visuales, con un fuerte énfasis en la complementariedad de modalidades y la consistencia lógica. Específicamente, OmniVideoBench comprende 1000 pares de preguntas y respuestas (QA) de alta calidad, cada uno anotado con trazas de razonamiento paso a paso, derivados de 628 videos diversos que van desde varios segundos hasta 30 minutos, y verificados manualmente para garantizar su total corrección y unicidad. Además, OmniVideoBench abarca 13 tipos de preguntas cuidadosamente diseñadas, que cubren razonamiento temporal, localización espacial, conteo, inferencia causal, resumen y más, capturando así los desafíos esenciales de la comprensión de videos. La evaluación de múltiples MLLMs en OmniVideoBench revela una brecha pronunciada entre el rendimiento del modelo y el razonamiento humano, con los modelos de código abierto quedando significativamente rezagados respecto a sus contrapartes de código cerrado, subrayando la inherente dificultad del razonamiento genuino de audio y visuales. Publicaremos OmniVideoBench para fomentar el desarrollo de MLLMs con capacidades de razonamiento más fuertes y generalizables.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido recientemente como un marco prometedor para mejorar las capacidades de razonamiento en los Modelos de Lenguaje de Gran Escala (LLMs). Sin embargo, las políticas optimizadas con verificación binaria tienden a pasar por alto exploraciones potencialmente valiosas en la trayectoria de razonamiento. Dado el alto costo de anotación de los Modelos de Recompensa de Proceso (PRMs) de referencia, trabajos recientes intentan utilizar señales auxiliares para moldear las recompensas de los tokens de proceso, involucrando entropía y verosimilitud recolectadas del espacio de logits. En este trabajo, ofrecemos una perspectiva novedosa sobre el moldeado de RLVR con recompensas de flujo derivadas del espacio latente, y proponemos RLFR, donde los campos de flujo de los latentes del modelo se construyen a partir de datos de alta calidad fuera de la política y datos de muestreo por rechazo dentro de la política, y las desviaciones de velocidad de los latentes de la política dentro de este campo se cuantifican para servir como señal de recompensa. RLFR demuestra primero que un campo de flujo bien establecido puede ser un entorno sólido para la recolección de señales de recompensa, destacando que el espacio latente expresivo está muy poco explorado. Además, RLFR es capaz de comprimir cualquier dato experto fuera de la política como referencia para constituir señales de recompensa, y mostramos que se utiliza la dependencia contextual eficiente comprimida dentro de los estados ocultos, en lugar de la denotación a nivel de tokens individuales para la comprensión del contexto. Los experimentos en benchmarks de razonamiento tanto de lenguaje como multimodal demuestran la confiabilidad de las recompensas de flujo, sugiriendo un paradigma prometedor para el moldeado de recompensas con señales auxiliares.
Si bien el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha avanzado las capacidades de razonamiento de los Modelos de Lenguaje y Visión a Gran Escala (LVLMs), la mayoría de los métodos existentes en razonamiento multimodal descuidan el papel crítico de la percepción visual dentro del proceso de optimización de RLVR. En este artículo, emprendemos una exploración pionera del RLVR multimodal a través de la novedosa perspectiva de la percepción de tokens, que mide la dependencia visual de cada token generado. Con un análisis granular de los procesos de Cadena de Pensamiento (CoT), descubrimos dos ideas clave: primero, la percepción de tokens en una trayectoria de despliegue está distribuida de manera dispersa, donde solo una pequeña fracción de tokens tiene una alta dependencia visual para el razonamiento basado en la visión; segundo, diferentes trayectorias muestran una divergencia significativa en su dependencia visual general. Basándonos en estas observaciones, proponemos la Optimización de Políticas Visualmente Perceptivas (VPPO), un novedoso algoritmo de gradiente de políticas que aprovecha explícitamente la percepción de tokens para refinar la señal de aprendizaje. Específicamente, VPPO logra esto a través de un mecanismo dual: reponderiza la ventaja de una trayectoria según su dependencia visual general y enfoca las actualizaciones de políticas exclusivamente en tokens perceptualmente cruciales. En un conjunto integral de ocho puntos de referencia de percepción y razonamiento, VPPO demuestra ganancias sustanciales sobre los principales modelos ajustados por RL de código abierto, con su efectividad validada consistentemente en escalas de modelos de 7B y 32B. Nuestros hallazgos no solo establecen una nueva perspectiva perceptual a nivel de token para analizar el RLVR multimodal, sino que también presentan una estrategia de optimización novedosa y efectiva para mejorar significativamente las capacidades de razonamiento multimodal de los LVLMs.
La modelización general de SVG sigue siendo un desafío debido a la fragmentación de los conjuntos de datos, la transferibilidad limitada de los métodos entre tareas y la dificultad de manejar la complejidad estructural. En respuesta, aprovechamos las fuertes capacidades de transferencia y generalización de los modelos de lenguaje multimodal de gran escala (MLLM, por sus siglas en inglés) para lograr una modelización unificada para la comprensión, edición y generación de SVG. Presentamos la familia InternSVG, un conjunto integrado de datos, puntos de referencia y modelos. En su núcleo se encuentra SAgoge, el conjunto de datos multimodal más grande y completo para tareas de SVG, que abarca tanto gráficos estáticos como animaciones dinámicas. Cubre iconos, ilustraciones de secuencias largas, diagramas científicos y animaciones dinámicas, apoyando tareas de diversos niveles de dificultad y proporcionando jerarquías más profundas con atributos más ricos en comparación con conjuntos de datos anteriores. Basándonos en este recurso, introducimos SArena, un punto de referencia complementario con definiciones de tareas exhaustivas y evaluación estandarizada que se alinea con los dominios y el espectro de dificultad cubierto por SAgoge. Sobre estas bases, proponemos InternSVG, un MLLM unificado para la comprensión, edición y generación de SVG con tokens especiales específicos para SVG, inicialización de incrustaciones basada en subpalabras y una estrategia de entrenamiento en dos etapas que avanza desde SVG estáticos cortos hasta ilustraciones de secuencias largas y animaciones complejas. Esta formulación unificada induce una transferencia positiva y mejora el rendimiento general. Los experimentos en SArena y puntos de referencia previos confirman que InternSVG logra avances sustanciales y supera consistentemente a las principales alternativas abiertas y propietarias.
Recientemente, el surgimiento del RL agencial ha demostrado que el RL también puede mejorar de manera efectiva la capacidad de razonamiento agencial de los LLMs, aunque los principios clave de diseño y las mejores prácticas siguen sin estar claros. En este trabajo, llevamos a cabo una investigación exhaustiva y sistemática para desmitificar el aprendizaje por refuerzo en el razonamiento agencial desde tres perspectivas clave: datos, algoritmo y modo de razonamiento. Destacamos nuestras principales conclusiones: (i) Reemplazar trayectorias sintéticas ensambladas con trayectorias reales de uso de herramientas de extremo a extremo proporciona una inicialización SFT mucho más sólida; los conjuntos de datos de alta diversidad y conscientes del modelo sostienen la exploración y mejoran notablemente el rendimiento del RL. (ii) Las técnicas amigables para la exploración son cruciales para el RL agencial, como recortar valores altos, dar forma a recompensas excesivamente largas y mantener una entropía de política adecuada, lo que podría mejorar la eficiencia del entrenamiento. (iii) Una estrategia deliberativa con menos llamadas a herramientas supera a las llamadas frecuentes a herramientas o al razonamiento propio verboso, mejorando la eficiencia de las herramientas y la precisión final. Juntas, estas prácticas simples mejoran consistentemente el razonamiento agencial y la eficiencia del entrenamiento, logrando resultados sólidos en puntos de referencia desafiantes con modelos más pequeños y estableciendo una base práctica para futuras investigaciones en RL agencial. Más allá de estas conclusiones empíricas, contribuimos además con un conjunto de datos SFT agencial de alta calidad y de extremo a extremo, junto con un conjunto de datos RL de alta calidad, y demostramos la efectividad de nuestras conclusiones para potenciar la capacidad de razonamiento agencial de los LLMs en cuatro puntos de referencia desafiantes, incluyendo AIME2024/AIME2025, GPQA-Diamond y LiveCodeBench-v6. Con nuestras recetas, modelos de 4B también pueden lograr un rendimiento superior en razonamiento agencial en comparación con modelos de 32B. Código y modelos: https://github.com/Gen-Verse/Open-AgentRL
En este trabajo, proponemos DiT360, un marco basado en DiT que realiza entrenamiento híbrido con datos de perspectiva y panorámicos para la generación de imágenes panorámicas. Para los problemas de mantener la fidelidad geométrica y el fotorrealismo en la calidad de la generación, atribuimos la razón principal a la falta de datos panorámicos a gran escala y de alta calidad del mundo real, donde esta visión centrada en los datos difiere de métodos anteriores que se enfocan en el diseño del modelo. Básicamente, DiT360 tiene varios módulos clave para la transformación interdominio y la aumentación intradominio, aplicados tanto a nivel de imagen previo al VAE como a nivel de token posterior al VAE. A nivel de imagen, incorporamos conocimiento interdominio a través de guía de imágenes de perspectiva y refinamiento panorámico, lo que mejora la calidad perceptual mientras regulariza la diversidad y el fotorrealismo. A nivel de token, se aplica supervisión híbrida en múltiples módulos, que incluyen relleno circular para continuidad en los bordes, pérdida de yaw para robustez rotacional y pérdida de cubo para conciencia de distorsión. Experimentos extensos en tareas de texto-a-panorama, inpainting y outpainting demuestran que nuestro método logra una mejor consistencia en los bordes y fidelidad de imagen en once métricas cuantitativas. Nuestro código está disponible en https://github.com/Insta360-Research-Team/DiT360.
La subtitulación audiovisual de videos tiene como objetivo generar descripciones semánticamente ricas con alineación temporal entre eventos visuales y auditivos, beneficiando tanto la comprensión como la generación de videos. En este artículo, presentamos AVoCaDO, un potente generador de subtítulos audiovisuales impulsado por la orquestación temporal entre las modalidades de audio y video. Proponemos una canalización de posentrenamiento en dos etapas: (1) AVoCaDO SFT, que ajusta el modelo en un nuevo conjunto de datos curado de 107K subtítulos audiovisuales de alta calidad y temporalmente alineados; y (2) AVoCaDO GRPO, que aprovecha funciones de recompensa personalizadas para mejorar aún más la coherencia temporal y la precisión del diálogo, mientras regulariza la longitud de los subtítulos y reduce el colapso. Los resultados experimentales demuestran que AVoCaDO supera significativamente a los modelos de código abierto existentes en cuatro puntos de referencia de subtitulación audiovisual de videos, y también logra un rendimiento competitivo en los benchmarks VDC y DREAM-1K bajo configuraciones exclusivamente visuales.
Resolver eficientemente problemas del mundo real con LLM depende cada vez más de su capacidad para interactuar con entornos web dinámicos y adquirir información externa de manera autónoma. Si bien investigaciones recientes como Search-R1 y WebDancer demuestran un rendimiento sólido en la resolución de tareas web, dependen en gran medida de herramientas adicionales para convertir el entorno web interactivo en contenido de texto estático. Esto contrasta con los comportamientos de navegación humana, que implican diversas interacciones con el navegador, como desplazarse, hacer clic y escribir. En este artículo, proponemos BrowserAgent, un agente más interactivo que resuelve tareas complejas mediante acciones de navegación inspiradas en el comportamiento humano. BrowserAgent opera directamente en páginas web sin procesar a través de Playwright utilizando un conjunto de acciones de navegación predefinidas. Adoptamos un entrenamiento en dos etapas (Ajuste Supervisado (SFT) y Ajuste por Rechazo (RFT)) para mejorar las capacidades de generalización del modelo. A pesar de utilizar significativamente menos datos de entrenamiento que Search-R1, BrowserAgent logra resultados más competitivos en diversas tareas de preguntas y respuestas abiertas (Open-QA). Además, introducimos un mecanismo de memoria explícita para almacenar conclusiones clave entre pasos, lo que mejora aún más las capacidades de razonamiento del modelo para tareas de largo alcance. Cabe destacar que BrowserAgent-7B puede lograr una mejora de aproximadamente un 20\% sobre Search-R1 en tareas de preguntas y respuestas de múltiples saltos (multi-hop QA) como HotpotQA, 2Wiki y Bamboogle. Estos resultados indican que BrowserAgent puede servir como un marco más avanzado para agentes web más interactivos y escalables.
Los agentes de Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) muestran un gran potencial para tareas complejas de uso de herramientas en múltiples turnos, pero su desarrollo a menudo se ve obstaculizado por la extrema escasez de datos de entrenamiento de alta calidad. El ajuste fino supervisado (SFT, por sus siglas en inglés) en datos sintéticos conduce a un sobreajuste, mientras que el aprendizaje por refuerzo (RL, por sus siglas en inglés) estándar enfrenta un problema crítico de arranque en frío e inestabilidad en el entrenamiento. Para abordar estos desafíos, presentamos el Ajuste del Entorno, un paradigma de entrenamiento novedoso que permite a los agentes aprender comportamientos complejos directamente a partir de instancias de problemas sin depender de trayectorias expertas previamente recopiladas. El Ajuste del Entorno orquesta este proceso de aprendizaje mediante un currículo estructurado, una ampliación del entorno que proporciona retroalimentación correctiva y recompensas de progreso detalladas para garantizar una exploración estable y eficiente. Utilizando solo 400 instancias de problemas del benchmark Berkeley Function-Calling Leaderboard (BFCL), nuestro método no solo logra un rendimiento competitivo en distribución frente a líneas base sólidas, sino que también demuestra una generalización superior fuera de distribución, superando el colapso de rendimiento común en enfoques basados en SFT. Nuestro trabajo presenta un cambio de paradigma desde el ajuste fino supervisado en trayectorias estáticas hacia una exploración dinámica basada en el entorno, allanando el camino para entrenar agentes más robustos y eficientes en el uso de datos.
Los recientes avances en flujos de trabajo agentivos han permitido la automatización de tareas como la generación de documentos profesionales. Sin embargo, estos avances se centran principalmente en la calidad textual, descuidando la estructura y el estilo visual, que son cruciales para la legibilidad y el compromiso del lector. Esta brecha surge principalmente de la ausencia de modelos de recompensa adecuados para guiar a los flujos de trabajo agentivos hacia la producción de documentos con una calidad estructural y estilística más sólida. Para abordar esto, proponemos DocReward, un modelo de recompensa de documentos que evalúa los documentos en función de su estructura y estilo. Construimos un conjunto de datos multi-dominio llamado DocPair, que contiene 117K pares de documentos, abarcando 32 dominios y 267 tipos de documentos, cada uno incluyendo un documento de alta y baja profesionalidad con contenido idéntico pero diferente estructura y estilo. Esto permite que el modelo evalúe la profesionalidad de manera integral y de una manera independiente de la calidad textual. DocReward se entrena utilizando la pérdida de Bradley-Terry para puntuar documentos, penalizando las predicciones que contradicen el ranking anotado. Para evaluar el rendimiento de los modelos de recompensa, creamos un conjunto de datos de prueba que contiene paquetes de documentos clasificados por evaluadores humanos bien educados. Notablemente, DocReward supera a GPT-4o y GPT-5 en precisión por 30.6 y 19.4 puntos porcentuales, respectivamente, demostrando su superioridad sobre las líneas base. En una evaluación extrínseca de la generación de documentos, DocReward logra una tasa de victoria significativamente mayor del 60.8%, en comparación con el 37.7% de GPT-5, demostrando su utilidad para guiar a los agentes de generación hacia la producción de documentos preferidos por los humanos.
Si bien los agentes de LLM pueden planificar tareas de múltiples pasos, intervenir en la etapa de planificación, antes de que se ejecute cualquier acción, suele ser la forma más segura de prevenir daños, ya que ciertos riesgos pueden tener consecuencias graves una vez llevados a cabo. Sin embargo, las salvaguardias existentes operan principalmente después de la ejecución, lo que es difícil de escalar y deja poco margen para una supervisión controlable a nivel de plan. Para abordar este desafío, destacamos tres brechas críticas en la investigación actual: brecha de datos, brecha de modelos y brecha de evaluación. Para cerrar la brecha de datos, presentamos AuraGen, un motor controlable que (i) sintetiza trayectorias benignas, (ii) inyecta riesgos etiquetados por categoría con dificultad calibrada y (iii) filtra las salidas mediante un modelo de recompensa automatizado, produciendo grandes y confiables corpus para la seguridad previa a la ejecución. Para cerrar la brecha del modelo guardián, proponemos una salvaguardia fundamental llamada Safiron, que combina un adaptador de planificación cruzada con un modelo guardián compacto. El adaptador unifica diferentes formatos de entrada, mientras que Safiron marca casos riesgosos, asigna tipos de riesgo y genera justificaciones; entrenado en dos etapas con una receta de datos ampliamente explorada, Safiron logra una transferencia robusta en diferentes configuraciones. Para cerrar la brecha de evaluación, lanzamos Pre-Exec Bench, un punto de referencia realista que cubre diversas herramientas y trayectorias ramificadas, el cual mide la detección, categorización fina, explicación y generalización entre planificadores en escenarios verificados por humanos. Experimentos extensos demuestran ganancias consistentes de la salvaguardia propuesta sobre líneas base sólidas en Pre-Exec Bench, y las ablaciones destilan prácticas accionables, proporcionando una plantilla práctica para sistemas agentes más seguros.
En los últimos años, el enfoque de investigación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y los agentes ha ido desplazándose cada vez más desde la demostración de capacidades novedosas hacia el razonamiento complejo y la resolución de tareas desafiantes. Sin embargo, las evaluaciones existentes se centran principalmente en concursos de matemáticas/código o tareas generales, mientras que los puntos de referencia académicos multidominio carecen de suficiente profundidad de razonamiento, dejando al campo sin un estándar riguroso para el razonamiento de alto nivel. Para llenar este vacío, presentamos el punto de referencia Acadreason, diseñado para evaluar la capacidad de los LLMs y los agentes para adquirir y razonar sobre conocimiento académico. Este consta de 50 problemas académicos anotados por expertos en cinco dominios de alto razonamiento, incluyendo ciencias de la computación, economía, derecho, matemáticas y filosofía. Todas las preguntas provienen de publicaciones de primer nivel en los últimos años y se someten a un riguroso proceso de anotación y control de calidad para garantizar que sean tanto desafiantes como respondibles. Realizamos evaluaciones sistemáticas de más de 10 LLMs y agentes principales. Los resultados muestran que la mayoría de los LLMs obtuvieron puntuaciones inferiores a 20 puntos, e incluso el avanzado GPT-5 logró solo 16 puntos. Aunque los agentes alcanzaron puntuaciones más altas, ninguno superó los 40 puntos. Esto demuestra la brecha de capacidades actual entre los LLMs y los agentes en tareas de investigación académica superinteligente y resalta los desafíos de Acadreason.
Resolver problemas matemáticos mediante lenguajes verificables como Lean ha tenido un impacto significativo tanto en las comunidades de matemáticas como en las de ciencias de la computación. Los modelos actuales de vanguardia suelen entrenarse con costosos métodos de Aprendizaje por Refuerzo (RL, por sus siglas en inglés) en línea o iteración experta. Sin embargo, estos enfoques dependen de conjuntos de problemas fijos, lo que provoca un entrenamiento ineficiente y limita la capacidad del modelo para abordar problemas complejos. Para superar estas limitaciones, proponemos GAR: Aprendizaje por Refuerzo Generativo Adversarial, un marco de entrenamiento de RL integral que entrena conjuntamente al compositor de problemas y al resolvedor en un bucle adversarial. GAR introduce un mecanismo implícito de aprendizaje curricular, que alinea la dificultad de las tareas con la capacidad evolutiva del demostrador. Esto mejora la eficiencia del entrenamiento y permite un mejor rendimiento al demostrar teoremas avanzados. Los experimentos muestran que, con el entrenamiento de GAR, Goedel-Prover-V2-8B y DeepSeek-Prover-V2-7B logran una mejora relativa promedio en pass@32 del 4.20% en el benchmark MiniF2F-Test, mientras que el pass@32 de DeepSeek-Prover-V2 en ProofNet-Test aumenta del 22.58% al 25.81%. Más allá de la demostración formal, GAR establece un paradigma general de RL para la coevolución de la generación y resolución de problemas en entornos verificables.
El razonamiento matemático es un indicador primario de la inteligencia de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Sin embargo, los LLMs existentes presentan fallos en robustez y generalización. Este artículo atribuye estas deficiencias al razonamiento espurio, es decir, la generación de respuestas a partir de características superficiales. Para abordar este desafío, proponemos el marco AdaR, que permite el razonamiento adaptativo, en el cual los modelos se basan en la lógica de resolución de problemas para producir respuestas. AdaR sintetiza consultas lógicamente equivalentes al variar los valores de las variables y entrena los modelos con RLVR (Refuerzo de Lógica y Verificación de Robustez) sobre estos datos para penalizar la lógica espuria mientras fomenta la lógica adaptativa. Para mejorar la calidad de los datos, extraemos la lógica de resolución de problemas de la consulta original y generamos la respuesta correspondiente mediante la ejecución de código, aplicando luego una verificación de coherencia. Los resultados experimentales demuestran que AdaR mejora la robustez y la generalización, logrando avances significativos en el razonamiento matemático mientras mantiene una alta eficiencia en el uso de datos. El análisis indica que la síntesis de datos y RLVR funcionan de manera coordinada para habilitar el razonamiento adaptativo en los LLMs. Análisis posteriores derivan ideas clave de diseño sobre el efecto de factores críticos y la aplicabilidad para instruir a los LLMs. Nuestro proyecto está disponible en https://github.com/LaiZhejian/AdaR.
La complejidad de los Principios de Contabilidad Generalmente Aceptados (GAAP) y la estructura jerárquica de los archivos en eXtensible Business Reporting Language (XBRL) hacen que la auditoría financiera sea cada vez más difícil de automatizar y verificar. Si bien los modelos de lenguaje de gran escala (LLMs) han demostrado capacidades sólidas en la comprensión de texto no estructurado, su habilidad para razonar sobre documentos financieros estructurados, interdependientes y basados en taxonomías sigue siendo en gran parte inexplorada. Para abordar esta brecha, presentamos FinAuditing, el primer benchmark alineado con taxonomías, consciente de la estructura y multi-documento para evaluar LLMs en tareas de auditoría financiera. Construido a partir de archivos XBRL reales que cumplen con los US-GAAP, FinAuditing define tres subtareas complementarias: FinSM para la consistencia semántica, FinRE para la consistencia relacional y FinMR para la consistencia numérica, cada una enfocada en un aspecto distinto del razonamiento estructurado en auditoría. Además, proponemos un marco de evaluación unificado que integra métricas de recuperación, clasificación y razonamiento en estas subtareas. Experimentos extensos en modo zero-shot con 13 LLMs de última generación revelan que los modelos actuales tienen un desempeño inconsistente en las dimensiones semántica, relacional y matemática, con caídas en la precisión de hasta un 60-90% al razonar sobre estructuras jerárquicas multi-documento. Nuestros hallazgos exponen las limitaciones sistemáticas de los LLMs modernos en el razonamiento financiero basado en taxonomías y establecen a FinAuditing como una base para desarrollar sistemas de inteligencia financiera confiables, conscientes de la estructura y alineados con las regulaciones. El conjunto de datos del benchmark está disponible en Hugging Face.
Si bien una investigación significativa se ha centrado en desarrollar capacidades de razonamiento encarnado utilizando Modelos de Visión-Lenguaje (VLMs) o en integrar VLMs avanzados en modelos de Visión-Lenguaje-Acción (VLA) para el control de robots de extremo a extremo, pocos estudios abordan directamente la brecha crítica entre el razonamiento basado en VLMs en la etapa inicial y el aprendizaje de políticas VLA en la etapa final. En este trabajo, damos un primer paso hacia la conexión del razonamiento encarnado con el aprendizaje de políticas VLA mediante la introducción de Vlaser, un Modelo de Visión-Lenguaje-Acción con capacidad de razonamiento encarnado sinérgico, que es un modelo fundamental de visión-lenguaje diseñado para integrar el razonamiento de alto nivel con el control de bajo nivel para agentes encarnados. Basado en el conjunto de datos de alta calidad Vlaser-6M, Vlaser logra un rendimiento de vanguardia en una variedad de benchmarks de razonamiento encarnado, incluyendo razonamiento espacial, fundamentación encarnada, preguntas y respuestas encarnadas, y planificación de tareas. Además, examinamos sistemáticamente cómo diferentes inicializaciones de VLMs afectan el ajuste fino supervisado de VLA, ofreciendo nuevas perspectivas para mitigar el cambio de dominio entre los datos de preentrenamiento a escala de internet y los datos de aprendizaje de políticas específicos para entornos encarnados. Basándonos en estas perspectivas, nuestro enfoque logra resultados de vanguardia en el benchmark WidowX y un rendimiento competitivo en el benchmark Google Robot.
Los modelos unificados multimodales integran la capacidad de razonamiento de los modelos de lenguaje de gran escala con la comprensión y generación de imágenes, mostrando un gran potencial para la inteligencia multimodal avanzada. Sin embargo, la comunidad aún carece de un punto de referencia riguroso centrado en el razonamiento para evaluar sistemáticamente la alineación entre la comprensión y la generación, así como su potencial de generalización en tareas visuales complejas. Con este fin, presentamos GIR-Bench, un punto de referencia integral que evalúa los modelos unificados desde tres perspectivas complementarias. En primer lugar, investigamos la consistencia entre comprensión y generación (GIR-Bench-UGC), preguntándonos si los modelos pueden aprovechar consistentemente el mismo conocimiento tanto en tareas de comprensión como de generación. En segundo lugar, investigamos si los modelos pueden realizar generación de texto a imagen centrada en el razonamiento, que requiere aplicar restricciones lógicas y conocimiento implícito para generar contenido visual fiel (GIR-Bench-T2I). En tercer lugar, evaluamos si los modelos pueden manejar el razonamiento de múltiples pasos en la edición (GIR-Bench-Edit). Para cada subconjunto, diseñamos cuidadosamente diferentes pipelines de evaluación específicos para cada tarea. Esto permite una evaluación detallada e interpretable, al tiempo que mitiga los sesgos del paradigma prevalente de MLLM-como-juez. Las ablaciones extensas sobre varios modelos unificados y sistemas de solo generación han demostrado que: aunque los modelos unificados son más capaces en tareas visuales impulsadas por el razonamiento, aún exhiben una brecha persistente entre la comprensión y la generación. Los datos y el código de GIR-Bench están disponibles en https://hkust-longgroup.github.io/GIR-Bench{https://hkust-longgroup.github.io/GIR-Bench}.
Los modelos recientes de Texto a Video (T2V) han demostrado una capacidad poderosa en la simulación visual de la geometría y las leyes físicas del mundo real, lo que indica su potencial como modelos implícitos del mundo. Inspirados por esto, exploramos la viabilidad de aprovechar el conocimiento previo de generación de videos para la planificación de puntos de vista a partir de escenas 4D dadas, ya que los videos internamente acompañan escenas dinámicas con puntos de vista naturales. Con este fin, proponemos un paradigma de dos etapas para adaptar modelos T2V preentrenados para la predicción de puntos de vista, de manera compatible. Primero, inyectamos la representación de la escena 4D en el modelo T2V preentrenado mediante una rama de aprendizaje adaptativo, donde la escena 4D es independiente del punto de vista y el video generado condicionalmente incorpora visualmente los puntos de vista. Luego, formulamos la extracción del punto de vista como un proceso de eliminación de ruido en los parámetros extrínsecos de la cámara guiado por condiciones híbridas. Específicamente, se introduce una rama de difusión de parámetros extrínsecos de la cámara en el modelo T2V preentrenado, tomando como entrada el video generado y la escena 4D. Los resultados experimentales muestran la superioridad de nuestro método propuesto sobre los competidores existentes, y los estudios de ablación validan la efectividad de nuestros diseños técnicos clave. En cierta medida, este trabajo demuestra el potencial de los modelos de generación de videos hacia la interacción 4D en el mundo real.
Los modelos de lenguaje de gran escala basados en difusión (dLLMs) están surgiendo como una alternativa eficiente a los modelos autorregresivos debido a su capacidad para decodificar múltiples tokens en paralelo. Sin embargo, alinear los dLLMs con las preferencias humanas o recompensas específicas de tareas mediante aprendizaje por refuerzo (RL) es un desafío, ya que su log-verosimilitud intratable impide la aplicación directa de los métodos estándar de gradiente de políticas. Si bien trabajos previos utilizan sustitutos como la cota inferior de la evidencia (ELBO), estas aproximaciones unilaterales pueden introducir un sesgo significativo en el gradiente de políticas. Para abordar esto, proponemos el Gradiente de Política Emparedado (SPG), que aprovecha tanto una cota superior como una cota inferior de la log-verosimilitud verdadera. Los experimentos muestran que SPG supera significativamente a los métodos de referencia basados en ELBO o estimación de un solo paso. En concreto, SPG mejora la precisión sobre los métodos de RL más avanzados para dLLMs en un 3.6% en GSM8K, 2.6% en MATH500, 18.4% en Countdown y 27.0% en Sudoku.
Los modelos grandes de visión y lenguaje (LVLMs, por sus siglas en inglés), que integran un codificador visual (VE) con un modelo de lenguaje grande, han logrado un éxito notable en diversas tareas. Sin embargo, aún existen desafíos cruciales en los LVLMs, como la alucinación de objetos, que consiste en generar descripciones de objetos que no están presentes en la imagen de entrada. Aquí, argumentamos que los tokens visuales inciertos dentro del VE son un factor clave que contribuye a la alucinación de objetos. Nuestro análisis estadístico encontró que existen correlaciones positivas entre los tokens visuales con alta incertidumbre epistémica y la ocurrencia de alucinaciones. Además, demostramos teórica y empíricamente que los tokens visuales en las capas iniciales del VE que exhiben grandes desviaciones en su representación bajo pequeñas perturbaciones adversarias indican una alta incertidumbre epistémica. Basándonos en estos hallazgos, proponemos una estrategia simple pero efectiva para mitigar la alucinación de objetos modificando únicamente el VE. Nuestro método incluye un método proxy con perturbaciones adversarias para identificar eficientemente los tokens visuales inciertos y un método para enmascarar estos tokens visuales inciertos durante el proceso de auto-atención en las capas intermedias del VE, suprimiendo su influencia en la codificación visual y, por lo tanto, aliviando las alucinaciones. Experimentos extensos muestran que nuestro método reduce significativamente las alucinaciones de objetos en los LVLMs y puede funcionar de manera sinérgica con otras técnicas previas.
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs) y los Modelos de Lenguaje Visual (VLMs) han mostrado un progreso significativo en el razonamiento matemático, aunque aún enfrentan un cuello de botella crítico con problemas que requieren asistencia visual, como trazar líneas auxiliares o graficar funciones para resolverlos. La mayoría de los LLMs y VLMs están limitados a cadenas de razonamiento basadas únicamente en texto, mientras que los modelos unificados multimodales que pueden generar texto e imágenes intercalados carecen de la precisión y controlabilidad necesarias para tales tareas. Para abordar esto, proponemos CodePlot-CoT, un paradigma de Cadena de Pensamiento (Chain-of-Thought) basado en código para "pensar con imágenes" en matemáticas. Nuestro enfoque aprovecha el VLM para generar razonamiento textual, así como código ejecutable de graficación, que luego se convierte en imágenes como "pensamiento visual", para resolver problemas matemáticos. Para lograrlo, primero construimos Math-VR, el primer conjunto de datos y benchmark bilingüe a gran escala para problemas de Matemáticas con Razonamiento Visual, que comprende 178K muestras. En segundo lugar, para crear datos de entrenamiento de alta calidad, desarrollamos un convertidor de imagen a código de última generación especializado en analizar figuras matemáticas complejas y convertirlas en código. Finalmente, utilizando estos datos de entrenamiento, entrenamos el modelo CodePlot-CoT para resolver problemas matemáticos. Los resultados experimentales muestran que nuestro modelo logra un aumento de hasta un 21% sobre el modelo base en nuestro nuevo benchmark, validando completamente la eficacia de nuestro paradigma de razonamiento basado en código. Nuestro trabajo abre una nueva dirección para el razonamiento matemático multimodal y proporciona a la comunidad el primer conjunto de datos a gran escala, un benchmark completo y un enfoque sólido para tales problemas. Para facilitar investigaciones futuras, ponemos a disposición pública nuestros conjuntos de datos, código y modelos preentrenados en https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT.
Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han demostrado capacidades de razonamiento notables. Sin embargo, los marcos multiagente existentes suelen depender de roles fijos o control centralizado, lo que limita la escalabilidad y adaptabilidad en tareas de razonamiento de largo plazo. Presentamos SwarmSys, un marco de bucle cerrado para el razonamiento multiagente distribuido inspirado en la inteligencia de enjambre. La coordinación en SwarmSys emerge a través de interacciones iterativas entre tres roles especializados: Exploradores, Trabajadores y Validadores, que ciclan continuamente entre exploración, explotación y validación. Para habilitar una colaboración escalable y adaptable, integramos perfiles adaptativos de agentes y eventos, emparejamiento probabilístico basado en embeddings y un mecanismo de refuerzo inspirado en feromonas, lo que permite la asignación dinámica de tareas y la convergencia auto-organizada sin supervisión global. En tareas de razonamiento simbólico, síntesis de investigación y programación científica, SwarmSys supera consistentemente los métodos de referencia, mejorando tanto la precisión como la estabilidad del razonamiento. Estos hallazgos destacan la coordinación inspirada en enjambres como un paradigma prometedor para el razonamiento multiagente escalable, robusto y adaptable, sugiriendo que la escalabilidad de la coordinación podría rivalizar con la escalabilidad de los modelos en el avance de la inteligencia de los LLM.
Proponemos Stable Video Infinity (SVI), capaz de generar videos de longitud infinita con alta consistencia temporal, transiciones de escenas plausibles y narrativas de transmisión controlables. Mientras que los métodos existentes para videos largos intentan mitigar los errores acumulados mediante técnicas anti-deriva diseñadas manualmente (por ejemplo, programadores de ruido modificados, anclaje de fotogramas), siguen limitados a la extrapolación de un solo estímulo, produciendo escenas homogéneas con movimientos repetitivos. Identificamos que el desafío fundamental va más allá de la acumulación de errores, extendiéndose a una discrepancia crítica entre la suposición de entrenamiento (observar datos limpios) y la realidad autoregresiva en tiempo de prueba (condicionar sobre salidas autogeneradas y propensas a errores). Para cerrar esta brecha de hipótesis, SVI incorpora el Ajuste Fino de Reciclaje de Errores, un nuevo tipo de entrenamiento eficiente que recicla los errores autogenerados del Transformador de Difusión (DiT) en estímulos supervisores, incentivando así a DiT a identificar y corregir activamente sus propios errores. Esto se logra inyectando, recolectando y almacenando errores mediante un reciclaje en bucle cerrado, aprendiendo autoregresivamente de retroalimentación con errores inyectados. Específicamente, (i) inyectamos errores históricos cometidos por DiT para intervenir en entradas limpias, simulando trayectorias con errores acumulados en el emparejamiento de flujo; (ii) aproximamos eficientemente las predicciones con integración bidireccional de un solo paso y calculamos los errores con residuos; (iii) almacenamos dinámicamente los errores en memoria de repetición a lo largo de pasos de tiempo discretizados, que se remuestrean para nuevas entradas. SVI es capaz de escalar videos desde segundos hasta duraciones infinitas sin costos adicionales de inferencia, manteniendo compatibilidad con diversas condiciones (por ejemplo, flujos de audio, esqueleto y texto). Evaluamos SVI en tres puntos de referencia, incluyendo configuraciones consistentes, creativas y condicionales, verificando exhaustivamente su versatilidad y su papel de vanguardia.
La escalabilidad del aprendizaje robótico se ve fundamentalmente limitada por el costo y el esfuerzo significativos asociados a la recopilación de datos en el mundo real. Si bien los datos simulados ofrecen una alternativa escalable, a menudo no logran generalizarse al mundo real debido a brechas significativas en la apariencia visual, las propiedades físicas y las interacciones con los objetos. Para abordar este problema, proponemos RoboSimGS, un novedoso marco Real2Sim2Real que convierte imágenes del mundo real capturadas desde múltiples vistas en entornos de simulación escalables, de alta fidelidad y físicamente interactivos para la manipulación robótica. Nuestro enfoque reconstruye escenas utilizando una representación híbrida: el método de 3D Gaussian Splatting (3DGS) captura la apariencia fotorrealista del entorno, mientras que los primitivos de malla para objetos interactivos garantizan una simulación física precisa. De manera crucial, somos pioneros en el uso de un Modelo de Lenguaje de Gran Escala Multimodal (MLLM, por sus siglas en inglés) para automatizar la creación de activos articulados y físicamente plausibles. El MLLM analiza datos visuales para inferir no solo propiedades físicas (por ejemplo, densidad, rigidez) sino también estructuras cinemáticas complejas (por ejemplo, bisagras, rieles deslizantes) de los objetos. Demostramos que las políticas entrenadas completamente con datos generados por RoboSimGS logran una transferencia exitosa de simulación a realidad (sim-to-real) en un conjunto diverso de tareas de manipulación en el mundo real. Además, los datos de RoboSimGS mejoran significativamente el rendimiento y las capacidades de generalización de los métodos más avanzados (SOTA, por sus siglas en inglés). Nuestros resultados validan a RoboSimGS como una solución poderosa y escalable para cerrar la brecha entre simulación y realidad.
Los modelos recientes basados en transformadores para la Recuperación de Mallas Humanas 3D (HMR, por sus siglas en inglés) han logrado un rendimiento sólido, pero a menudo presentan un alto costo computacional y complejidad debido a arquitecturas profundas de transformadores y tokens redundantes. En este artículo, presentamos dos estrategias de fusión específicas para HMR: Fusión de Capas con Restricción de Error (ECLM) y Fusión de Tokens Guiada por Máscara (Mask-ToMe). ECLM fusiona selectivamente capas de transformadores que tienen un impacto mínimo en el Error de Posición Promedio por Articulación (MPJPE), mientras que Mask-ToMe se centra en fusionar tokens de fondo que contribuyen poco a la predicción final. Para abordar además la posible caída en el rendimiento causada por la fusión, proponemos un decodificador basado en difusión que incorpora contexto temporal y aprovecha los conocimientos previos de postura aprendidos de grandes conjuntos de datos de captura de movimiento. Los experimentos en múltiples benchmarks demuestran que nuestro método logra una aceleración de hasta 2.3x mientras mejora ligeramente el rendimiento en comparación con la línea base.
Si bien los Modelos de Lenguaje de Gran Escala (LLMs) sobresalen en la generación de código algorítmico, tienen dificultades en el desarrollo de front-end, donde la corrección se juzga en función de los píxeles renderizados y la interacción. Presentamos ReLook, un marco de aprendizaje por refuerzo agéntico y basado en visión que permite a un agente cerrar un ciclo robusto de generación-diagnóstico-refinamiento al invocar un LLM multimodal (MLLM) como herramienta. Durante el entrenamiento, el agente utiliza el MLLM-en-el-bucle tanto como un crítico visual—evaluando el código con capturas de pantalla—como una fuente de retroalimentación accionable y basada en visión; una regla estricta de cero recompensa para renders inválidos asegura la renderizabilidad y evita el hackeo de recompensas. Para prevenir el colapso conductual, introducimos la Optimización Forzada, una regla de aceptación estricta que admite solo revisiones que mejoran, generando trayectorias monótonamente mejores. En la inferencia, desacoplamos el crítico y ejecutamos un ciclo ligero de autoedición sin crítico, manteniendo una latencia comparable a la decodificación base mientras conservamos la mayoría de las ganancias. En tres puntos de referencia ampliamente utilizados, ReLook supera consistentemente a líneas base sólidas en la generación de código front-end basado en visión, destacando los beneficios de la percepción agéntica, las recompensas visuales y el desacoplamiento entrenamiento-inferencia.
Un paradigma de ajuste fino de modelos de lenguaje (LM) se basa en la creación de grandes conjuntos de datos de entrenamiento, bajo el supuesto de que una alta cantidad y diversidad permitirá que los modelos generalicen a tareas novedosas después del entrenamiento. En la práctica, recopilar grandes conjuntos de datos es ineficiente, y entrenar con ellos es prohibitivamente costoso; peor aún, no hay garantía de que el modelo resultante maneje escenarios complejos o generalice mejor. Además, las técnicas existentes rara vez evalúan si una muestra de entrenamiento proporciona información novedosa o es redundante con el conocimiento ya adquirido por el modelo, lo que resulta en costos innecesarios. En este trabajo, exploramos un nuevo método de auto-mejora en tiempo de prueba para crear LMs agentivos más efectivos y generalizables sobre la marcha. El algoritmo propuesto puede resumirse en tres pasos: (i) primero identifica las muestras con las que el modelo tiene dificultades (autoconciencia), (ii) luego genera ejemplos similares a partir de las muestras detectadas como inciertas (auto-aumento de datos), y (iii) utiliza estas muestras recién generadas en el ajuste fino en tiempo de prueba (auto-mejora). Estudiamos dos variantes de este enfoque: Auto-Mejora en Tiempo de Prueba (TT-SI), donde el mismo modelo genera ejemplos adicionales de entrenamiento a partir de sus propios casos inciertos y luego aprende de ellos, y contrastamos este enfoque con la Destilación en Tiempo de Prueba (TT-D), donde un modelo más fuerte genera ejemplos similares para casos inciertos, permitiendo que el estudiante se adapte utilizando supervisión destilada. Las evaluaciones empíricas en diferentes benchmarks de agentes demuestran que TT-SI mejora el rendimiento con una ganancia absoluta de precisión de +5.48% en promedio en todos los benchmarks y supera a otros métodos de aprendizaje estándar, utilizando 68 veces menos muestras de entrenamiento. Nuestros hallazgos resaltan la promesa de TT-SI, demostrando el potencial de los algoritmos de auto-mejora en tiempo de prueba como un nuevo paradigma para construir agentes más capaces hacia la auto-evolución.
Los modelos de lenguaje a menudo muestran poca o ninguna mejora (es decir, "saturación") cuando se entrenan mediante ajuste fino supervisado convencional (SFT) en datos similares a los que vieron en su conjunto de entrenamiento (por ejemplo, MATH). Introducimos una nueva estrategia de ajuste fino, STAT, para entrenar un modelo estudiante utilizando la capacidad de metacognición de un modelo de lenguaje grande (LLM) más potente como profesor. El profesor utiliza el conjunto de datos de la tarea para crear una lista de habilidades necesarias para la tarea y luego etiqueta cada punto de datos con las habilidades requeridas (Didolkar et al., 2024). Al monitorear las respuestas del estudiante, el profesor crea un Perfil de Habilidades Faltantes para el estudiante, registrando con qué frecuencia no aplicó cada habilidad en sus respuestas. Utilizamos esta idea para construir un conjunto de entrenamiento modificado de una de dos maneras. En STAT-Sel, el profesor utiliza un conjunto existente de ejemplos de entrenamiento pero los reponde adaptativamente según el Perfil de Habilidades Faltantes. En STAT-Syn, el profesor sintetiza ejemplos adicionales que involucran habilidades faltantes. En experimentos extensos con modelos Llama y Qwen, nuestros métodos producen mejoras de hasta un 7.5% en MATH, mientras que SFT ofrece solo ganancias limitadas. Además, STAT mejora el rendimiento en puntos de referencia fuera de distribución (por ejemplo, AIME24/25, AMC23, etc.) en un promedio del 4.6%. Crucialmente, encontramos que STAT es complementario al RL mediante GRPO (Shao et al., 2024): después de que el modelo se mejora usando STAT para abordar las brechas de habilidades, GRPO continúa agregando ganancias adicionales. Concluimos que el entrenamiento adaptativo dirigido a habilidades debería mejorar ampliamente los flujos de entrenamiento actuales. Nuestro código está disponible en: https://github.com/princeton-pli/STAT.
¿Cómo deberíamos evaluar la robustez de las defensas de los modelos de lenguaje? Las defensas actuales contra jailbreaks e inyecciones de prompts (que buscan evitar que un atacante obtenga conocimiento dañino o active acciones maliciosas de forma remota, respectivamente) suelen evaluarse ya sea contra un conjunto estático de cadenas de ataque dañinas, o contra métodos de optimización computacionalmente débiles que no fueron diseñados teniendo en cuenta la defensa. Argumentamos que este proceso de evaluación es defectuoso. En su lugar, deberíamos evaluar las defensas contra atacantes adaptativos que modifican explícitamente su estrategia de ataque para contrarrestar el diseño de una defensa, mientras dedican recursos considerables para optimizar su objetivo. Al ajustar y escalar sistemáticamente técnicas generales de optimización—descenso de gradiente, aprendizaje por refuerzo, búsqueda aleatoria y exploración guiada por humanos—eludimos 12 defensas recientes (basadas en un conjunto diverso de técnicas) con una tasa de éxito de ataque superior al 90% en la mayoría; de manera importante, la mayoría de estas defensas originalmente reportaron tasas de éxito de ataque cercanas a cero. Creemos que el trabajo futuro en defensas debe considerar ataques más fuertes, como los que describimos, para hacer afirmaciones confiables y convincentes sobre la robustez.
Comparar el rendimiento humano y el de los modelos ofrece una perspectiva valiosa para comprender las fortalezas y limitaciones de los modelos de embeddings, destacando dónde tienen éxito y dónde fallan en capturar el significado y los matices. Sin embargo, tales comparaciones rara vez se realizan, ya que el rendimiento humano en tareas de embeddings es difícil de medir. Para llenar este vacío, presentamos HUME: Marco de Evaluación Humana para Text Embeddings. Si bien marcos como MTEB proporcionan una evaluación amplia de modelos, carecen de estimaciones confiables del rendimiento humano, lo que limita la interpretabilidad de las puntuaciones de los modelos. Medimos el rendimiento humano en 16 conjuntos de datos de MTEB que abarcan reordenamiento, clasificación, agrupación y similitud semántica textual en idiomas diversos, tanto de recursos altos como bajos. Los humanos alcanzan un rendimiento promedio del 77.6% en comparación con el 80.1% del mejor modelo de embeddings, aunque la variación es considerable: los modelos alcanzan un rendimiento casi máximo en algunos conjuntos de datos mientras luchan en otros, lo que sugiere problemas en los conjuntos de datos y revela deficiencias en idiomas de bajos recursos. Proporcionamos líneas base de rendimiento humano, información sobre patrones de dificultad de tareas y un marco de evaluación extensible que permite una interpretación más significativa del modelo e informa el desarrollo tanto de modelos como de benchmarks. Nuestro código, conjunto de datos y tabla de clasificación están disponibles públicamente en https://github.com/embeddings-benchmark/mteb.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han logrado un rendimiento impresionante en tareas de razonamiento complejo al generar explicaciones detalladas de cadena de pensamiento (CoT, por sus siglas en inglés). Sin embargo, estas respuestas suelen ser excesivamente largas, conteniendo pasos de razonamiento redundantes que aumentan el costo de inferencia y reducen la usabilidad. Controlar la longitud del razonamiento generado sin sacrificar la precisión sigue siendo un desafío abierto. A través de un análisis empírico sistemático, revelamos una correlación positiva consistente entre la entropía del modelo y la longitud de la respuesta en diferentes etapas de razonamiento en diversos LRMs: la fase de pensamiento exhibe una entropía más alta, reflejando un comportamiento exploratorio de respuestas más largas, mientras que la fase de respuesta final muestra una entropía más baja, indicando una solución más determinista. Esta observación sugiere que la entropía en diferentes etapas de razonamiento puede servir como un mecanismo de control para equilibrar la concisión y el rendimiento. Basándonos en esta idea, este artículo introduce el Mecanismo de Recompensa Consciente de la Entropía por Fase (PEAR, por sus siglas en inglés), un mecanismo de recompensa que incorpora la entropía dependiente de la fase en el diseño de la recompensa. En lugar de tratar todos los tokens de manera uniforme, PEAR penaliza la entropía excesiva durante la fase de pensamiento y permite una exploración moderada en la fase de respuesta final, lo que fomenta que los modelos generen trazas de razonamiento concisas que retienen suficiente flexibilidad para resolver la tarea correctamente. Esto permite un control adaptativo de la longitud de la respuesta sin depender de objetivos de longitud explícitos o reglas de truncamiento rígidas. Experimentos extensos en cuatro benchmarks demuestran que PEAR reduce consistentemente la longitud de la respuesta mientras mantiene una precisión competitiva en diferentes escalas de modelos. Además, PEAR demuestra una fuerte robustez fuera de distribución (OOD, por sus siglas en inglés) más allá de la distribución de entrenamiento. Nuestro código está disponible en: https://github.com/iNLP-Lab/PEAR.
Cuando un asistente de IA recuerda que Sarah es una madre soltera que trabaja en dos empleos, ¿interpreta su estrés de manera diferente que si fuera una ejecutiva adinerada? A medida que los sistemas de IA personalizados incorporan cada vez más la memoria a largo plazo del usuario, es crucial comprender cómo esta memoria moldea el razonamiento emocional. Investigamos cómo la memoria del usuario afecta la inteligencia emocional en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) evaluando 15 modelos en pruebas de inteligencia emocional validadas por humanos. Descubrimos que escenarios idénticos asociados con diferentes perfiles de usuario producen interpretaciones emocionales sistemáticamente divergentes. En escenarios emocionales independientes del usuario y validados, junto con perfiles de usuario diversos, surgieron sesgos sistemáticos en varios LLMs de alto rendimiento, donde los perfiles privilegiados recibieron interpretaciones emocionales más precisas. Además, los LLMs muestran disparidades significativas en factores demográficos en tareas de comprensión emocional y recomendaciones de apoyo, lo que indica que los mecanismos de personalización pueden incorporar jerarquías sociales en el razonamiento emocional de los modelos. Estos resultados resaltan un desafío clave para la IA potenciada por la memoria: los sistemas diseñados para la personalización pueden reforzar inadvertidamente las desigualdades sociales.
La comprensión intuitiva de la física en los modelos de difusión de video desempeña un papel esencial en la construcción de simuladores del mundo físicamente plausibles de propósito general. Sin embargo, evaluar con precisión dicha capacidad sigue siendo una tarea desafiante debido a la dificultad de separar la corrección física de la apariencia visual en la generación. Con este fin, presentamos LikePhys, un método que no requiere entrenamiento y que evalúa la física intuitiva en modelos de difusión de video al distinguir videos físicamente válidos e imposibles utilizando el objetivo de eliminación de ruido como un sustituto de la verosimilitud basado en ELBO en un conjunto de datos curado de pares válidos-inválidos. Al probar en nuestro banco de pruebas construido de doce escenarios que abarcan cuatro dominios de la física, demostramos que nuestra métrica de evaluación, el Error de Preferencia de Plausibilidad (PPE), muestra una fuerte alineación con la preferencia humana, superando a los evaluadores de última generación. Luego, evaluamos sistemáticamente la comprensión intuitiva de la física en los modelos actuales de difusión de video. Nuestro estudio analiza además cómo el diseño del modelo y los ajustes de inferencia afectan la comprensión intuitiva de la física y destaca variaciones de capacidad específicas del dominio en las leyes físicas. Los resultados empíricos muestran que, a pesar de que los modelos actuales tienen dificultades con dinámicas complejas y caóticas, existe una clara tendencia de mejora en la comprensión de la física a medida que la capacidad del modelo y los ajustes de inferencia escalan.
Generar avatares humanos 3D realistas y controlables es un desafío de larga data, particularmente al abarcar amplios rangos de atributos como etnia, edad, estilos de vestimenta y formas corporales detalladas. Capturar y anotar grandes conjuntos de datos humanos para entrenar modelos generativos es prohibitivamente costoso y limitado en escala y diversidad. La pregunta central que abordamos en este artículo es: ¿Se pueden destilar modelos base existentes para generar datos humanos 3D teóricamente ilimitados y ricamente anotados? Presentamos InfiniHuman, un marco que destila sinérgicamente estos modelos para producir datos humanos ricamente anotados a un costo mínimo y con una escalabilidad teóricamente ilimitada. Proponemos InfiniHumanData, una pipeline completamente automática que aprovecha modelos de visión-lenguaje y generación de imágenes para crear un conjunto de datos multimodal a gran escala. Un estudio de usuario muestra que nuestras identidades generadas automáticamente son indistinguibles de renderizaciones de escaneos. InfiniHumanData contiene 111K identidades que abarcan una diversidad sin precedentes. Cada identidad está anotada con descripciones textuales de múltiples granularidades, imágenes RGB de múltiples vistas, imágenes detalladas de vestimenta y parámetros de forma corporal SMPL. Basándonos en este conjunto de datos, proponemos InfiniHumanGen, una pipeline generativa basada en difusión condicionada por texto, forma corporal y activos de vestimenta. InfiniHumanGen permite una generación rápida, realista y precisamente controlable de avatares. Experimentos extensivos demuestran mejoras significativas sobre los métodos más avanzados en calidad visual, velocidad de generación y controlabilidad. Nuestro enfoque permite la generación de avatares de alta calidad con control de grano fino a una escala efectivamente ilimitada a través de una solución práctica y asequible. Publicaremos la pipeline de generación automática de datos, el conjunto de datos completo InfiniHumanData y los modelos InfiniHumanGen en https://yuxuan-xue.com/infini-human.
Los modelos generativos constituyen la columna vertebral del aprendizaje automático moderno, sustentando sistemas de vanguardia en aplicaciones de texto, visión y multimodalidad. Si bien la Estimación de Máxima Verosimilitud ha sido tradicionalmente el paradigma de entrenamiento dominante, trabajos recientes han destacado sus limitaciones, particularmente en términos de generalización y susceptibilidad al olvido catastrófico en comparación con técnicas de Aprendizaje por Refuerzo, como los métodos de Gradiente de Política. Sin embargo, estos enfoques dependen de señales de recompensa explícitas, que a menudo no están disponibles en la práctica, dejando abierto el problema fundamental de cómo alinear modelos generativos cuando solo se dispone de conjuntos de datos de alta calidad. En este trabajo, abordamos este desafío mediante un marco de Optimización Bilevel, donde la función de recompensa se trata como la variable de optimización de un problema de nivel externo, mientras que un objetivo de gradiente de política define el nivel interno. Luego, realizamos un análisis teórico de este problema de optimización en un escenario manejable y extraemos ideas que, como demostramos, se generalizan a aplicaciones como la clasificación tabular y el aprendizaje por refuerzo basado en modelos. Publicamos el código en https://github.com/abenechehab/nll_to_po.
Los modelos de visión preentrenados (VFMs, por sus siglas en inglés) avanzan el aprendizaje robótico mediante representaciones visuales ricas, aunque los VFMs individuales suelen destacar solo en dominios específicos, lo que limita su generalidad en diversas tareas. La destilación de múltiples VFMs en una representación unificada para la política puede mitigar esta limitación, pero a menudo resulta en una selección de características inflexible y específica para la tarea, además de requerir un costoso reentrenamiento completo para incorporar conocimiento del dominio robótico. Proponemos VER, un transformador de expertos en visión para el aprendizaje robótico. Durante el preentrenamiento, VER destila múltiples VFMs en una biblioteca de expertos en visión. Luego, ajusta únicamente una red de enrutamiento ligera (menos del 0.4% de los parámetros) para seleccionar dinámicamente expertos relevantes para la tarea desde la biblioteca preentrenada, aplicándolos a tareas robóticas posteriores. Además, introducimos el Enrutamiento de Expertos por Parches con Anillado Top-K Curricular para mejorar tanto la flexibilidad como la precisión en la selección dinámica de expertos. Asimismo, VER permite un ajuste eficiente en parámetros para una utilización escalable de expertos y una integración adaptativa del conocimiento del dominio robótico. En 17 tareas robóticas diversas y múltiples cabezas de política, VER logra un rendimiento de vanguardia. Observamos que VER reduce los valores atípicos de gran norma en regiones irrelevantes para la tarea (por ejemplo, el fondo) y se concentra en regiones críticas para la tarea. Las visualizaciones y códigos pueden encontrarse en https://yixiaowang7.github.io/ver_page/.
Los datos de preentrenamiento de alta calidad son el combustible fósil de los modelos de lenguaje grandes (LLMs), pero sus reservas se están agotando para los modelos de vanguardia. En este artículo, presentamos RePro, un método novedoso de reciclaje web que entrena un modelo de lenguaje relativamente pequeño con aprendizaje por refuerzo para generar reformulaciones efectivas y fieles de los datos de preentrenamiento. Específicamente, diseñamos una recompensa de calidad y tres recompensas de fidelidad, optimizando el reformulador de lenguaje para convertir datos orgánicos en reformulaciones de alta calidad mientras se mantiene su semántica y estructura central. En nuestro experimento, entrenamos un reformulador de 4B para reciclar 72B tokens muestreados de DCLM-RefinedWeb. Los resultados de preentrenamiento en modelos de 400M y 1.4B demuestran que RePro ofrece ganancias de precisión relativas del 4.7% al 14.0% sobre la línea base que solo utiliza datos orgánicos en 22 tareas posteriores. RePro también supera a ReWire, el método de reciclaje web más avanzado que utiliza un reformulador de 70B, así como a la línea base orgánica con un conjunto de datos 4 veces mayor. Los experimentos con diferentes cantidades de datos reciclados destacan que RePro mejora la eficiencia de los datos orgánicos en 2-3 veces. Los análisis individuales y distribucionales validan que RePro preserva más información crítica y refleja fielmente las características de los datos orgánicos en comparación con los métodos basados en indicaciones. En conjunto, estos resultados muestran que RePro proporciona una ruta eficiente y controlable para aprovechar eficazmente el combustible fósil del preentrenamiento de LLM. Hemos puesto a disposición nuestro código, reformulador y datos reciclados en https://github.com/cxcscmu/RePro.
Los mecanismos de reacción orgánica son las reacciones elementales paso a paso mediante las cuales los reactivos forman intermediarios y productos, y son fundamentales para comprender la reactividad química y diseñar nuevas moléculas y reacciones. Aunque los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mostrado potencial en la comprensión de tareas químicas como el diseño de síntesis, no está claro hasta qué punto esto refleja capacidades genuinas de razonamiento químico, es decir, la habilidad de generar intermediarios válidos, mantener la consistencia química y seguir vías coherentes de múltiples pasos. Abordamos esto introduciendo oMeBench, el primer punto de referencia a gran escala y curado por expertos para el razonamiento de mecanismos orgánicos en química orgánica. Este comprende más de 10,000 pasos mecanísticos anotados con intermediarios, etiquetas de tipo y clasificaciones de dificultad. Además, para evaluar con mayor precisión la capacidad de los LLMs y permitir una puntuación detallada, proponemos oMeS, un marco de evaluación dinámico que combina la lógica a nivel de paso y la similitud química. Analizamos el rendimiento de los LLMs más avanzados, y nuestros resultados muestran que, aunque los modelos actuales exhiben una intuición química prometedora, tienen dificultades con el razonamiento correcto y consistente de múltiples pasos. En particular, encontramos que el uso de estrategias de "prompting" y el ajuste fino de un modelo especializado en nuestro conjunto de datos propuesto aumenta el rendimiento en un 50% sobre el modelo líder de código cerrado. Esperamos que oMeBench sirva como una base rigurosa para avanzar los sistemas de IA hacia un razonamiento químico genuino.
Si bien los modelos de texto a imagen (T2I) pueden sintetizar imágenes de alta calidad, su rendimiento se degrada significativamente cuando se les solicita con entidades novedosas o fuera de distribución (OOD) debido a los límites inherentes de conocimiento. Presentamos World-To-Image, un marco novedoso que cierra esta brecha al potenciar la generación T2I con conocimiento del mundo impulsado por agentes. Diseñamos un agente que busca dinámicamente en la web para recuperar imágenes de conceptos desconocidos para el modelo base. Esta información se utiliza luego para realizar una optimización multimodal de la indicación, guiando a potentes motores generativos hacia una síntesis precisa. Críticamente, nuestra evaluación va más allá de las métricas tradicionales, utilizando evaluaciones modernas como LLMGrader e ImageReward para medir la verdadera fidelidad semántica. Nuestros experimentos muestran que World-To-Image supera sustancialmente a los métodos más avanzados tanto en alineación semántica como en estética visual, logrando una mejora del +8.1% en precisión respecto a la indicación en nuestro benchmark NICE. Nuestro marco alcanza estos resultados con alta eficiencia en menos de tres iteraciones, allanando el camino para sistemas T2I que puedan reflejar mejor el mundo real en constante cambio. Nuestro código de demostración está disponible aquí https://github.com/mhson-kyle/World-To-Image.
Los agentes conversacionales modernos como ChatGPT y Alexa+ dependen de políticas predefinidas que especifican metadatos, estilos de respuesta y reglas de uso de herramientas. A medida que estos sistemas basados en modelos de lenguaje (LLM) se expanden para abordar consultas diversas de negocios y usuarios, dichas políticas, a menudo implementadas como indicaciones en contexto, se están volviendo cada vez más complejas y extensas, lo que dificulta su fiel adherencia e impone costos computacionales fijos elevados. Con el auge de los agentes multimodales, las políticas que gobiernan comportamientos visuales y multimodales son cruciales, pero siguen siendo poco estudiadas. Los trabajos previos sobre compresión de indicaciones se centran principalmente en acortar plantillas de tareas y demostraciones, mientras que los estudios existentes sobre alineación de políticas se enfocan únicamente en reglas de seguridad basadas en texto. Introducimos la Internalización de Políticas Multimodales (MPI), una nueva tarea que internaliza políticas multimodales intensivas en razonamiento en los parámetros del modelo, permitiendo un seguimiento más robusto de las políticas sin incluirlas durante la inferencia. MPI plantea desafíos únicos en datos y algoritmos. Construimos dos conjuntos de datos que abarcan tareas sintéticas y del mundo real de toma de decisiones y uso de herramientas, y proponemos TriMPI, un marco de entrenamiento de tres etapas. TriMPI primero inyecta conocimiento de políticas mediante preentrenamiento continuo, luego realiza ajuste fino supervisado y finalmente aplica PolicyRollout, una extensión de aprendizaje por refuerzo al estilo GRPO que aumenta las ejecuciones con respuestas conscientes de las políticas para una exploración fundamentada. TriMPI logra avances notables en precisión de extremo a extremo, generalización y robustez frente al olvido. Como el primer trabajo sobre internalización de políticas multimodales, proporcionamos conjuntos de datos, recetas de entrenamiento y evaluaciones exhaustivas para fomentar investigaciones futuras. Página del proyecto: https://mikewangwzhl.github.io/TriMPI.
Los modelos de lenguaje generales (LLMs) sobresalen en razonamiento, pero aquellos optimizados para traducción enfrentan dificultades en tareas de razonamiento. Para abordar esto, proponemos una novedosa receta de mejora para traducción que comienza con modelos de instrucción y aplica ajuste selectivo por capas únicamente en datos paralelos. Siguiendo este enfoque, presentamos los modelos Qwen3-XPlus, que demuestran mejoras significativas en el rendimiento de traducción tanto en idiomas de recursos altos como bajos, alcanzando más de 15 spBLEU y más de 40 xComet en idiomas de bajos recursos, como el swahili. Curiosamente, al entrenar únicamente con pequeños conjuntos de datos paralelos, Qwen3-XPlus logra una mejora promedio de más de 1 punto en 7 tareas multilingües, mientras mantiene una competencia comparable al modelo de instrucción Qwen3 en 15 conjuntos de datos populares de razonamiento. Este trabajo ofrece un enfoque prometedor para la mejora multilingüe, reduciendo significativamente la complejidad y aumentando la accesibilidad para una gama más amplia de idiomas. El código y el modelo están disponibles públicamente.
En el núcleo de Deep Research se encuentra la minería de conocimiento, la tarea de extraer información estructurada de textos masivos no estructurados en respuesta a las instrucciones del usuario. Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sobresalen en la interpretación de dichas instrucciones, pero su implementación a gran escala resulta prohibitivamente costosa, mientras que los enfoques tradicionales basados en clasificadores y extractores siguen siendo eficientes pero frágiles e incapaces de generalizar a nuevas tareas. Presentamos Falconer, un marco colaborativo que combina el razonamiento agente de los LLMs con modelos proxy ligeros para la minería de conocimiento escalable. En Falconer, los LLMs actúan como planificadores, descomponiendo las instrucciones del usuario en pipelines ejecutables, y como anotadores, generando supervisión para entrenar proxies pequeños. El marco unifica la clasificación y la extracción en dos operaciones atómicas, obtener etiqueta y obtener segmento, permitiendo que un único modelo que sigue instrucciones reemplace múltiples componentes específicos de tareas. Para evaluar la consistencia entre los modelos proxy incubados por Falconer y las anotaciones proporcionadas por humanos y modelos grandes, construimos nuevos puntos de referencia que cubren tanto la planificación como la ejecución de extremo a extremo. Los experimentos muestran que Falconer iguala de cerca la precisión de los LLMs de última generación en el seguimiento de instrucciones, mientras reduce el costo de inferencia hasta en un 90% y acelera la minería de conocimiento a gran escala en más de 20 veces, ofreciendo una base eficiente y escalable para Deep Research.
La generación creativa es la síntesis de muestras nuevas, sorprendentes y valiosas que reflejan la intención del usuario pero que no pueden ser anticipadas de antemano. Esta tarea busca ampliar la imaginación humana, permitiendo el descubrimiento de conceptos visuales que existen en los espacios inexplorados entre dominios familiares. Si bien los modelos de difusión de texto a imagen sobresalen en la representación de escenas fotorrealistas que coinciden fielmente con las indicaciones del usuario, aún tienen dificultades para generar contenido genuinamente novedoso. Los enfoques existentes para mejorar la creatividad generativa dependen de la interpolación de características de imagen, lo que limita la exploración a categorías predefinidas, o requieren procedimientos que consumen mucho tiempo, como la optimización de incrustaciones o el ajuste fino del modelo. Proponemos el "Negative-Prompting Adaptativo Guiado por VLM", un método sin entrenamiento y en tiempo de inferencia que fomenta la generación creativa de imágenes mientras preserva la validez del objeto generado. Nuestro enfoque utiliza un modelo de visión y lenguaje (VLM) que analiza las salidas intermedias del proceso de generación y lo redirige de manera adaptativa lejos de conceptos visuales convencionales, fomentando la aparición de resultados novedosos y sorprendentes. Evaluamos la creatividad a través de la novedad y la validez, utilizando métricas estadísticas en el espacio de incrustaciones CLIP. A través de experimentos extensos, mostramos mejoras consistentes en la novedad creativa con un sobrecargo computacional insignificante. Además, a diferencia de los métodos existentes que principalmente generan objetos individuales, nuestro enfoque se extiende a escenarios complejos, como la generación de conjuntos coherentes de objetos creativos y la preservación de la creatividad dentro de indicaciones compositivas elaboradas. Nuestro método se integra sin problemas en las tuberías de difusión existentes, ofreciendo una ruta práctica para producir resultados creativos que van más allá de las limitaciones de las descripciones textuales.
El aprendizaje en contexto permite que los modelos grandes se adapten a nuevas tareas a partir de unas pocas demostraciones, pero ha mostrado un éxito limitado en el diseño molecular. Bases de datos existentes como ChEMBL contienen propiedades moleculares que abarcan millones de ensayos biológicos, sin embargo, los datos etiquetados para cada propiedad siguen siendo escasos. Para abordar esta limitación, presentamos los modelos de difusión condicionados por demostraciones (DemoDiff), que definen contextos de tareas utilizando un pequeño conjunto de ejemplos de moléculas y puntuaciones en lugar de descripciones textuales. Estas demostraciones guían a un Transformer de eliminación de ruido para generar moléculas alineadas con propiedades objetivo. Para un preentrenamiento escalable, desarrollamos un nuevo tokenizador molecular con Codificación de Pares de Nodos que representa moléculas a nivel de motivos, requiriendo 5.5 veces menos nodos. Curiosamente, un conjunto de datos que contiene millones de tareas de contexto de múltiples fuentes que cubren tanto fármacos como materiales, y preentrenamos un modelo de 0.7 mil millones de parámetros en él. En 33 tareas de diseño en seis categorías, DemoDiff iguala o supera a modelos de lenguaje 100-1000 veces más grandes y logra un rango promedio de 3.63 en comparación con 5.25-10.20 para enfoques específicos del dominio. Estos resultados posicionan a DemoDiff como un modelo fundacional molecular para el diseño molecular en contexto. Nuestro código está disponible en https://github.com/liugangcode/DemoDiff.
En los últimos años, mientras que los MLLM basados en la nube, como QwenVL, InternVL, GPT-4o, Gemini y Claude Sonnet, han demostrado un rendimiento excepcional con tamaños de modelo enormes que alcanzan cientos de miles de millones de parámetros, superan significativamente las limitaciones de memoria, consumo de energía y capacidad de cómputo de dispositivos de borde como teléfonos móviles. Este artículo presenta AndesVL, un conjunto de MLLM para dispositivos móviles con parámetros que van desde 0.6B hasta 4B, basados en el LLM Qwen3 y varios codificadores visuales. Describimos de manera exhaustiva las arquitecturas del modelo, el pipeline de entrenamiento y los datos de entrenamiento de AndesVL, que logra un rendimiento de primer nivel en una amplia gama de benchmarks de código abierto, incluyendo campos como la comprensión de imágenes con texto, razonamiento y matemáticas, comprensión de múltiples imágenes, VQA general, mitigación de alucinaciones, comprensión multilingüe y tareas relacionadas con GUI, en comparación con modelos de última generación de escala similar. Además, presentamos un enfoque de 1+N LoR.
Los paradigmas típicos de post-entrenamiento para Modelos Grandes de Visión y Lenguaje (LVLMs, por sus siglas en inglés) incluyen el Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR). El SFT aprovecha la guía externa para inyectar nuevos conocimientos, mientras que el RLVR utiliza el refuerzo interno para mejorar las capacidades de razonamiento y el rendimiento general. Sin embargo, nuestro análisis revela que el SFT a menudo conduce a un rendimiento subóptimo, mientras que el RLVR lucha con tareas que superan la base de conocimientos interna del modelo. Para abordar estas limitaciones, proponemos ViSurf (Ajuste Fino Visual Supervisado y por Refuerzo), un paradigma unificado de post-entrenamiento que integra las fortalezas de ambos enfoques, SFT y RLVR, en una sola etapa. Analizamos la derivación de los objetivos de SFT y RLVR para establecer el objetivo de ViSurf, proporcionando una perspectiva unificada sobre estos dos paradigmas. El núcleo de ViSurf implica inyectar etiquetas de verdad fundamental (ground-truth) en las iteraciones de RLVR, ofreciendo así supervisión externa y refuerzo interno simultáneamente. Además, introducimos tres estrategias novedosas de control de recompensas para estabilizar y optimizar el proceso de entrenamiento. Experimentos exhaustivos en varios benchmarks diversos demuestran la efectividad de ViSurf, superando tanto al SFT individual, al RLVR, como al enfoque de dos etapas SFT → RLVR. Un análisis en profundidad corrobora estos hallazgos, validando la derivación y los principios de diseño de ViSurf.
La edición de videos guiada por instrucciones ha surgido como una dirección de investigación en rápido avance, ofreciendo nuevas oportunidades para la transformación intuitiva de contenido, al mismo tiempo que plantea desafíos significativos para su evaluación sistemática. Los puntos de referencia existentes para la edición de videos no respaldan adecuadamente la evaluación de la edición guiada por instrucciones y, además, adolecen de una diversidad limitada de fuentes, una cobertura reducida de tareas y métricas de evaluación incompletas. Para abordar estas limitaciones, presentamos IVEBench, un conjunto de puntos de referencia moderno diseñado específicamente para la evaluación de la edición de videos guiada por instrucciones. IVEBench comprende una base de datos diversa de 600 videos fuente de alta calidad, que abarcan siete dimensiones semánticas y cubren longitudes de video que van desde 32 hasta 1,024 fotogramas. Además, incluye 8 categorías de tareas de edición con 35 subcategorías, cuyas instrucciones son generadas y refinadas mediante modelos de lenguaje de gran escala y revisión experta. De manera crucial, IVEBench establece un protocolo de evaluación tridimensional que abarca la calidad del video, el cumplimiento de las instrucciones y la fidelidad del video, integrando tanto métricas tradicionales como evaluaciones basadas en modelos de lenguaje multimodal de gran escala. Experimentos exhaustivos demuestran la efectividad de IVEBench en la evaluación comparativa de métodos de edición de videos guiada por instrucciones de vanguardia, mostrando su capacidad para proporcionar resultados de evaluación integrales y alineados con la percepción humana.
La segmentación semántica precisa de nubes de puntos obtenidas mediante escaneo láser terrestre (TLS) se ve limitada por la costosa anotación manual. Proponemos una metodología semi-automatizada y consciente de la incertidumbre que integra proyección esférica, enriquecimiento de características, aprendizaje por conjuntos y anotación dirigida para reducir el esfuerzo de etiquetado, manteniendo una alta precisión. Nuestro enfoque proyecta puntos 3D en una cuadrícula esférica 2D, enriquece los píxeles con características de múltiples fuentes y entrena un conjunto de redes de segmentación para generar etiquetas pseudo-supervisadas y mapas de incertidumbre, estos últimos guiando la anotación de regiones ambiguas. Las salidas 2D se retroproyectan a 3D, produciendo nubes de puntos densamente anotadas respaldadas por una suite de visualización de tres niveles (mapas de características 2D, nubes de puntos 3D coloreadas y esferas virtuales compactas) para una rápida clasificación y orientación del revisor. Utilizando esta metodología, construimos Mangrove3D, un conjunto de datos de segmentación semántica TLS para bosques de manglares. Además, evaluamos la eficiencia de los datos y la importancia de las características para abordar dos preguntas clave: (1) cuántos datos anotados se necesitan y (2) qué características son más relevantes. Los resultados muestran que el rendimiento se satura después de ~12 escaneos anotados, las características geométricas contribuyen más, y pilas compactas de nueve canales capturan casi todo el poder discriminativo, con la media de la Intersección sobre la Unión (mIoU) estabilizándose alrededor de 0.76. Finalmente, confirmamos la generalización de nuestra estrategia de enriquecimiento de características mediante pruebas cruzadas en los conjuntos de datos ForestSemantic y Semantic3D. Nuestras contribuciones incluyen: (i) una metodología robusta y consciente de la incertidumbre para la anotación de TLS con herramientas de visualización; (ii) el conjunto de datos Mangrove3D; y (iii) orientación empírica sobre la eficiencia de los datos y la importancia de las características, permitiendo así una segmentación escalable y de alta calidad de nubes de puntos TLS para monitoreo ecológico y más allá. El conjunto de datos y los scripts de procesamiento están disponibles públicamente en https://fz-rit.github.io/through-the-lidars-eye/.
Las mejoras en la construcción de modelos, incluyendo barreras de seguridad reforzadas, permiten que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) superen cada vez más las verificaciones estándar de seguridad. Sin embargo, los LLMs a veces incurren en comportamientos dañinos, como expresar puntos de vista racistas, durante las conversaciones. Para analizar esto de manera sistemática, presentamos CoBia, un conjunto de ataques adversarios ligeros que nos permiten refinar el alcance de las condiciones bajo las cuales los LLMs se desvían del comportamiento normativo o ético en las conversaciones. CoBia crea una conversación construida en la que el modelo emite una afirmación sesgada sobre un grupo social. Luego evaluamos si el modelo puede recuperarse de la afirmación sesgada fabricada y rechazar preguntas de seguimiento sesgadas. Evaluamos 11 LLMs de código abierto y propietarios en relación con seis categorías sociodemográficas relevantes para la seguridad individual y el trato justo, es decir, género, raza, religión, nacionalidad, orientación sexual y otras. Nuestra evaluación se basa en métricas de sesgo establecidas para LLMs, y comparamos los resultados con juicios humanos para determinar la confiabilidad y alineación de los LLMs. Los resultados sugieren que las conversaciones construidas intencionalmente revelan de manera confiable la amplificación de sesgos y que los LLMs a menudo no logran rechazar preguntas de seguimiento sesgadas durante el diálogo. Esta forma de prueba de estrés resalta los sesgos profundamente arraigados que pueden surgir a través de la interacción. El código y los artefactos están disponibles en https://github.com/nafisenik/CoBia.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) destacan en razonamiento complejo, pero tradicionalmente se evalúan en entornos estáticos o de "mundo congelado": se asume que las respuestas del modelo son instantáneas y que el contexto de una solicitud permanece inmutable durante la duración de la respuesta. Aunque esto es generalmente cierto para tareas a corto plazo, la suposición del "mundo congelado" se desmorona en tareas de razonamiento modernas, como la programación asistida, donde los modelos pueden tardar horas en analizar problemas y el código puede cambiar drásticamente desde el momento en que el modelo comienza a pensar hasta que produce su resultado final. En este trabajo, cuestionamos la suposición del mundo congelado y evaluamos la robustez de los LRMs bajo dos escenarios dinámicos realistas: interrupciones, que prueban la calidad de las salidas parciales del modelo con un presupuesto limitado, y contexto dinámico, que evalúa la adaptación del modelo a cambios durante su ejecución. En benchmarks de matemáticas y programación que requieren razonamiento extenso, las evaluaciones estáticas sobreestiman consistentemente la robustez: incluso los LRMs de vanguardia, que logran una alta precisión en entornos estáticos, pueden fallar de manera impredecible cuando se interrumpen o se exponen a un contexto cambiante, con un rendimiento que cae hasta un 60% cuando se introducen actualizaciones tarde en el proceso de razonamiento. Nuestro análisis revela además varios modos de fallo novedosos, incluyendo la fuga de razonamiento, donde los modelos integran el razonamiento en su respuesta final cuando se interrumpen; el pánico, donde bajo presión de tiempo los modelos abandonan el razonamiento por completo y devuelven respuestas incorrectas; y la autoduda, donde el rendimiento se degrada al incorporar información actualizada.
En este artículo, presentamos el primer estudio a gran escala que explora si el código JavaScript generado por Modelos de Lenguaje de Gran Escala (LLMs) puede revelar qué modelo lo produjo, permitiendo una atribución de autoría confiable y la identificación de huellas digitales del modelo. Con el rápido auge del código generado por IA, la atribución está desempeñando un papel crucial en la detección de vulnerabilidades, el marcado de contenido malicioso y la garantía de responsabilidad. Mientras que la detección de IA frente a humanos suele tratar a la IA como una única categoría, demostramos que los LLMs individuales dejan firmas estilísticas únicas, incluso entre modelos pertenecientes a la misma familia o con un tamaño de parámetros similar. Para ello, presentamos LLM-NodeJS, un conjunto de datos de 50,000 programas back-end de Node.js provenientes de 20 modelos de lenguaje de gran escala. Cada uno tiene cuatro variantes transformadas, lo que resulta en 250,000 muestras únicas de JavaScript y dos representaciones adicionales (JSIR y AST) para diversas aplicaciones de investigación. Utilizando este conjunto de datos, comparamos clasificadores tradicionales de aprendizaje automático con codificadores Transformer ajustados e introducimos CodeT5-JSA, una arquitectura personalizada derivada del modelo CodeT5 de 770 millones de parámetros, con su decodificador eliminado y una cabeza de clasificación modificada. Este alcanza un 95.8% de precisión en tareas de atribución de cinco clases, un 94.6% en diez clases y un 88.5% en veinte clases, superando a otros modelos probados como BERT, CodeBERT y Longformer. Demostramos que los clasificadores capturan regularidades estilísticas más profundas en el flujo de datos y la estructura del programa, en lugar de depender de características superficiales. Como resultado, la atribución sigue siendo efectiva incluso después de la ofuscación, la eliminación de comentarios y transformaciones intensas del código. Para apoyar la ciencia abierta y la reproducibilidad, publicamos el conjunto de datos LLM-NodeJS, los scripts de entrenamiento en Google Colab y todos los materiales relacionados en GitHub: https://github.com/LLM-NodeJS-dataset.
El diagnóstico de una imagen de muestra completa es un proceso interactivo y de múltiples etapas que implica cambios en el aumento y movimiento entre campos. Aunque los modelos fundamentales recientes en patología son sólidos, aún faltan sistemas agentes prácticos que decidan qué campo examinar a continuación, ajusten el aumento y entreguen diagnósticos explicables. El obstáculo son los datos: una supervisión escalable y clínicamente alineada del comportamiento de visualización de expertos que es tácita y basada en la experiencia, no escrita en libros de texto o en línea, y por lo tanto ausente en el entrenamiento de modelos de lenguaje grandes. Presentamos el AI Session Recorder, que funciona con visores estándar de WSI para registrar de manera discreta la navegación rutinaria y convertir los registros del visor en comandos conductuales estandarizados (inspeccionar o echar un vistazo a aumentos discretos) y cuadros delimitadores. Una revisión ligera con intervención humana convierte las justificaciones redactadas por la IA en el conjunto de datos Pathology-CoT, una forma de supervisión emparejada de "dónde mirar" y "por qué importa" producida en aproximadamente seis veces menos tiempo de etiquetado. Utilizando estos datos conductuales, construimos Pathologist-o3, un agente de dos etapas que primero propone regiones de interés y luego realiza un razonamiento guiado por el comportamiento. En la detección de metástasis en ganglios linfáticos gastrointestinales, logró un 84.5% de precisión, un 100.0% de sensibilidad y un 75.4% de exactitud, superando al modelo OpenAI o3 de última generación y generalizando entre diferentes arquitecturas. Hasta donde sabemos, esto constituye uno de los primeros sistemas agentes en patología fundamentados en el comportamiento. Al convertir los registros diarios de visualización en una supervisión escalable y validada por expertos, nuestro marco hace que los agentes en patología sean prácticos y establece un camino hacia una IA clínica alineada con los humanos y actualizable.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) pueden responder correctamente "¿Cuándo nació Einstein?" pero fallan al proporcionar la misma fecha cuando escriben sobre la vida de Einstein, revelando una inconsistencia fundamental en cómo los modelos acceden al conocimiento factual a través de las complejidades de las tareas. Aunque los modelos muestran una precisión impresionante en los benchmarks de respuesta a preguntas factuales, la brecha de confiabilidad entre consultas simples y complejas sigue siendo poco comprendida, lo que erosiona su fiabilidad. En este trabajo, presentamos la Alineación de Formas Cortas y Largas para la Respuesta a Preguntas Factuales (SLAQ, por sus siglas en inglés), un marco de evaluación controlado que compara las respuestas de los LLMs a las mismas preguntas factuales formuladas (a) de manera aislada (corta) frente a (b) integradas en consultas complejas (largas). Al analizar 16 LLMs en 600 consultas, encontramos una desalineación sistemática de las respuestas a las consultas cortas y largas correspondientes. Además, descubrimos una pérdida de precisión dependiente de la posición y efectos de momentum, donde respuestas correctas o incorrectas consecutivas crean patrones autorreforzantes. A través de un análisis mecanicista, encontramos que los hechos alineados activan internos del modelo superpuestos, y que las métricas basadas en la similitud mecanicista pueden predecir la alineación de respuestas cortas y largas con una precisión de hasta el 78%. Nuestro trabajo establece la consistencia factual sobre la complejidad de las consultas como un aspecto importante de la confiabilidad de los LLMs y desafía las prácticas de evaluación actuales, que asumen implícitamente que un buen rendimiento en consultas factuales simples implica también fiabilidad en tareas de búsqueda de conocimiento más complejas.
El intercalado de video crea transiciones suaves y naturales entre dos fotogramas de imagen, convirtiéndolo en una herramienta indispensable para la edición de video y la síntesis de videos de larga duración. Los trabajos existentes en este dominio no pueden generar movimientos grandes, complejos o intrincados. En particular, no logran adaptarse a la versatilidad de las intenciones del usuario y generalmente carecen de un control detallado sobre los fotogramas intermedios, lo que resulta en una desalineación con la mente creativa. Para abordar estas limitaciones, presentamos MultiCOIN, un marco de intercalado de video que permite controles multimodales, incluyendo transiciones de profundidad y capas, trayectorias de movimiento, indicaciones de texto y regiones objetivo para la localización del movimiento, logrando un equilibrio entre flexibilidad, facilidad de uso y precisión para la interpolación de video detallada. Para lograrlo, adoptamos la arquitectura Diffusion Transformer (DiT) como nuestro modelo generativo de video, debido a su capacidad comprobada para generar videos largos de alta calidad. Para garantizar la compatibilidad entre DiT y nuestros controles multimodales, mapeamos todos los controles de movimiento en una representación común basada en puntos, escasa y fácil de usar, como entrada de video/ruido. Además, para respetar la variedad de controles que operan en diferentes niveles de granularidad e influencia, separamos los controles de contenido y los controles de movimiento en dos ramas para codificar las características necesarias antes de guiar el proceso de eliminación de ruido, resultando en dos generadores: uno para el movimiento y otro para el contenido. Finalmente, proponemos una estrategia de entrenamiento por etapas para asegurar que nuestro modelo aprenda los controles multimodales de manera fluida. Experimentos cualitativos y cuantitativos exhaustivos demuestran que los controles multimodales permiten una narrativa visual más dinámica, personalizable y contextualmente precisa.