Artículos de investigación en IA seleccionados diariamente con traducciones
La detección de alucinaciones sigue siendo un desafío fundamental para el despliegue seguro y confiable de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), especialmente en aplicaciones que requieren precisión factual. Los benchmarks existentes para la detección de alucinaciones suelen operar a nivel de secuencia y están limitados al inglés, careciendo de la supervisión multilingüe y detallada necesaria para una evaluación integral. En este trabajo, presentamos PsiloQA, un conjunto de datos a gran escala y multilingüe anotado con alucinaciones a nivel de segmento en 14 idiomas. PsiloQA se construye mediante una canalización automatizada de tres etapas: generación de pares pregunta-respuesta a partir de Wikipedia utilizando GPT-4o, obtención de respuestas potencialmente alucinadas de diversos LLMs en un entorno sin contexto, y anotación automática de segmentos alucinados utilizando GPT-4o mediante comparación con respuestas de referencia y contexto recuperado. Evaluamos una amplia gama de métodos de detección de alucinaciones —incluyendo cuantificación de incertidumbre, etiquetado basado en LLMs y modelos de codificador ajustados— y demostramos que los modelos basados en codificadores logran el mejor rendimiento en todos los idiomas. Además, PsiloQA muestra una generalización efectiva entre idiomas y permite una transferencia robusta de conocimiento a otros benchmarks, todo ello siendo significativamente más rentable que los conjuntos de datos anotados manualmente. Nuestro conjunto de datos y resultados avanzan en el desarrollo de una detección de alucinaciones escalable y detallada en entornos multilingües.
Recientemente, el Aprendizaje por Refuerzo Agéntico (Agentic RL) ha logrado avances significativos en la incentivación de las capacidades de uso de herramientas a largo plazo y de múltiples turnos en agentes web. Si bien los algoritmos principales de Agentic RL exploran de manera autónoma los pasos de llamadas a herramientas con alta incertidumbre bajo la guía de la entropía, la dependencia excesiva de las señales de entropía puede imponer restricciones adicionales, lo que lleva al colapso del entrenamiento. En este artículo, profundizamos en los desafíos causados por la entropía y proponemos la Optimización de Políticas con Equilibrio de Entropía Agéntico (AEPO), un algoritmo de Agentic RL diseñado para equilibrar la entropía tanto en la fase de despliegue como en la de actualización de políticas. AEPO consta de dos componentes principales: (1) un mecanismo de despliegue con equilibrio dinámico de entropía que asigna de manera adaptativa el presupuesto global y de muestreo por rama mediante la pre-monitorización de la entropía, mientras impone una penalización por rama en pasos consecutivos de llamadas a herramientas con alta entropía para evitar problemas de sobre-ramificación; y (2) la Optimización de Políticas con Equilibrio de Entropía, que inserta una operación de detención de gradiente en el término de recorte de alta entropía para preservar y reescalar adecuadamente los gradientes en tokens de alta entropía, mientras incorpora una estimación de ventaja consciente de la entropía para priorizar el aprendizaje en tokens de alta incertidumbre. Los resultados en 14 conjuntos de datos desafiantes muestran que AEPO supera consistentemente a 7 algoritmos principales de RL. Con solo 1K muestras de RL, Qwen3-14B con AEPO logra resultados impresionantes: 47.6% en GAIA, 11.2% en Humanity's Last Exam y 43.0% en WebWalker para Pass@1; 65.0% en GAIA, 26.0% en Humanity's Last Exam y 70.0% en WebWalker para Pass@5. Un análisis adicional revela que AEPO mejora la diversidad del muestreo de despliegue mientras mantiene una entropía de política estable, facilitando el entrenamiento escalable de agentes web.
La generación consistente con la identidad se ha convertido en un enfoque importante en la investigación de texto a imagen, con modelos recientes logrando un éxito notable en la producción de imágenes alineadas con una identidad de referencia. Sin embargo, la escasez de conjuntos de datos a gran escala que contengan múltiples imágenes de la misma persona obliga a la mayoría de los enfoques a adoptar un entrenamiento basado en reconstrucción. Esta dependencia a menudo conduce a un modo de fallo que denominamos copiar-pegar, donde el modelo replica directamente el rostro de referencia en lugar de preservar la identidad a través de variaciones naturales en la pose, expresión o iluminación. Tal similitud excesiva socava la controlabilidad y limita el poder expresivo de la generación. Para abordar estas limitaciones, (1) construimos un conjunto de datos a gran escala emparejado, MultiID-2M, diseñado para escenarios de múltiples personas, proporcionando referencias diversas para cada identidad; (2) introducimos un punto de referencia que cuantifica tanto los artefactos de copiar-pegar como la compensación entre la fidelidad de la identidad y la variación; y (3) proponemos un nuevo paradigma de entrenamiento con una pérdida de identidad contrastiva que aprovecha los datos emparejados para equilibrar la fidelidad con la diversidad. Estas contribuciones culminan en WithAnyone, un modelo basado en difusión que mitiga eficazmente el copiar-pegar mientras preserva una alta similitud de identidad. Experimentos cualitativos y cuantitativos extensos demuestran que WithAnyone reduce significativamente los artefactos de copiar-pegar, mejora la controlabilidad sobre la pose y la expresión, y mantiene una fuerte calidad perceptual. Estudios de usuario validan además que nuestro método logra una alta fidelidad de identidad al tiempo que permite una generación controlable y expresiva.
En una era en la que la IA está evolucionando de una herramienta pasiva a un compañero activo y adaptable, presentamos IA para Servicio (AI4Service), un nuevo paradigma que permite asistencia proactiva y en tiempo real en la vida diaria. Los servicios de IA existentes siguen siendo en gran medida reactivos, respondiendo únicamente a comandos explícitos del usuario. Argumentamos que un asistente verdaderamente inteligente y útil debería ser capaz de anticipar las necesidades del usuario y tomar acciones proactivas cuando sea apropiado. Para materializar esta visión, proponemos Alpha-Service, un marco unificado que aborda dos desafíos fundamentales: Saber Cuándo intervenir mediante la detección de oportunidades de servicio a partir de flujos de video egocéntricos, y Saber Cómo ofrecer servicios tanto generalizados como personalizados. Inspirado por la arquitectura de computadoras de von Neumann y basado en gafas de IA, Alpha-Service consta de cinco componentes clave: una Unidad de Entrada para la percepción, una Unidad Central de Procesamiento para la programación de tareas, una Unidad Aritmética Lógica para la utilización de herramientas, una Unidad de Memoria para la personalización a largo plazo y una Unidad de Salida para la interacción natural con humanos. Como exploración inicial, implementamos Alpha-Service a través de un sistema multiagente desplegado en gafas de IA. Estudios de caso, incluyendo un asesor de Blackjack en tiempo real, un guía de museo y un asistente de compras de ropa, demuestran su capacidad para percibir de manera fluida el entorno, inferir la intención del usuario y brindar asistencia oportuna y útil sin indicaciones explícitas.
El edificio de los Modelos de Visión-Lenguaje (VLMs) nativos ha surgido como un contendiente en ascenso frente a los VLMs modulares típicos, moldeado por la evolución de las arquitecturas de modelos y los paradigmas de entrenamiento. Sin embargo, dos nubes persistentes proyectan sombras sobre su exploración y promoción generalizada: (1) ¿Qué limitaciones fundamentales diferencian a los VLMs nativos de los modulares, y hasta qué punto pueden superarse estas barreras? (2) ¿Cómo hacer que la investigación en VLMs nativos sea más accesible y democratizada, acelerando así el progreso en el campo? En este artículo, aclaramos estos desafíos y esbozamos principios rectores para la construcción de VLMs nativos. Específicamente, un primitivo de VLM nativo debe: (i) alinear efectivamente las representaciones de píxeles y palabras dentro de un espacio semántico compartido; (ii) integrar de manera fluida las fortalezas de los módulos de visión y lenguaje previamente separados; (iii) encarnar inherentemente diversas propiedades multimodales que apoyen la codificación, alineación y razonamiento unificados de visión y lenguaje. Por ello, presentamos NEO, una nueva familia de VLMs nativos construida desde los primeros principios, capaz de rivalizar con las contrapartes modulares de primer nivel en diversos escenarios del mundo real. Con solo 390 millones de ejemplos de imágenes-texto, NEO desarrolla eficientemente la percepción visual desde cero, mitigando los conflictos entre visión y lenguaje dentro de un modelo denso y monolítico elaborado a partir de nuestros primitivos detallados. Posicionamos a NEO como una piedra angular para VLMs nativos escalables y potentes, acompañado de un rico conjunto de componentes reutilizables que fomentan un ecosistema rentable y extensible. Nuestro código y modelos están disponibles públicamente en: https://github.com/EvolvingLMMs-Lab/NEO.
En este informe, presentamos PaddleOCR-VL, un modelo de última generación (SOTA) y eficiente en recursos, diseñado específicamente para el análisis de documentos. Su componente principal es PaddleOCR-VL-0.9B, un modelo compacto pero potente de visión y lenguaje (VLM) que integra un codificador visual de resolución dinámica estilo NaViT con el modelo de lenguaje ERNIE-4.5-0.3B para permitir un reconocimiento preciso de elementos. Este modelo innovador admite eficientemente 109 idiomas y destaca en el reconocimiento de elementos complejos (por ejemplo, texto, tablas, fórmulas y gráficos), manteniendo un consumo mínimo de recursos. A través de evaluaciones exhaustivas en puntos de referencia públicos ampliamente utilizados y en puntos de referencia internos, PaddleOCR-VL logra un rendimiento SOTA tanto en el análisis de documentos a nivel de página como en el reconocimiento a nivel de elementos. Supera significativamente a las soluciones existentes, muestra una fuerte competitividad frente a los mejores VLM y ofrece velocidades de inferencia rápidas. Estas fortalezas lo hacen altamente adecuado para su implementación práctica en escenarios del mundo real.
Los modelos de generación de videos han logrado avances notables, destacándose especialmente en escenarios realistas; sin embargo, su rendimiento se deteriora significativamente en escenarios imaginativos. Estos estímulos suelen involucrar conceptos que rara vez co-ocurren con relaciones semánticas de larga distancia, quedando fuera de las distribuciones de entrenamiento. Los métodos existentes suelen aplicar escalado en tiempo de prueba para mejorar la calidad del video, pero sus espacios de búsqueda fijos y diseños de recompensa estáticos limitan la adaptabilidad a escenarios imaginativos. Para abordar esta brecha, proponemos ImagerySearch, una estrategia de búsqueda adaptativa guiada por estímulos que ajusta dinámicamente tanto el espacio de búsqueda de inferencia como la función de recompensa según las relaciones semánticas en el estímulo. Esto permite la generación de videos más coherentes y visualmente plausibles en entornos imaginativos desafiantes. Para evaluar el progreso en esta dirección, presentamos LDT-Bench, el primer punto de referencia dedicado a estímulos semánticos de larga distancia, compuesto por 2,839 pares de conceptos diversos y un protocolo automatizado para evaluar las capacidades de generación creativa. Experimentos extensos muestran que ImagerySearch supera consistentemente a los modelos de generación de video de referencia y a los enfoques de escalado en tiempo de prueba existentes en LDT-Bench, y logra mejoras competitivas en VBench, demostrando su efectividad en diversos tipos de estímulos. Publicaremos LDT-Bench y el código para facilitar futuras investigaciones sobre la generación de videos imaginativos.
En este artículo, presentamos BitNet Distillation (BitDistill), una canalización ligera que ajusta modelos de lenguaje grandes (LLMs) de precisión completa disponibles comercialmente (por ejemplo, Qwen) a una precisión de 1.58 bits (es decir, pesos ternarios {-1, 0, 1}) para tareas específicas de aplicación, logrando un rendimiento sólido en tareas específicas con un costo computacional mínimo. Específicamente, BitDistill incorpora tres técnicas clave: el módulo SubLN, introducido en BitNet; la destilación de atención multi-cabeza, basada en MiniLM; y el pre-entrenamiento continuo, que sirve como un paso crucial de calentamiento para mitigar el problema de escalabilidad en la brecha de rendimiento entre los LLMs de precisión completa ajustados y los de 1.58 bits en tareas específicas. Los resultados experimentales muestran que BitDistill alcanza un rendimiento comparable al de los modelos de precisión completa en términos de tamaño del modelo, mientras permite ahorros de memoria de hasta 10x y una inferencia 2.65 veces más rápida en CPUs. El código está disponible en https://github.com/microsoft/BitNet.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido recientemente como un paradigma central para mejorar las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Para abordar la falta de señales de verificación durante la fase de prueba, estudios previos han incorporado el entrenamiento de la capacidad de autoverificación del modelo en el proceso estándar de RLVR, unificando así las capacidades de razonamiento y verificación dentro de un solo LLM. Sin embargo, la práctica anterior requiere que el LLM genere secuencialmente soluciones y autoverificaciones utilizando dos plantillas de indicaciones separadas, lo que reduce significativamente la eficiencia. En este trabajo, revelamos teóricamente que la solución de forma cerrada al objetivo de RL de autoverificación puede reducirse a una forma notablemente simple: la recompensa de razonamiento verdadera de una solución es igual a su puntuación de autorecompensa del último token, la cual se calcula como la diferencia entre la probabilidad logarítmica del siguiente token asignada por el modelo de política a cualquier token preespecificado en el último token de la solución y una constante precalculada, escalada por el coeficiente de KL. Basándonos en esta idea, proponemos LaSeR (Aprendizaje por Refuerzo con Autorecompensa del Último Token), un algoritmo que simplemente aumenta la pérdida original de RLVR con una pérdida de error cuadrático medio (MSE) que alinea las puntuaciones de autorecompensa del último token con las recompensas de razonamiento basadas en verificadores, optimizando conjuntamente las capacidades de razonamiento y autorecompensa de los LLMs. Las puntuaciones de autorecompensa optimizadas pueden utilizarse tanto en el entrenamiento como en la prueba para mejorar el rendimiento del modelo. Cabe destacar que nuestro algoritmo deriva estas puntuaciones a partir de la distribución de probabilidad del siguiente token predicha en el último token inmediatamente después de la generación, incurriendo únicamente en el costo adicional mínimo de una inferencia de un token adicional. Los experimentos muestran que nuestro método no solo mejora el rendimiento de razonamiento del modelo, sino que también lo dota de una notable capacidad de autorecompensa, potenciando así su rendimiento de escalado en tiempo de inferencia.
Este trabajo estudia cómo recalcular de manera adaptativa las cachés de clave-valor (KV) para modelos de lenguaje grandes de difusión (DLMs) con el fin de maximizar la precisión en las predicciones mientras se minimiza la latencia en la decodificación. Los métodos previos recalculan QKV para todos los tokens en cada paso de eliminación de ruido y en cada capa, a pesar de que los estados KV cambian poco en la mayoría de los pasos, especialmente en las capas superficiales, lo que genera una redundancia considerable. Hacemos tres observaciones: (1) los tokens {bf MASK} distantes actúan principalmente como un sesgo de longitud y pueden almacenarse en caché por bloques más allá de la ventana de predicción activa; (2) la dinámica de KV aumenta con la profundidad, lo que sugiere que una actualización selectiva a partir de capas más profundas es suficiente; y (3) el token más atendido exhibe la menor deriva en KV, proporcionando un límite inferior conservador en el cambio de caché para otros tokens. Basándonos en esto, proponemos {bf Elastic-Cache}, una estrategia libre de entrenamiento y agnóstica a la arquitectura que decide conjuntamente {cuándo} actualizar (mediante una prueba de deriva consciente de la atención en el token más atendido) y {dónde} actualizar (mediante un programa consciente de la profundidad que recalcula a partir de una capa elegida en adelante, reutilizando las cachés de capas superficiales y las cachés de MASK fuera de la ventana). A diferencia de los esquemas de período fijo, Elastic-Cache realiza actualizaciones de caché adaptativas y conscientes de la capa para DLMs de difusión, reduciendo el cómputo redundante y acelerando la decodificación con una pérdida insignificante en la calidad de la generación. Los experimentos en LLaDA-Instruct, LLaDA-1.5 y LLaDA-V en tareas de razonamiento matemático y generación de código demuestran aceleraciones consistentes: 8.7 veces en GSM8K (256 tokens), 45.1 veces en secuencias más largas y 4.8 veces en HumanEval, manteniendo consistentemente una mayor precisión que la línea base. Nuestro método logra un rendimiento significativamente mayor (6.8 veces en GSM8K) que los enfoques basados en confianza existentes, preservando la calidad de la generación y permitiendo la implementación práctica de DLMs de difusión.
Los agentes basados en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) se entrenan cada vez más con aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar su capacidad de interactuar con entornos externos mediante el uso de herramientas, especialmente en entornos basados en búsqueda que requieren razonamiento de múltiples turnos y adquisición de conocimiento. Sin embargo, los enfoques existentes suelen depender de recompensas basadas en resultados que solo se proporcionan en la respuesta final. Esta escasez de recompensas se vuelve particularmente problemática en configuraciones de múltiples turnos, donde trayectorias largas exacerban dos problemas críticos: (i) el colapso de la ventaja, donde todas las simulaciones reciben recompensas idénticas y no proporcionan señales de aprendizaje útiles, y (ii) la falta de asignación de crédito detallada, donde las dependencias entre turnos se oscurecen, especialmente en tareas de largo plazo. En este artículo, proponemos la Optimización de Políticas basada en Ganancia de Información (IGPO, por sus siglas en inglés), un marco de RL simple pero efectivo que proporciona supervisión densa e intrínseca para el entrenamiento de agentes de múltiples turnos. IGPO modela cada turno de interacción como un proceso incremental de adquisición de información sobre la verdad fundamental y define las recompensas a nivel de turno como el aumento marginal en la probabilidad de que la política produzca la respuesta correcta. A diferencia de enfoques previos de recompensas a nivel de proceso que dependen de modelos de recompensa externos o costosas estimaciones de Monte Carlo, IGPO deriva recompensas intrínsecas directamente de las actualizaciones de creencias del propio modelo. Estas recompensas intrínsecas a nivel de turno se combinan con la supervisión a nivel de resultado para formar trayectorias de recompensa densas. Experimentos extensos en benchmarks tanto dentro como fuera del dominio demuestran que IGPO supera consistentemente a líneas de base sólidas en escenarios de múltiples turnos, logrando una mayor precisión y una eficiencia de muestreo mejorada.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para código dependen de tokenizadores de subpalabras, como la codificación de pares de bytes (BPE, por sus siglas en inglés), aprendidos a partir de una mezcla de texto en lenguaje natural y código de lenguajes de programación, pero guiados por estadísticas en lugar de gramática. Como resultado, fragmentos de código semánticamente idénticos pueden ser tokenizados de manera diferente dependiendo de factores superficiales como los espacios en blanco o la nomenclatura de identificadores. Para medir el impacto de esta desalineación, presentamos TokDrift, un marco que aplica reglas de reescritura que preservan la semántica para crear variantes de código que difieren únicamente en la tokenización. En nueve LLMs de código, incluidos modelos grandes con más de 30 mil millones de parámetros, incluso cambios menores en el formato pueden causar alteraciones sustanciales en el comportamiento del modelo. Un análisis por capas muestra que el problema se origina en las primeras incrustaciones, donde la segmentación de subpalabras no logra capturar los límites de los tokens gramaticales. Nuestros hallazgos identifican la tokenización desalineada como un obstáculo oculto para la comprensión y generación confiable de código, destacando la necesidad de una tokenización consciente de la gramática para futuros LLMs de código.
Si bien los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han destacado en el razonamiento textual, enfrentan dificultades en dominios matemáticos como la geometría, que dependen intrínsecamente de ayudas visuales. Los enfoques existentes para la Cadena de Pensamiento Visual (VCoT, por sus siglas en inglés) suelen estar limitados por herramientas externas rígidas o no logran generar diagramas de alta fidelidad y estratégicamente sincronizados, necesarios para la resolución de problemas complejos. Para cerrar esta brecha, presentamos MathCanvas, un marco integral diseñado para dotar a los Modelos Multimodales de Gran Escala (LMMs, por sus siglas en inglés) con capacidades intrínsecas de VCoT para las matemáticas. Nuestro enfoque consta de dos fases. Primero, una etapa de Manipulación Visual preentrena el modelo en un nuevo corpus de 15.2 millones de pares, que incluye 10 millones de pares de descripción-diagrama (MathCanvas-Imagen) y 5.2 millones de trayectorias de edición paso a paso (MathCanvas-Edit), para dominar la generación y edición de diagramas. Segundo, una etapa de Razonamiento Estratégico con Ayuda Visual ajusta el modelo en MathCanvas-Instruct, un nuevo conjunto de datos de 219 mil ejemplos de rutas de razonamiento visual-textual intercaladas, enseñándole cuándo y cómo aprovechar las ayudas visuales. Para facilitar una evaluación rigurosa, presentamos MathCanvas-Bench, un punto de referencia desafiante con 3 mil problemas que requieren que los modelos produzcan soluciones visual-textuales intercaladas. Nuestro modelo, BAGEL-Canvas, entrenado bajo este marco, logra una mejora relativa del 86 % sobre líneas base sólidas de LMMs en MathCanvas-Bench, demostrando una excelente generalización en otros puntos de referencia matemáticos públicos. Nuestro trabajo proporciona un kit completo—marco, conjuntos de datos y punto de referencia—para desbloquear un razonamiento visual asistido complejo y similar al humano en LMMs. Página del proyecto: https://mathcanvas.github.io/
Proponemos y probamos la Hipótesis de la Degeneración Cerebral en LLM: la exposición continua a texto basura en la web induce un deterioro cognitivo duradero en los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Para aislar causalmente la calidad de los datos, realizamos experimentos controlados con corpus reales de Twitter/X, construyendo conjuntos de datos basura y de control inverso mediante dos operacionalizaciones ortogonales: M1 (grado de interacción) y M2 (calidad semántica), con escalas de tokens y operaciones de entrenamiento equivalentes en todas las condiciones. Contrario al grupo de control, el preentrenamiento continuo de 4 LLMs con el conjunto de datos basura provoca disminuciones no triviales (g de Hedges > 0.3) en razonamiento, comprensión de contexto largo, seguridad y el aumento de "rasgos oscuros" (por ejemplo, psicopatía, narcisismo). Las mezclas graduales de conjuntos de datos basura y de control también generan un deterioro cognitivo de tipo dosis-respuesta: por ejemplo, bajo M1, ARC-Challenge con Cadena de Pensamientos cae de 74.9 a 57.2 y RULER-CWE de 84.4 a 52.3 a medida que la proporción de basura aumenta del 0% al 100%. El análisis forense de errores revela varias conclusiones clave. Primero, identificamos el "salto de pensamiento" como la principal lesión: los modelos truncan o omiten cada vez más las cadenas de razonamiento, lo que explica la mayor parte del crecimiento de errores. Segundo, se observa una curación parcial pero incompleta: el ajuste de instrucciones a escala y el preentrenamiento con datos limpios mejoran la cognición deteriorada, pero no pueden restaurar la capacidad inicial, lo que sugiere una deriva representacional persistente en lugar de un desajuste de formato. Finalmente, descubrimos que la popularidad, una métrica no semántica, de un tuit es un mejor indicador del efecto de Degeneración Cerebral que la longitud en M1. En conjunto, los resultados proporcionan evidencia significativa y multiperspectiva de que la calidad de los datos es un impulsor causal del deterioro de la capacidad de los LLMs, replanteando la curación para el preentrenamiento continuo como un problema de seguridad durante el entrenamiento y motivando "chequeos de salud cognitiva" rutinarios para los LLMs implementados.
Los avances recientes en los modelos de recompensa multimodal (RMs, por sus siglas en inglés) han mejorado sustancialmente el entrenamiento posterior de los modelos generativos visuales. Sin embargo, los RMs actuales enfrentan limitaciones inherentes: (1) las entradas visuales consumen grandes presupuestos de contexto, lo que obliga a utilizar menos fotogramas y provoca la pérdida de detalles finos; y (2) toda la información visual se comprime en el prompt inicial, exacerbando la alucinación y el olvido durante el razonamiento en cadena de pensamiento. Para superar estos problemas, presentamos VideoReward Thinker (VR-Thinker), un marco de pensamiento con imágenes que equipa al RM con operaciones de razonamiento visual (por ejemplo, seleccionar fotograma) y una ventana de memoria visual configurable. Esto permite que el RM adquiera y actualice activamente evidencia visual dentro de los límites del contexto, mejorando la fidelidad y confiabilidad del razonamiento. Activamos el razonamiento visual mediante una canalización de ajuste fino por refuerzo: (i) Inicio en frío con datos curados de cadena de pensamiento visual para destilar habilidades básicas de razonamiento y formato de operaciones; (ii) selección de muestras cuyos juicios por dimensión y generales son todos correctos, seguido de un ajuste fino por muestreo de rechazo en estas trazas de alta calidad para mejorar aún más el razonamiento; y (iii) aplicación de la Optimización de Política Relativa en Grupo (GRPO, por sus siglas en inglés) para fortalecer el razonamiento. Nuestro enfoque ofrece una precisión de vanguardia entre los modelos de código abierto en puntos de referencia de preferencia de video, especialmente para videos más largos: un VR-Thinker de 7B logra un 80.5% en VideoGen Reward, un 82.3% en GenAI-Bench y un 75.6% en MJ-Bench-Video. Estos resultados validan la efectividad y promesa del modelado de recompensa multimodal con pensamiento en imágenes.
Trabajos recientes sugieren que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) codifican señales de factualidad en sus representaciones internas, como estados ocultos, pesos de atención o probabilidades de tokens, lo que implica que los LLMs podrían "saber lo que no saben". Sin embargo, los LLMs también pueden cometer errores factuales al depender de atajos o asociaciones espurias. Estos errores son impulsados por el mismo objetivo de entrenamiento que fomenta predicciones correctas, lo que plantea la cuestión de si los cálculos internos pueden distinguir de manera confiable entre salidas factuales y alucinadas. En este trabajo, realizamos un análisis mecanicista de cómo los LLMs procesan internamente consultas factuales al comparar dos tipos de alucinaciones basadas en su dependencia de la información del sujeto. Descubrimos que cuando las alucinaciones están asociadas con el conocimiento del sujeto, los LLMs emplean el mismo proceso de recuperación interna que para respuestas correctas, lo que resulta en geometrías de estados ocultos superpuestas e indistinguibles. En contraste, las alucinaciones desvinculadas del conocimiento del sujeto producen representaciones distintas y agrupadas que las hacen detectables. Estos hallazgos revelan una limitación fundamental: los LLMs no codifican la veracidad en sus estados internos, sino solo patrones de recuperación de conocimiento, demostrando que "los LLMs realmente no saben lo que no saben".
Los sistemas modernos de recuperación de información (IR) se enfrentan cada vez más a la tarea de responder consultas complejas y multifacéticas que requieren un razonamiento profundo, en lugar de una simple coincidencia de palabras clave o semántica. Aunque los sistemas de IR basados en modelos de lenguaje grandes (LLM) han mostrado un gran potencial, el paradigma predominante de recuperación y posterior reordenación hereda las limitaciones de la recuperación basada en incrustaciones; los enfoques generativos paramétricos son difíciles de actualizar con nueva información; y los métodos de contexto largo, que colocan todo el corpus en contexto, son computacionalmente inviables para grandes colecciones de documentos. Para abordar estos desafíos, presentamos LATTICE, un marco de recuperación jerárquico que permite a un LLM razonar y navegar grandes corpus con una complejidad de búsqueda logarítmica, imponiendo una estructura de árbol semántico sobre el corpus. Nuestro enfoque consta de dos etapas: (1) una fase fuera de línea que organiza el corpus en una jerarquía semántica mediante una estrategia aglomerativa ascendente o una estrategia divisiva descendente utilizando resúmenes multinivel, y (2) una fase de recorrido en línea donde un LLM de búsqueda navega este árbol. Un desafío central en esta búsqueda guiada por LLM es que los juicios de relevancia del modelo son ruidosos, dependientes del contexto y ajenos a la jerarquía, lo que dificulta las comparaciones entre ramas y niveles. Para superar esto, proponemos un algoritmo de recorrido que estima puntuaciones de relevancia latente calibradas a partir de las salidas locales del LLM y las agrega en una métrica global de relevancia de la ruta. Nuestro marco, que no requiere entrenamiento, logra un rendimiento de última generación en el punto de referencia BRIGHT, intensivo en razonamiento, demostrando una mejora de hasta el 9% en Recall@100 y del 5% en nDCG@10 sobre la mejor línea base de cero disparos. Además, en comparación con el método SOTA ajustado DIVER-v2, LATTICE obtiene resultados comparables en subconjuntos de BRIGHT que utilizan un corpus estático para la evaluación.
Los modelos actuales de visión-lenguaje-acción (VLA, por sus siglas en inglés), preentrenados con datos robóticos a gran escala, exhiben fuertes capacidades multitarea y se generalizan bien a variaciones en instrucciones visuales y lingüísticas para la manipulación. Sin embargo, su tasa de éxito disminuye significativamente cuando se enfrentan a conceptos de objetos fuera de los datos de entrenamiento, como descripciones y texturas de objetos no vistos en el conjunto de datos. Para abordar este problema, proponemos un marco agente novedoso, VLA^2, que aprovecha OpenVLA como columna vertebral de ejecución y utiliza eficazmente módulos externos, como la recuperación web y la detección de objetos, para proporcionar conocimiento visual y textual sobre los objetos objetivo al VLA. Este enfoque mitiga el fallo de generalización al manejar objetos fuera de la distribución. Basándonos en el entorno de simulación LIBERO, introdujimos nuevos objetos y descripciones de objetos para construir un nuevo punto de referencia de evaluación con tres niveles de dificultad para probar la efectividad de nuestro método. Nuestro marco superó con éxito los modelos más avanzados actuales en nuestro punto de referencia de generalización de nivel difícil. En comparación con la línea base independiente de OpenVLA, VLA^2 logra una mejora del 44.2% en la tasa de éxito en el punto de referencia de nivel difícil y una mejora promedio del 20.2% en todos los entornos personalizados, sin ninguna degradación del rendimiento en tareas dentro del dominio. Sitio web del proyecto: https://vla-2.github.io.
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se vuelven más capaces y ampliamente utilizados, garantizar la seguridad de sus resultados es cada vez más crítico. Los modelos de protección existentes, aunque útiles en entornos de evaluación estática, enfrentan dos limitaciones principales en aplicaciones del mundo real: (1) generalmente producen únicamente etiquetas binarias de "seguro/no seguro", las cuales pueden interpretarse de manera inconsistente en diversas políticas de seguridad, lo que las hace incapaces de adaptarse a diferentes tolerancias de seguridad en distintos dominios; y (2) requieren resultados completos del modelo antes de realizar verificaciones de seguridad, lo que las hace fundamentalmente incompatibles con la inferencia de LLM en flujo continuo, impidiendo así una intervención oportuna durante la generación y aumentando la exposición a resultados parciales dañinos. Para abordar estos desafíos, presentamos Qwen3Guard, una serie de modelos de protección de seguridad multilingüe con dos variantes especializadas: Generative Qwen3Guard, que convierte la clasificación de seguridad en una tarea de seguimiento de instrucciones para permitir juicios de tres clases (seguro, controvertido, no seguro); y Stream Qwen3Guard, que introduce un cabezal de clasificación a nivel de token para el monitoreo de seguridad en tiempo real durante la generación incremental de texto. Ambas variantes están disponibles en tres tamaños (0.6B, 4B y 8B parámetros) y admiten hasta 119 idiomas y dialectos, proporcionando una moderación de seguridad integral, escalable y de baja latencia para despliegues globales de LLM. Evaluado en puntos de referencia en inglés, chino y multilingües, Qwen3Guard alcanza un rendimiento de vanguardia tanto en la clasificación de seguridad de entradas como de respuestas. Todos los modelos se publican bajo la licencia Apache 2.0 para uso público.
Los modelos de lenguaje de gran escala exhiben deficiencias sistemáticas en la escritura creativa, particularmente en contextos no anglófonos donde los datos de entrenamiento son escasos y carecen de supervisión a nivel de proceso. Presentamos COIG-Writer, un novedoso conjunto de datos de escritura creativa en chino que captura tanto resultados diversos como sus procesos de pensamiento subyacentes mediante la ingeniería inversa sistemática de textos de alta calidad. A diferencia de los conjuntos de datos existentes que solo ofrecen pares de entrada-salida, COIG-Writer comprende 1,665 tripletas meticulosamente curadas que abarcan 51 géneros, cada una de las cuales contiene: (1) un prompt obtenido mediante ingeniería inversa, (2) un razonamiento creativo detallado que documenta los procesos de toma de decisiones, y (3) el texto final. A través de experimentos exhaustivos, identificamos un modelo de dos componentes para la escritura creativa: la lógica narrativa (proporcionada por la supervisión de procesos) y la expresión lingüística (mantenida por datos de propósito general). Nuestros hallazgos revelan tres insights críticos: (1) La supervisión de procesos es altamente efectiva pero requiere estabilización con datos generales. Se necesita una proporción de al menos una muestra creativa por doce muestras generales para alcanzar un rendimiento óptimo; por debajo de este umbral, la tasa de éxito se degrada progresivamente (del 62.75% al 35.78%). (2) Las capacidades creativas están culturalmente ligadas, sin transferencia interlingüística (una brecha de 89.26pp entre el rendimiento en chino e inglés). (3) La diversidad léxica se correlaciona inversamente con la calidad creativa (paradoja TTR), lo que sugiere que una alta diversidad señala un comportamiento compensatorio por deficiencias lógicas. Estos hallazgos establecen que la excelencia creativa emerge de la interacción entre un andamiaje lógico y una base lingüística, análogo a cómo el razonamiento matemático mejora, pero no puede reemplazar, la competencia lingüística en los modelos fundamentales.
En este trabajo, presentamos los modelos mxbai-edge-colbert-v0, con dos recuentos de parámetros diferentes: 17M y 32M. Como parte de nuestra investigación, realizamos numerosos experimentos para mejorar los modelos de recuperación e interacción tardía, con el objetivo de destilarlos en modelos más pequeños como pruebas de concepto. Nuestro objetivo final es apoyar la recuperación a todas las escalas, desde la recuperación a gran escala que reside en la nube hasta modelos que pueden ejecutarse localmente en cualquier dispositivo. mxbai-edge-colbert-v0 es un modelo que esperamos sirva como una base sólida para todos los experimentos futuros, representando la primera versión de una larga serie de pequeñas pruebas de concepto. Como parte del desarrollo de mxbai-edge-colbert-v0, llevamos a cabo múltiples estudios de ablación, cuyos resultados reportamos. En términos de rendimiento en tareas posteriores, mxbai-edge-colbert-v0 es un modelo pequeño particularmente capaz, superando a ColBERTv2 en puntos de referencia comunes de texto corto (BEIR) y representando un gran avance en tareas de contexto largo, con una eficiencia sin precedentes.
La investigación profunda —la producción de informes exhaustivos y fundamentados en citas mediante la búsqueda y síntesis de información de cientos de fuentes web en vivo— representa una frontera importante para los sistemas agentes. Para evaluar rigurosamente esta capacidad, cuatro principios son esenciales: las tareas deben ser (1) centradas en el usuario, reflejando necesidades de información realistas, (2) dinámicas, requiriendo información actualizada más allá del conocimiento paramétrico, (3) inequívocas, asegurando una interpretación consistente entre los usuarios, y (4) multifacéticas y de búsqueda intensiva, requiriendo la consulta de numerosas fuentes web y un análisis en profundidad. Los puntos de referencia existentes no cumplen con estos principios, ya que a menudo se centran en dominios estrechos o plantean preguntas ambiguas que dificultan una comparación justa. Guiados por estos principios, presentamos LiveResearchBench, un punto de referencia de 100 tareas curadas por expertos que abarcan la vida cotidiana, el ámbito empresarial y el académico, cada una de las cuales requiere una búsqueda web extensa, dinámica y en tiempo real, así como síntesis. Construido con más de 1,500 horas de trabajo humano, LiveResearchBench proporciona una base rigurosa para la evaluación sistemática. Para evaluar informes extensos fundamentados en citas, presentamos DeepEval, un conjunto integral que cubre tanto la calidad del contenido como del informe, incluyendo cobertura, presentación, precisión y asociación de citas, consistencia y profundidad del análisis. DeepEval integra cuatro protocolos de evaluación complementarios, cada uno diseñado para garantizar una evaluación estable y un alto acuerdo con los juicios humanos. Utilizando LiveResearchBench y DeepEval, llevamos a cabo una evaluación exhaustiva de 17 sistemas de investigación profunda de vanguardia, incluyendo búsqueda web de agente único, investigación profunda de agente único y sistemas multiagente. Nuestro análisis revela las fortalezas actuales, los modos de fallo recurrentes y los componentes clave del sistema necesarios para avanzar hacia una investigación profunda confiable y perspicaz.
Los métodos actuales de aprendizaje de preferencias logran una alta precisión en puntos de referencia estándar, pero muestran una degradación significativa del rendimiento cuando se eliminan las señales de calidad objetiva. Presentamos WritingPreferenceBench, un conjunto de datos de 1,800 pares de preferencias anotados por humanos (1,200 en inglés, 600 en chino) en 8 géneros de escritura creativa, donde las respuestas se comparan en términos de corrección objetiva, precisión factual y longitud. En este punto de referencia, los modelos de recompensa basados en secuencias—la arquitectura estándar para RLHF—alcanzan solo un 52.7% de precisión media, mientras que los modelos de lenguaje de evaluación en modo *zero-shot* obtienen un 53.9%. En contraste, los modelos de recompensa generativos que producen cadenas de razonamiento explícitas logran un 81.8% de precisión. Observamos una alta varianza dentro del modelo entre géneros: los modelos individuales varían entre un 18.2% y un 81.8% de precisión en diferentes categorías de escritura, con desviaciones estándar que promedian un 10.1%. Esta varianza persiste independientemente de la escala del modelo, ya que los modelos con 27B parámetros no muestran una mejora consistente sobre las variantes de 8B. Nuestros resultados sugieren que los métodos actuales de RLHF aprenden principalmente a detectar errores objetivos en lugar de capturar preferencias de calidad subjetiva (por ejemplo, creatividad, estilo distintivo y resonancia emocional), y que el modelado exitoso de preferencias puede requerir representaciones intermedias de razonamiento en lugar de clasificación directa.
Presentamos AnyUp, un método para el aumento de resolución de características que puede aplicarse a cualquier característica visual en cualquier resolución, sin necesidad de entrenamiento específico para un codificador. Los métodos existentes basados en aprendizaje para el aumento de resolución de características, como DINO o CLIP, requieren ser reentrenados para cada extractor de características y, por lo tanto, no generalizan a diferentes tipos de características durante la inferencia. En este trabajo, proponemos una arquitectura de aumento de resolución agnóstica a las características en tiempo de inferencia para mitigar esta limitación y mejorar la calidad del aumento de resolución. En nuestros experimentos, AnyUp establece un nuevo estado del arte para características aumentadas, generaliza a diferentes tipos de características y preserva la semántica de las mismas, siendo además eficiente y fácil de aplicar a una amplia gama de tareas posteriores.
El diseño de máquinas complejas representa tanto un indicador de la inteligencia humana como un fundamento de la práctica de la ingeniería. Dados los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), nos preguntamos si estos también pueden aprender a crear. Abordamos esta pregunta desde la perspectiva del diseño de máquinas composicional: una tarea en la que las máquinas se ensamblan a partir de componentes estandarizados para satisfacer demandas funcionales, como la locomoción o la manipulación, en un entorno físico simulado. Para respaldar esta investigación, presentamos BesiegeField, un banco de pruebas basado en el juego de construcción de máquinas Besiege, que permite la construcción basada en piezas, la simulación física y la evaluación guiada por recompensas. Utilizando BesiegeField, evaluamos los LLMs más avanzados con flujos de trabajo agentivos e identificamos las capacidades clave necesarias para el éxito, incluyendo el razonamiento espacial, el ensamblaje estratégico y el seguimiento de instrucciones. Dado que los modelos de código abierto actuales no alcanzan estos requisitos, exploramos el aprendizaje por refuerzo (RL, por sus siglas en inglés) como una vía de mejora: seleccionamos un conjunto de datos de inicio en frío, realizamos experimentos de ajuste fino con RL y destacamos los desafíos abiertos en la intersección del lenguaje, el diseño de máquinas y el razonamiento físico.
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) ha avanzado las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs). Sin embargo, los métodos predominantes de RLVR muestran un sesgo sistemático hacia la explotación en lugar de la exploración, como lo evidencia una mejora en el rendimiento de pass@1 pero una reducción en el rendimiento de pass@K (K>1). Para comprender este problema, analizamos la dinámica de entrenamiento de los métodos de RLVR mediante el seguimiento de las distribuciones de probabilidad a nivel de token sobre los candidatos del vocabulario. Nuestro análisis revela un efecto consistente de concentración de probabilidad, donde el candidato top-1 acumula cada vez más masa de probabilidad y suprime la de otros candidatos. Más importante aún, una mayor sobreconcentración se correlaciona con un peor rendimiento de pass@K. Inspirados por este hallazgo, proponemos Optimización Simple de Pass@K (SimKO), un método diseñado para mitigar el problema de sobreconcentración, fomentando así la exploración. SimKO opera de manera asimétrica. Para respuestas verificadas como correctas, aumenta las probabilidades de los candidatos top-K. Para respuestas verificadas como incorrectas, aplica penalizaciones más fuertes al candidato top-1. Observamos que este diseño asimétrico es particularmente efectivo para mitigar la sobreconcentración cuando se aplica en tokens con alta entropía. En varios puntos de referencia de matemáticas y razonamiento lógico, SimKO produce consistentemente un mayor pass@K para un amplio rango de K, proporcionando una forma sencilla de mejorar la exploración en RLVR.
Los modelos Visión-Lenguaje-Acción (VLA) están experimentando un desarrollo acelerado y demostrando capacidades prometedoras en tareas de manipulación robótica. Sin embargo, escalar estos modelos VLA presenta varios desafíos críticos: (1) Entrenar nuevos modelos VLA desde cero requiere recursos computacionales sustanciales y conjuntos de datos extensos. Dada la escasez actual de datos robóticos, resulta particularmente valioso aprovechar al máximo los pesos de modelos VLA preentrenados durante el proceso de escalamiento. (2) El control en tiempo real exige equilibrar cuidadosamente la capacidad del modelo con la eficiencia computacional. Para abordar estos desafíos, proponemos AdaMoE, una arquitectura de Mezcla de Expertos (MoE) que hereda pesos preentrenados de modelos VLA densos y escala el experto en acción sustituyendo las capas de retroalimentación por capas MoE activadas de manera dispersa. AdaMoE emplea una técnica de desacoplamiento que separa la selección de expertos de la ponderación de expertos mediante un adaptador de escala independiente que funciona junto con el enrutador tradicional. Esto permite que los expertos se seleccionen según la relevancia de la tarea mientras contribuyen con pesos controlados de manera independiente, facilitando la utilización colaborativa de expertos en lugar de dinámicas de "el ganador se lo lleva todo". Nuestro enfoque demuestra que la experiencia no necesita monopolizarse. En cambio, a través de la utilización colaborativa de expertos, podemos lograr un rendimiento superior manteniendo la eficiencia computacional. AdaMoE supera consistentemente al modelo de referencia en los principales puntos de comparación, obteniendo mejoras de rendimiento del 1.8% en LIBERO y del 9.3% en RoboTwin. Más importante aún, una mejora sustancial del 21.5% en experimentos del mundo real valida su efectividad práctica para tareas de manipulación robótica.
Los modelos Visión-Lenguaje-Acción (VLAs) ofrecen un gran potencial para habilitar la manipulación robótica generalista. Sin embargo, la mejor manera de construirlos sigue siendo una pregunta abierta. Los enfoques actuales suelen añadir complejidad, como modificar el vocabulario existente de un Modelo Visión-Lenguaje (VLM) con tokens de acción o introducir cabezales especiales para acciones. Curiosamente, la estrategia más simple de representar las acciones directamente como texto ha permanecido en gran medida inexplorada. Este trabajo presenta VLA-0 para investigar esta idea. Descubrimos que VLA-0 no solo es efectivo; es sorprendentemente potente. Con el diseño adecuado, VLA-0 supera a modelos más complejos. En LIBERO, un punto de referencia popular para evaluar VLAs, VLA-0 supera a todos los métodos existentes entrenados con los mismos datos robóticos, incluyendo pi_0.5-KI, OpenVLA-OFT y SmolVLA. Además, sin entrenamiento a gran escala específico para robótica, supera a métodos entrenados con datos robóticos a gran escala, como pi_0.5-KI, pi_0, GR00T-N1 y MolmoAct. Estos hallazgos también se trasladan al mundo real, donde VLA-0 supera a SmolVLA, un modelo VLA preentrenado con datos reales a gran escala. Este artículo resume nuestros hallazgos inesperados y detalla las técnicas específicas necesarias para desbloquear el alto rendimiento de este diseño VLA simple pero potente. Los resultados visuales, el código y los modelos entrenados se proporcionan aquí: https://vla0.github.io/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han despertado un creciente interés en los agentes de investigación de aprendizaje automático automático. Entre ellos, los agentes capaces de proponer ideas de manera autónoma y llevar a cabo experimentos de aprendizaje automático son particularmente prometedores, ya que maximizan la automatización de la investigación y aceleran el progreso científico al refinar iterativamente las ideas basándose en los resultados experimentales. Sin embargo, evaluar de manera integral a estos agentes sigue siendo un desafío. Los puntos de referencia existentes tienden a sobreenfatizar aspectos de ingeniería mientras descuidan el rigor académico, creando barreras que dificultan una evaluación clara de las capacidades científicas de un agente en la investigación de aprendizaje automático. Además, adolecen de una diversidad limitada de tareas, un énfasis excesivo en tareas orientadas a aplicaciones en lugar de problemas de investigación fundamentales, y una escalabilidad limitada a entornos de investigación realistas. Para abordar estas limitaciones, presentamos FML-bench, un punto de referencia diseñado para evaluar a los agentes de investigación de aprendizaje automático automático en 8 problemas diversos y fundamentales de investigación en aprendizaje automático. Este reduce la carga de codificación, enfatiza problemas fundamentales en lugar de casos de uso específicos, ofrece una alta diversidad de tareas y es extensible a repositorios de GitHub de aprendizaje automático del mundo real. Además, presentamos un marco de evaluación unificado con cinco métricas complementarias, diseñado para evaluar de manera integral el rendimiento de los agentes en nuestro punto de referencia. Evaluamos a los agentes de investigación automática más avanzados en FML-bench y encontramos que los agentes que emplean estrategias de exploración amplia superan a aquellos que se centran en una exploración estrecha pero profunda. Estos hallazgos sugieren que enfatizar la amplitud de la exploración puede conducir a resultados de investigación más efectivos que centrarse únicamente en el refinamiento incremental. Nuestro punto de referencia está disponible en https://github.com/qrzou/FML-bench.
Los modelos generativos basados en difusión o flujo de pocos pasos suelen destilar un profesor que predice la velocidad en un estudiante que predice un atajo hacia datos sin ruido. Esta discrepancia de formato ha llevado a procedimientos de destilación complejos que a menudo sufren de un equilibrio entre calidad y diversidad. Para abordar esto, proponemos modelos de flujo basados en políticas (pi-Flow). pi-Flow modifica la capa de salida de un modelo de flujo estudiantil para predecir una política sin red en un paso de tiempo. La política luego produce velocidades de flujo dinámicas en subpasos futuros con un costo insignificante, permitiendo una integración rápida y precisa de EDO en estos subpasos sin evaluaciones adicionales de la red. Para igualar la trayectoria de EDO de la política con la del profesor, introducimos un enfoque novedoso de destilación por imitación, que iguala la velocidad de la política con la del profesor a lo largo de la trayectoria de la política utilizando una pérdida estándar de coincidencia de flujo ell_2. Al simplemente imitar el comportamiento del profesor, pi-Flow permite un entrenamiento estable y escalable y evita el equilibrio entre calidad y diversidad. En ImageNet 256^2, alcanza un FID de 1-NFE de 2.85, superando a MeanFlow de la misma arquitectura DiT. En FLUX.1-12B y Qwen-Image-20B a 4 NFEs, pi-Flow logra una diversidad sustancialmente mejor que los métodos de pocos pasos más avanzados, manteniendo la calidad a nivel de profesor.
El razonamiento en múltiples etapas ha surgido como una estrategia efectiva para mejorar la capacidad de razonamiento de los modelos de lenguaje pequeños al descomponer problemas complejos en subetapas secuenciales. Sin embargo, esto conlleva un aumento en la latencia. Observamos que las técnicas existentes de aceleración adaptativa, como el salto de capas, tienen dificultades para equilibrar la eficiencia y la precisión en este contexto debido a dos desafíos clave: (1) la variación en la sensibilidad al salto por etapas, y (2) la generación de tokens de salida redundantes. Para abordar estos problemas, proponemos LiteStage, un marco de salto de capas consciente de la latencia para el razonamiento en múltiples etapas. LiteStage combina una búsqueda fuera de línea por etapas que asigna presupuestos óptimos de capas con una salida temprana basada en la confianza durante la generación en línea para suprimir la decodificación innecesaria. Los experimentos en tres puntos de referencia, como OBQA, CSQA y StrategyQA, muestran que LiteStage logra una aceleración de hasta 1.70x con una pérdida de precisión inferior al 4.0%, superando a los métodos anteriores de salto de capas sin entrenamiento.
El rápido avance de los modelos grandes y preentrenados tanto para la generación de contenido visual como para la reconstrucción 3D abre nuevas posibilidades para la generación de texto a 3D. Intuitivamente, se podría obtener un formidable generador de escenas 3D si se lograra combinar el poder de un modelo latente moderno de texto a video como "generador" con las capacidades geométricas de un sistema reciente de reconstrucción 3D (de avance directo) como "decodificador". Presentamos VIST3A, un marco general que hace precisamente eso, abordando dos desafíos principales. En primer lugar, los dos componentes deben unirse de manera que se preserve el rico conocimiento codificado en sus pesos. Revisitamos la técnica de unión de modelos, es decir, identificamos la capa en el decodificador 3D que mejor coincide con la representación latente producida por el generador de texto a video y unimos las dos partes. Esta operación requiere solo un pequeño conjunto de datos y no necesita etiquetas. En segundo lugar, el generador de texto a video debe estar alineado con el decodificador 3D unido, para garantizar que los latentes generados sean decodificables en una geometría de escena 3D consistente y perceptualmente convincente. Para ello, adaptamos el ajuste fino de recompensa directa, una técnica popular para la alineación de preferencias humanas. Evaluamos el enfoque propuesto VIST3A con diferentes generadores de video y modelos de reconstrucción 3D. Todas las combinaciones probadas mejoran notablemente en comparación con los modelos previos de texto a 3D que generan splats gaussianos. Además, al elegir un modelo base 3D adecuado, VIST3A también permite la generación de texto a mapa de puntos de alta calidad.
Los modelos recientes de edición de imágenes han logrado resultados impresionantes al seguir instrucciones de edición en lenguaje natural, pero dependen de un ajuste supervisado con grandes conjuntos de datos de pares de entrada y objetivo. Este es un cuello de botella crítico, ya que tales pares que ocurren naturalmente son difíciles de curar a gran escala. Las soluciones actuales utilizan pares de entrenamiento sintéticos que aprovechan las capacidades de cero disparos de los modelos existentes. Sin embargo, esto puede propagar y amplificar los artefactos del modelo preentrenado en el modelo final entrenado. En este trabajo, presentamos un nuevo paradigma de entrenamiento que elimina por completo la necesidad de datos emparejados. Nuestro enfoque optimiza directamente un modelo de difusión de pocos pasos al desplegarlo durante el entrenamiento y aprovechar la retroalimentación de los modelos de visión y lenguaje (VLMs, por sus siglas en inglés). Para cada entrada e instrucción de edición, el VLM evalúa si una edición sigue la instrucción y preserva el contenido sin cambios, proporcionando gradientes directos para la optimización de extremo a extremo. Para garantizar la fidelidad visual, incorporamos una pérdida de coincidencia de distribución (DMD, por sus siglas en inglés), que restringe las imágenes generadas a permanecer dentro de la variedad de imágenes aprendida por los modelos preentrenados. Evaluamos nuestro método en puntos de referencia estándar e incluimos un extenso estudio de ablación. Sin ningún dato emparejado, nuestro método se desempeña a la par con varios modelos de edición de imágenes basados en difusión entrenados con extensos datos supervisados emparejados, en el escenario de pocos pasos. Dado el mismo VLM como modelo de recompensa, también superamos técnicas basadas en aprendizaje por refuerzo como Flow-GRPO.
Los modelos generativos de video han logrado recientemente avances notables en la calidad de síntesis. Sin embargo, la generación de movimientos complejos sigue siendo un desafío crítico, ya que los modelos existentes a menudo tienen dificultades para producir movimientos naturales, fluidos y contextualmente consistentes. Esta brecha entre los movimientos generados y los del mundo real limita su aplicabilidad práctica. Para abordar este problema, presentamos RealDPO, un nuevo paradigma de alineación que aprovecha datos del mundo real como muestras positivas para el aprendizaje de preferencias, permitiendo una síntesis de movimientos más precisa. A diferencia del ajuste fino supervisado tradicional (SFT), que ofrece retroalimentación correctiva limitada, RealDPO emplea la Optimización Directa de Preferencias (DPO) con una función de pérdida personalizada para mejorar el realismo del movimiento. Al contrastar videos del mundo real con salidas erróneas del modelo, RealDPO permite una autocorrección iterativa, refinando progresivamente la calidad del movimiento. Para apoyar el entrenamiento posterior en la síntesis de movimientos complejos, proponemos RealAction-5K, un conjunto de datos curado de videos de alta calidad que capturan actividades diarias humanas con detalles de movimiento ricos y precisos. Experimentos extensos demuestran que RealDPO mejora significativamente la calidad del video, la alineación con el texto y el realismo del movimiento en comparación con los modelos de última generación y las técnicas existentes de optimización de preferencias.
El desarrollo de modelos de lenguaje de gran escala depende de corpus de entrenamiento extensos; sin embargo, la mayoría contiene datos con un estatus de licencia poco claro, lo que limita el desarrollo de modelos verdaderamente abiertos. Este problema se agrava en el caso de idiomas distintos al inglés, donde los textos con licencias abiertas siguen siendo extremadamente escasos. Presentamos el German Commons, la colección más grande de textos en alemán con licencias abiertas hasta la fecha. Este compila datos de 41 fuentes en siete dominios, que abarcan textos legales, científicos, culturales, políticos, noticiosos, económicos y de la web. Mediante la obtención sistemática de proveedores de datos establecidos con licencias verificables, se obtienen 154.56 mil millones de tokens de texto de alta calidad para el entrenamiento de modelos de lenguaje. Nuestro pipeline de procesamiento implementa filtros de calidad exhaustivos, deduplicación y correcciones de formato de texto, garantizando una calidad consistente en fuentes de texto heterogéneas. Todos los subconjuntos de dominios cuentan con licencias de al menos CC-BY-SA 4.0 o equivalentes, asegurando el cumplimiento legal para el entrenamiento y redistribución de modelos. Por lo tanto, el German Commons aborda la brecha crítica en datos de preentrenamiento en alemán con licencias abiertas y permite el desarrollo de modelos de lenguaje en alemán verdaderamente abiertos. También publicamos código para la construcción del corpus y filtrado de datos adaptado a textos en alemán, haciendo que el German Commons sea completamente reproducible y extensible.
Los modelos de lenguaje con profundidad recurrente, también denominados universales o en bucle cuando se consideran transformadores, se definen por su capacidad para incrementar su procesamiento mediante la repetición de capas. Esfuerzos recientes en preentrenamiento han demostrado que estas arquitecturas pueden escalar a tareas modernas de modelado de lenguaje, mostrando ventajas en tareas de razonamiento. En este trabajo, examinamos la relación entre los modelos de profundidad recurrente y los modelos de lenguaje de difusión. Basándonos en sus similitudes, desarrollamos un nuevo muestreador de forzamiento de difusión para estos modelos con el fin de acelerar la generación. El muestreador avanza decodificando nuevos tokens en cada paso hacia adelante del modelo, mientras que los estados latentes de estos tokens pueden refinarse en paralelo mediante recurrencia. Teóricamente, la generación con nuestro muestreador es estrictamente más expresiva que la generación autoregresiva de referencia utilizando el mismo presupuesto de tiempo en hardware moderno. Además, este muestreador, basado en principios de la literatura de difusión, puede aplicarse directamente a transformadores de profundidad recurrente de 3.5B sin necesidad de ajustes, logrando una aceleración de hasta 5 veces. En consecuencia, nuestros hallazgos no solo proporcionan un mecanismo eficiente para paralelizar el procesamiento adicional en modelos de profundidad recurrente durante la inferencia, sino que también sugieren que dichos modelos pueden ser vistos naturalmente como modelos de lenguaje de difusión continuos, aunque causales, y robustos.
La generalización sistemática y composicional más allá de la distribución de entrenamiento sigue siendo un desafío fundamental en el aprendizaje automático, y un cuello de botella crítico para las habilidades de razonamiento emergentes de los modelos de lenguaje modernos. Este trabajo investiga la generalización fuera de distribución (OOD, por sus siglas en inglés) en redes Transformer utilizando como banco de pruebas una tarea de aritmética modular en grafos computacionales al estilo de GSM8K. Introducimos y exploramos un conjunto de cuatro mecanismos arquitectónicos diseñados para mejorar la generalización OOD: (i) recurrencia adaptativa a la entrada; (ii) supervisión algorítmica; (iii) representaciones latentes ancladas mediante un cuello de botella discreto; y (iv) un mecanismo explícito de corrección de errores. En conjunto, estos mecanismos dan lugar a un enfoque arquitectónico para el razonamiento nativo y escalable en el espacio latente de las redes Transformer, con capacidades robustas de generalización algorítmica. Complementamos estos resultados empíricos con un análisis detallado de interpretabilidad mecanicista que revela cómo estos mecanismos dan lugar a habilidades robustas de generalización OOD.
Los agentes digitales requieren trayectorias de interfaz de usuario (UI) diversas y a gran escala para generalizar en tareas del mundo real, sin embargo, la recopilación de dichos datos es prohibitivamente costosa desde las perspectivas de anotación humana, infraestructura e ingeniería. Con este fin, presentamos UI-Simulator, un paradigma escalable que genera estados y transiciones estructurados de UI para sintetizar trayectorias de entrenamiento a gran escala. Nuestro paradigma integra un simulador de mundo digital para estados de UI diversos, un proceso de despliegue guiado para una exploración coherente y un envoltorio de trayectorias que produce trayectorias de alta calidad y diversidad para el entrenamiento de agentes. Además, proponemos UI-Simulator-Grow, una estrategia de escalado dirigido que permite un escalado más rápido y eficiente en términos de datos al priorizar tareas de alto impacto y sintetizar variantes informativas de trayectorias. Los experimentos en WebArena y AndroidWorld muestran que UI-Simulator rivaliza o supera a los agentes de código abierto entrenados en UIs reales con una robustez significativamente mejor, a pesar de utilizar modelos de enseñanza más débiles. Además, UI-Simulator-Grow iguala el rendimiento de Llama-3-70B-Instruct utilizando solo Llama-3-8B-Instruct como modelo base, destacando el potencial del paradigma de síntesis dirigida para mejorar de manera continua y eficiente a los agentes digitales.
Las lenguas de contacto como el inglés presentan ricas variaciones regionales en forma de dialectos, los cuales son frecuentemente utilizados por hablantes de dialectos al interactuar con modelos generativos. Sin embargo, ¿pueden los modelos generativos multimodales producir contenido de manera efectiva a partir de entradas textuales dialectales? En este trabajo, estudiamos esta cuestión construyendo un nuevo punto de referencia a gran escala que abarca seis dialectos comunes del inglés. Colaboramos con hablantes de dialectos para recopilar y verificar más de 4200 indicaciones únicas y evaluamos 17 modelos generativos de imágenes y videos. Nuestros resultados de evaluación automática y humana muestran que los modelos generativos multimodales de última generación presentan una degradación del rendimiento del 32.26% al 48.17% cuando se utiliza una sola palabra dialectal en la indicación. Métodos comunes de mitigación, como el ajuste fino y la reescritura de indicaciones, solo pueden mejorar el rendimiento dialectal en márgenes pequeños (< 7%), mientras que potencialmente incurren en una degradación significativa del rendimiento en el inglés estándar americano (SAE). Con este fin, diseñamos una estrategia general de mitigación basada en codificadores para modelos generativos multimodales. Nuestro método enseña al modelo a reconocer nuevas características dialectales mientras preserva el rendimiento en SAE. Experimentos en modelos como Stable Diffusion 1.5 muestran que nuestro método es capaz de elevar simultáneamente el rendimiento en cinco dialectos hasta alcanzar niveles comparables con SAE (+34.4%), incurriendo en un costo casi nulo para el rendimiento en SAE.
El preentrenamiento a nivel de repositorio se utiliza comúnmente para permitir que los modelos de lenguaje grandes para código aprovechen el contexto de toda la base de código. Esto mejora su capacidad para generar completaciones de código precisas y conscientes del contexto. En este trabajo, investigamos cómo diferentes estrategias de procesamiento de repositorios afectan el aprendizaje en contexto en OpenCoder, un modelo de 1.500 millones de parámetros. Extendemos su ventana de contexto de 4.096 a 16.384 tokens mediante el entrenamiento con 1.000 millones adicionales de tokens de datos curados a nivel de repositorio. A pesar de depender de un conjunto de datos más pequeño que los modelos competidores (que a menudo utilizan cientos de miles de millones de tokens), nuestro modelo logra un rendimiento comparable en el benchmark Long Code Arena. Encontramos que varias técnicas de procesamiento de repositorios producen resultados igualmente sólidos, siendo la principal ganancia la adaptación a un nuevo parámetro de escalado de incrustación posicional rotatoria (RoPE). Finalmente, demostramos que un enfoque de entrenamiento más simple a nivel de archivo, con la longitud de secuencia original, sigue siendo altamente efectivo, abriendo la investigación en completación de código a nivel de repositorio a entornos con recursos de datos y computación más limitados.
El escalado en tiempo de prueba es una estrategia potente para mejorar el rendimiento de los modelos de lenguaje de gran escala en tareas de razonamiento complejo. Si bien los enfoques de vanguardia suelen emplear verificadores generativos para seleccionar la mejor solución de un conjunto de candidatos, este método incurre en costos computacionales prohibitivos, limitando su practicidad. En este trabajo, centramos nuestra atención en un paradigma más consciente del presupuesto: la verificación discriminativa. Realizamos un análisis empírico exhaustivo y demostramos que, aunque los verificadores discriminativos pueden tener un rendimiento inferior de manera aislada, combinarlos con la autoconsistencia en un enfoque híbrido crea un mecanismo de escalado en tiempo de prueba potente y eficiente. Notablemente, bajo un presupuesto de cómputo fijo, este enfoque híbrido supera a la verificación generativa de vanguardia por un margen significativo: logrando hasta un 15.3\% más de precisión en AIME2025. Nuestros hallazgos establecen que, para aplicaciones prácticas del mundo real, el escalado consciente del presupuesto con verificadores discriminativos no solo es una mejora "gratuita" sobre la autoconsistencia, sino también una alternativa más efectiva y eficiente que las costosas técnicas generativas. El código está disponible en https://github.com/wang-research-lab/verification.
Las posturas interactivas de humanos en proximidad cercana transmiten información contextual rica sobre la dinámica de la interacción. Dadas tales posturas, los humanos pueden inferir intuitivamente el contexto y anticipar posibles dinámicas pasadas y futuras, basándose en fuertes conocimientos previos sobre el comportamiento humano. Inspirados por esta observación, proponemos Ponimator, un marco simple anclado en posturas interactivas proximales para la animación versátil de interacciones. Nuestros datos de entrenamiento consisten en posturas de dos personas en contacto cercano y su contexto temporal circundante, extraídos de conjuntos de datos de interacción capturados mediante motion capture. Aprovechando los conocimientos previos sobre posturas interactivas, Ponimator emplea dos modelos de difusión condicional: (1) un animador de posturas que utiliza el conocimiento temporal para generar secuencias de movimiento dinámico a partir de posturas interactivas, y (2) un generador de posturas que aplica el conocimiento espacial para sintetizar posturas interactivas a partir de una sola postura, texto, o ambos cuando las posturas interactivas no están disponibles. En conjunto, Ponimator admite diversas tareas, incluyendo la animación de interacciones basada en imágenes, la animación de reacciones y la síntesis de interacciones a partir de texto, facilitando la transferencia de conocimiento sobre interacciones desde datos de mocap de alta calidad a escenarios de mundo abierto. Experimentos empíricos en diversos conjuntos de datos y aplicaciones demuestran la universalidad del conocimiento previo sobre posturas y la efectividad y robustez de nuestro marco.
Las leyes de escalamiento han transformado nuestra comprensión de los modelos de lenguaje grandes al vincular métricas iniciales como la pérdida de entropía cruzada con factores de diseño como el tamaño del modelo, los datos de entrenamiento y el cómputo. Sin embargo, estas leyes convencionales no logran capturar el rendimiento en tareas posteriores, donde el contexto juega un papel crítico. En este trabajo, proponemos un marco sencillo e interpretable que modela conjuntamente el rendimiento posterior como una función del cómputo de entrenamiento y el contexto proporcionado. Validamos empíricamente nuestro marco ajustándolo al rendimiento observado en variantes de contexto extendido de Llama-2-7B y Llama-2-13B en 65,500 instancias únicas que abarcan tres tareas: razonamiento aritmético, razonamiento de sentido común y traducción automática. Nuestros resultados demuestran que nuestro marco modela con precisión el rendimiento posterior dentro de la distribución, generaliza a través de tres órdenes de magnitud en el cómputo de entrenamiento y extrapola de manera confiable el rendimiento a medida que aumenta la cantidad de contexto. Estos hallazgos ofrecen valiosas perspectivas sobre la interacción entre el cómputo de entrenamiento y la utilización del contexto, proporcionando orientación para diseñar modelos de lenguaje grandes de contexto largo más eficientes para diversas tareas posteriores. Nuestro código está disponible en https://github.com/wang-research-lab/context-scaling.
Los agentes de "investigación profunda" basados en la web tienen como objetivo resolver tareas complejas de respuesta a preguntas mediante interacciones de largo plazo con herramientas en línea. Estas tareas siguen siendo desafiantes, ya que los modelos de lenguaje subyacentes a menudo no están optimizados para el razonamiento y la exploración de largo alcance. Trabajos previos han propuesto flujos de trabajo para la construcción de conjuntos de datos de ajuste por instrucción, frecuentemente aprovechando grafos de conocimiento. Sin embargo, tales métodos suelen carecer de un control detallado sobre la dificultad y la calidad, generando datos sintéticos que no logran capturar la complejidad necesaria para el razonamiento de largo alcance. Además, muchos estudios confunden los efectos de los datos y el entrenamiento al comparar modelos entrenados bajo diferentes recetas de optimización, lo que dificulta aislar y evaluar la efectividad de los datos en sí mismos. Introducimos una canalización de síntesis de datos de dos vertientes que genera pares de preguntas y respuestas aumentando progresivamente la complejidad de la tarea hasta que un agente web de referencia falla. Este agente de referencia desempeña múltiples roles en este proceso: intenta responder las preguntas, valida la factualidad, verifica respuestas alternativas y aplica filtros. Para evaluar la efectividad de nuestros métodos de síntesis, adoptamos un enfoque de entrenamiento controlado basado en la destilación de agentes web potentes. Los experimentos en múltiples puntos de referencia basados en la web muestran que nuestro conjunto de datos, a pesar de ser más pequeño, permite entrenar agentes web más efectivos que los conjuntos de datos existentes. En particular, nuestros datos exhiben el doble de diversidad en acciones de uso de herramientas, lo que permite que los modelos entrenados con ellos logren un rendimiento superior mientras evitan comportamientos repetitivos de llamadas a herramientas.
El paradigma tradicional de RAG, que generalmente se enfoca en la comprensión de fragmentos de texto relevantes en respuesta a consultas recibidas, restringe inherentemente tanto la profundidad de la internalización del conocimiento como las capacidades de razonamiento. Para abordar esta limitación, nuestra investigación transforma el procesamiento de texto en RAG de un enfoque pasivo de fragmentación a una comprensión proactiva, definiendo este proceso como la extracción de memoria de documentos con el objetivo de simular los procesos cognitivos humanos durante la lectura. Sobre esta base, proponemos el marco de Mezclas de Memorias de Documentos Conscientes del Escenario (MoM, por sus siglas en inglés), diseñado para manejar eficientemente documentos de múltiples dominios y entrenar modelos de lenguaje pequeños (SLMs) para adquirir la capacidad de explorar y construir memorias de documentos de manera proactiva. El MoM instruye inicialmente a modelos de lenguaje grandes (LLMs) para simular a expertos en la generación de esquemas lógicos de documentos, dirigiendo así la fragmentación estructurada y la extracción de contenido central. Emplea un mecanismo de muestreo multipath y evaluación multiperspectiva, diseñando específicamente métricas integrales que representan la claridad de los fragmentos y la completitud de la extracción para seleccionar las memorias de documentos óptimas. Además, para infundir habilidades de lectura más profundas y similares a las humanas durante el entrenamiento de los SLMs, incorporamos una estrategia de razonamiento inverso, que deduce caminos de pensamiento experto refinados a partir de resultados de alta calidad. Finalmente, aprovechando diversas formas de contenido generadas por MoM, desarrollamos un mecanismo de recuperación de memoria de documentos de tres capas, fundamentado en nuestra prueba teórica desde la perspectiva del modelado probabilístico. Los resultados experimentales extensivos en tres dominios distintos demuestran que el marco MoM no solo resuelve los desafíos de fragmentación de texto en los sistemas RAG existentes, proporcionando a los LLMs memorias de documentos semánticamente completas, sino que también allana el camino para que los SLMs logren un procesamiento de texto inteligente centrado en el ser humano.
El modelado persistente de escenas dinámicas para el seguimiento y la síntesis de nuevas vistas sigue siendo un desafío debido a la dificultad de capturar deformaciones precisas mientras se mantiene la eficiencia computacional. Proponemos SCas4D, un marco de optimización en cascada que aprovecha patrones estructurales en el esparcimiento de Gaussianas 3D para escenas dinámicas. La idea clave es que las deformaciones del mundo real a menudo exhiben patrones jerárquicos, donde grupos de Gaussianas comparten transformaciones similares. Al refinar progresivamente las deformaciones desde un nivel grueso de partes hasta un nivel fino de puntos, SCas4D logra la convergencia en menos de 100 iteraciones por marco de tiempo y produce resultados comparables a los métodos existentes con solo una vigésima parte de las iteraciones de entrenamiento. Este enfoque también demuestra su eficacia en tareas de segmentación autosupervisada de objetos articulados, síntesis de nuevas vistas y seguimiento denso de puntos.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se utilizan cada vez más como agentes de interpretación de roles, aunque su capacidad para representar de manera fiel y consistente personajes específicos de distintas versiones —por ejemplo, superhéroes a través de universos cómicos y cinematográficos— sigue siendo poco explorada. Los cánones de superhéroes como Marvel y DC ofrecen un terreno fértil para la prueba: décadas de narrativa han dado lugar a múltiples encarnaciones del mismo personaje con historias, valores y códigos morales distintos. Para estudiar este problema, presentamos Beyond One World, un punto de referencia para la interpretación de roles basada en personajes que abarca 30 héroes icónicos y 90 versiones específicas de sus cánones. El punto de referencia comprende dos tareas: (i) Eventos Canónicos, que evalúa el recuerdo factual de etapas cruciales de la vida, y (ii) Dilemas Morales, que enfrenta a los modelos con escenarios cargados de ética. Calificamos las respuestas en función de la precisión canónica y la fidelidad del razonamiento bajo un marco que separa la deliberación interna ("pensar") de las decisiones externas ("actuar"). Además, proponemos Think-Act Matching, una métrica que cuantifica la alineación entre razones y acciones y sirve como indicador de la confiabilidad del modelo. Los experimentos realizados con modelos orientados y no orientados al razonamiento arrojan tres hallazgos: (1) el prompting de cadena de pensamiento mejora la coherencia narrativa en modelos más débiles, pero puede reducir la precisión canónica en modelos más fuertes; (2) la generalización entre versiones dentro de un mismo personaje sigue siendo un obstáculo importante; y (3) los modelos suelen destacarse en pensar o actuar, pero rara vez en ambas cosas. Beyond One World expone brechas críticas en la consistencia multiversal y la alineación del razonamiento, ofreciendo una evaluación desafiante para los LLMs de interpretación de roles.
La capacidad de los modelos de lenguaje en los sistemas RAG para rechazar selectivamente responder basándose en un contexto defectuoso es crucial para la seguridad, pero sigue siendo un punto de fallo significativo. Nuestro estudio a gran escala revela que incluso los modelos más avanzados tienen dificultades en este escenario, con una precisión de rechazo que cae por debajo del 50% en tareas de múltiples documentos, mientras exhiben una peligrosa sobreconfianza o excesiva precaución. Los puntos de referencia estáticos no logran evaluar de manera confiable esta capacidad, ya que los modelos explican artefactos específicos del conjunto de datos y memorizan instancias de prueba. Introducimos RefusalBench, una metodología generativa que crea programáticamente casos de prueba diagnósticos mediante perturbaciones lingüísticas controladas. Nuestro marco emplea 176 estrategias de perturbación distintas en seis categorías de incertidumbre informativa y tres niveles de intensidad. La evaluación de más de 30 modelos revela patrones sistemáticos de fallo: el rechazo comprende habilidades separables de detección y categorización, y ni la escala ni el razonamiento extendido mejoran el rendimiento. Descubrimos que el rechazo selectivo es una capacidad entrenable y sensible a la alineación, ofreciendo un camino claro para la mejora. Publicamos dos puntos de referencia —RefusalBench-NQ (documento único) y RefusalBench-GaRAGe (múltiples documentos)— y nuestro marco de generación completo para permitir una evaluación continua y dinámica de esta capacidad crítica.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) mitiga limitaciones clave de los Modelos de Lenguaje a Gran Escala (LLMs), como errores fácticos, conocimiento desactualizado y alucinaciones, al recuperar dinámicamente información externa. Trabajos recientes extienden este paradigma a través de sistemas RAG agentivos, donde los LLMs actúan como agentes para planificar, recuperar y razonar de manera iterativa sobre consultas complejas. Sin embargo, estos sistemas aún enfrentan dificultades con preguntas desafiantes de múltiples saltos, y sus capacidades de razonamiento intermedio siguen siendo poco exploradas. Para abordar esto, proponemos RAGCap-Bench, un punto de referencia orientado a capacidades para la evaluación detallada de tareas intermedias en flujos de trabajo RAG agentivos. Analizamos las salidas de sistemas de vanguardia para identificar tareas comunes y las capacidades centrales requeridas para su ejecución, luego construimos una taxonomía de errores típicos de los LLMs para diseñar preguntas de evaluación específicas. Los experimentos muestran que los modelos de "pensamiento lento" con un mejor desempeño en RAGCap logran resultados de extremo a extremo superiores, destacando la validez del punto de referencia y la importancia de mejorar estas capacidades intermedias.
Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) buscan mejorar el razonamiento de múltiples pasos en los Modelos de Lenguaje a Gran Escala (LLMs) mediante la supervisión de pasos intermedios y la identificación de errores. Sin embargo, construir PRMs efectivos sigue siendo un desafío debido a la falta de anotaciones escalables y de alta calidad. Los enfoques existentes dependen de costosas etiquetas humanas, autoevaluaciones basadas en LLMs que son propensas a alucinaciones, o estimaciones de Monte Carlo (MC), que infieren la calidad de los pasos únicamente a partir de los resultados finales y a menudo introducen supervisión ruidosa y desalineada debido a la mala atribución de créditos. Estos problemas resultan en tres limitaciones principales: recompensas ruidosas, baja fidelidad factual y desalineación con los objetivos de razonamiento a nivel de pasos. Para abordar estos desafíos, presentamos GroundedPRM, un marco de supervisión automática de procesos guiado por árboles y consciente de la fidelidad. Para reducir el ruido en las recompensas y permitir una asignación de crédito detallada, construimos rutas de razonamiento estructuradas mediante Búsqueda de Árbol de Monte Carlo (MCTS). Para eliminar la supervisión alucinada, validamos cada paso intermedio utilizando una herramienta externa, proporcionando señales de corrección basadas en la ejecución. Para combinar tanto la validación a nivel de pasos como la evaluación global de resultados, diseñamos un mecanismo híbrido de agregación de recompensas que fusiona la verificación basada en herramientas con la retroalimentación derivada de MCTS. Finalmente, formateamos la señal de recompensa en una estructura generativa mejorada con racionalizaciones para promover la interpretabilidad y la compatibilidad con LLMs ajustados por instrucciones. GroundedPRM se entrena con solo 40K muestras etiquetadas automáticamente, lo que representa apenas el 10% de los datos utilizados por el PRM de mejor rendimiento entrenado con supervisión autoetiquetada. No obstante, logra una mejora relativa de hasta el 26% en el rendimiento promedio en ProcessBench. Cuando se utiliza para búsquedas codiciosas guiadas por recompensas, GroundedPRM supera incluso a los PRMs entrenados con supervisión etiquetada por humanos, ofreciendo un camino escalable y verificable hacia un razonamiento de alta calidad a nivel de procesos.
La decodificación especulativa acelera la inferencia de modelos de lenguaje grandes (LLM) al utilizar un modelo de borrador para anticiparse, pero las ganancias están limitadas por el costo de la generación autoregresiva del borrador: aumentar el tamaño del borrador eleva las tasas de aceptación pero introduce una sobrecarga de latencia adicional que exacerba el equilibrio entre velocidad y precisión. Métodos anteriores (Medusa, Hydra, EAGLE) reducen parcialmente el costo del borrador, pero degradan la aceptación o introducen sobrecargas que limitan la escalabilidad. Presentamos la Decodificación Especulativa en Espejo (Mirror-SD), un algoritmo de inferencia que rompe el equilibrio entre latencia y aceptación. Mirror-SD lanza despliegues completos de ramas a partir de señales de salida temprana en paralelo con el sufijo del modelo objetivo y mapea explícitamente el cálculo a través de aceleradores heterogéneos (GPU y NPU) para aprovechar el paralelismo entre dispositivos. El borrador especula continuaciones futuras para que el objetivo las verifique, mientras que el objetivo simultáneamente especula rutas de corrección para el borrador, convirtiendo la especulación en dos pipelines de ejecución complementarios. Para reducir aún más la latencia del borrador sin debilitar la semántica de aceptación, añadimos transmisión especulativa para que el borrador emita múltiples tokens por paso. Esta estrategia dual de ejecución heterogénea en paralelo más transmisión especulativa de múltiples tokens impulsa la decodificación especulativa hacia su régimen ideal de alta aceptación con baja sobrecarga. En SpecBench con modelos a escala de servidor que van desde 14B hasta 66B parámetros, Mirror-SD ofrece ganancias consistentes de extremo a extremo, logrando aceleraciones de tiempo real de 2.8x a 5.8x en diversas tareas y una mejora relativa promedio del 30% sobre el baseline más fuerte, EAGLE3.