Artículos de investigación en IA seleccionados diariamente con traducciones
La navegación web es un dominio único que puede automatizar muchas tareas repetitivas de la vida real y es desafiante, ya que requiere la toma de decisiones secuenciales a largo plazo que van más allá de las tareas típicas de los modelos de lenguaje multimodal de gran escala (MLLM, por sus siglas en inglés). Sin embargo, hasta ahora han estado ausentes modelos de recompensa especializados para la navegación web que puedan utilizarse tanto durante el entrenamiento como en el momento de la prueba. A pesar de la importancia de la velocidad y la rentabilidad, trabajos previos han utilizado MLLMs como modelos de recompensa, lo que impone limitaciones significativas para su implementación en el mundo real. Para abordar esto, en este trabajo proponemos el primer modelo de recompensa de proceso (PRM, por sus siglas en inglés) llamado Web-Shepherd, que puede evaluar trayectorias de navegación web a nivel de paso. Para lograrlo, primero construimos la Colección WebPRM, un conjunto de datos a gran escala con 40K pares de preferencias a nivel de paso y listas de verificación anotadas que abarcan diversos dominios y niveles de dificultad. A continuación, también presentamos WebRewardBench, el primer punto de referencia de meta-evaluación para evaluar PRMs. En nuestros experimentos, observamos que nuestro Web-Shepherd logra una precisión aproximadamente 30 puntos mejor en comparación con el uso de GPT-4o en WebRewardBench. Además, al probar en WebArena-lite utilizando GPT-4o-mini como política y Web-Shepherd como verificador, obtenemos un rendimiento 10.9 puntos mejor, con un costo 10 veces menor en comparación con el uso de GPT-4o-mini como verificador. Nuestro modelo, conjunto de datos y código están disponibles públicamente en LINK.
Presentamos MMaDA, una nueva clase de modelos fundacionales de difusión multimodal diseñados para lograr un rendimiento superior en diversos dominios, como el razonamiento textual, la comprensión multimodal y la generación de texto a imagen. El enfoque se distingue por tres innovaciones clave: (i) MMaDA adopta una arquitectura de difusión unificada con una formulación probabilística compartida y un diseño agnóstico a la modalidad, eliminando la necesidad de componentes específicos para cada modalidad. Esta arquitectura garantiza una integración y procesamiento sin problemas entre diferentes tipos de datos. (ii) Implementamos una estrategia de ajuste fino de cadena de pensamiento (CoT) mixta y larga que organiza un formato CoT unificado entre modalidades. Al alinear los procesos de razonamiento entre los dominios textual y visual, esta estrategia facilita el entrenamiento de arranque en frío para la etapa final de aprendizaje por refuerzo (RL), mejorando así la capacidad del modelo para manejar tareas complejas desde el principio. (iii) Proponemos UniGRPO, un algoritmo de RL basado en gradientes de política unificado, específicamente adaptado para modelos fundacionales de difusión. Utilizando un modelado de recompensas diversificado, UniGRPO unifica el post-entrenamiento tanto en tareas de razonamiento como de generación, asegurando mejoras consistentes en el rendimiento. Los resultados experimentales demuestran que MMaDA-8B exhibe fuertes capacidades de generalización como un modelo fundacional multimodal unificado. Supera a modelos potentes como LLaMA-3-7B y Qwen2-7B en razonamiento textual, supera a Show-o y SEED-X en comprensión multimodal, y supera a SDXL y Janus en la generación de texto a imagen. Estos logros destacan la efectividad de MMaDA para cerrar la brecha entre el pre-entrenamiento y el post-entrenamiento dentro de arquitecturas de difusión unificadas, proporcionando un marco integral para futuras investigaciones y desarrollos. Hemos liberado nuestro código y modelos entrenados en: https://github.com/Gen-Verse/MMaDA.
Los modelos de lenguaje de gran escala (LLMs) requieren recursos computacionales y de memoria sustanciales, lo que plantea desafíos en su implementación. El entrenamiento consciente de cuantización (QAT) aborda estos desafíos al reducir la precisión del modelo manteniendo su rendimiento. Sin embargo, el comportamiento de escalado del QAT, especialmente en precisión de 4 bits (W4A4), no está bien comprendido. Las leyes de escalado de QAT existentes a menudo ignoran factores clave como el número de tokens de entrenamiento y la granularidad de la cuantización, lo que limita su aplicabilidad. Este artículo propone una ley de escalado unificada para QAT que modela el error de cuantización como una función del tamaño del modelo, el volumen de datos de entrenamiento y el tamaño del grupo de cuantización. A través de 268 experimentos de QAT, demostramos que el error de cuantización disminuye a medida que aumenta el tamaño del modelo, pero aumenta con más tokens de entrenamiento y una granularidad de cuantización más gruesa. Para identificar las fuentes del error de cuantización W4A4, lo descomponemos en componentes de peso y activación. Ambos componentes siguen la tendencia general del error de cuantización W4A4, pero con sensibilidades diferentes. Específicamente, el error de cuantización de peso aumenta más rápidamente con más tokens de entrenamiento. Un análisis adicional muestra que el error de cuantización de activación en la capa FC2, causado por valores atípicos, es el principal cuello de botella del error de cuantización W4A4 en QAT. Al aplicar cuantización de precisión mixta para abordar este cuello de botella, demostramos que los errores de cuantización de peso y activación pueden converger a niveles similares. Además, con más datos de entrenamiento, el error de cuantización de peso eventualmente supera al error de cuantización de activación, lo que sugiere que reducir el error de cuantización de peso también es importante en tales escenarios. Estos hallazgos ofrecen ideas clave para mejorar la investigación y desarrollo en QAT.
Los modelos de incrustación basados en grandes modelos de lenguaje (LLM), que se benefician del preentrenamiento y postentrenamiento a gran escala, han comenzado a superar a los modelos basados en BERT y T5 en tareas generales de incrustación de texto, como la recuperación de documentos. Sin embargo, una limitación fundamental de las incrustaciones de LLM radica en la atención unidireccional utilizada durante el preentrenamiento autoregresivo, lo cual no se alinea con la naturaleza bidireccional de las tareas de incrustación de texto. Con este fin, proponemos adoptar modelos de lenguaje de difusión para incrustaciones de texto, motivados por su arquitectura bidireccional inherente y su reciente éxito en igualar o superar a los LLM, especialmente en tareas de razonamiento. Presentamos el primer estudio sistemático del modelo de incrustación de lenguaje de difusión, que supera al modelo de incrustación basado en LLM en un 20% en la recuperación de documentos largos, un 8% en la recuperación intensiva en razonamiento, un 2% en la recuperación que sigue instrucciones, y logra un rendimiento competitivo en los puntos de referencia tradicionales de incrustación de texto. Nuestro análisis verifica que la atención bidireccional es crucial para codificar el contexto global en textos largos y complejos.
Los métodos tradicionales de anclaje visual se centran principalmente en escenarios de una sola imagen con referencias textuales simples. Sin embargo, extender estos métodos a escenarios del mundo real que involucran instrucciones implícitas y complejas, particularmente en conjunción con múltiples imágenes, presenta desafíos significativos, principalmente debido a la falta de capacidad avanzada de razonamiento en contextos multimodales diversos. En este trabajo, nuestro objetivo es abordar la tarea más práctica de anclaje universal, y proponemos UniVG-R1, un modelo de lenguaje multimodal (MLLM) guiado por razonamiento para anclaje visual universal, que mejora las capacidades de razonamiento mediante aprendizaje por refuerzo (RL) combinado con datos de arranque en frío. Específicamente, primero construimos un conjunto de datos de anclaje de Cadena de Pensamiento (CoT) de alta calidad, anotado con cadenas de razonamiento detalladas, para guiar al modelo hacia rutas de razonamiento correctas mediante ajuste fino supervisado. Posteriormente, realizamos aprendizaje por refuerzo basado en reglas para alentar al modelo a identificar cadenas de razonamiento correctas, incentivando así sus capacidades de razonamiento. Además, identificamos un sesgo de dificultad que surge debido a la prevalencia de muestras fáciles a medida que avanza el entrenamiento con RL, y proponemos una estrategia de ajuste de pesos consciente de la dificultad para fortalecer aún más el rendimiento. Los resultados experimentales demuestran la efectividad de UniVG-R1, que logra un rendimiento de vanguardia en MIG-Bench con una mejora del 9.1% sobre el método anterior. Además, nuestro modelo exhibe una fuerte generalización, logrando una mejora promedio del 23.4% en el rendimiento zero-shot en cuatro benchmarks de anclaje de razonamiento en imágenes y videos. La página del proyecto se puede acceder en https://amap-ml.github.io/UniVG-R1-page/.
La escalabilidad de datos de trayectoria de alta calidad ha sido durante mucho tiempo un cuello de botella crítico para el desarrollo de agentes de uso informático con capacidades similares a las humanas. Presentamos PC Agent-E, un marco de entrenamiento de agentes eficiente que reduce significativamente la dependencia de demostraciones humanas a gran escala. Partiendo de solo 312 trayectorias de uso informático anotadas por humanos, mejoramos aún más la calidad de los datos sintetizando diversas decisiones de acción con Claude 3.7 Sonnet. Entrenado en estas trayectorias enriquecidas, nuestro modelo PC Agent-E logró una notable mejora relativa del 141%, superando al robusto Claude 3.7 Sonnet con pensamiento extendido en WindowsAgentArena-V2, un punto de referencia mejorado que también publicamos. Además, PC Agent-E demuestra una fuerte capacidad de generalización en diferentes sistemas operativos en OSWorld. Nuestros hallazgos sugieren que las capacidades avanzadas de uso informático pueden estimularse a partir de una pequeña cantidad de datos de trayectoria de alta calidad.
Presentamos Toto, un modelo base de pronóstico de series temporales con 151 millones de parámetros. Toto utiliza una arquitectura moderna de solo decodificador, combinada con innovaciones arquitectónicas diseñadas para abordar los desafíos específicos presentes en los datos de series temporales multivariadas de observabilidad. El corpus de preentrenamiento de Toto es una mezcla de datos de observabilidad, conjuntos de datos abiertos y datos sintéticos, y es de 4 a 10 veces más grande que el de los principales modelos base de series temporales. Además, presentamos BOOM, un benchmark a gran escala que consta de 350 millones de observaciones en 2,807 series temporales del mundo real. Tanto para Toto como para BOOM, obtenemos los datos de observabilidad exclusivamente de la telemetría y las métricas internas de observabilidad de Datadog. Evaluaciones exhaustivas demuestran que Toto alcanza un rendimiento de vanguardia tanto en BOOM como en benchmarks establecidos de pronóstico de series temporales de propósito general. Los pesos del modelo de Toto, el código de inferencia y los scripts de evaluación, así como los datos y el código de evaluación de BOOM, están disponibles como código abierto bajo la Licencia Apache 2.0 en https://huggingface.co/Datadog/Toto-Open-Base-1.0 y https://github.com/DataDog/toto.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han demostrado capacidades notables para resolver problemas complejos mediante el aprendizaje por refuerzo (RL, Reinforcement Learning), particularmente al generar trazas de razonamiento extensas. Sin embargo, estas salidas prolongadas suelen presentar una redundancia sustancial, lo que limita la eficiencia de los LRMs. En este artículo, investigamos enfoques basados en RL para promover la eficiencia en el razonamiento. Específicamente, primero presentamos un marco unificado que formula diversos métodos de razonamiento eficiente a través de la perspectiva de la configuración de recompensas basada en la longitud. Basándonos en esta perspectiva, proponemos un nuevo método de configuración de recompensas basado en la longitud mediante una función escalonada (LASER, Length-bAsed StEp Reward shaping), que utiliza una función escalonada como recompensa, controlada por una longitud objetivo. LASER supera a métodos anteriores, logrando un equilibrio Pareto-óptimo superior entre rendimiento y eficiencia. A continuación, extendemos aún más LASER basándonos en dos intuiciones clave: (1) El comportamiento de razonamiento del modelo evoluciona durante el entrenamiento, lo que requiere especificaciones de recompensa que también sean adaptativas y dinámicas; (2) En lugar de fomentar uniformemente cadenas de pensamiento (CoT, Chains of Thought) más cortas o más largas, postulamos que la configuración de recompensas basada en la longitud debe ser consciente de la dificultad, es decir, debería penalizar más las CoT extensas para consultas fáciles. Se espera que este enfoque facilite una combinación de pensamiento rápido y lento, lo que conduciría a un mejor equilibrio general. El método resultante se denomina LASER-D (Dinámico y Consciente de la Dificultad). Los experimentos en DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B y DeepSeek-R1-Distill-Qwen-32B muestran que nuestro enfoque mejora significativamente tanto el rendimiento del razonamiento como la eficiencia en la longitud de las respuestas. Por ejemplo, LASER-D y su variante logran una mejora de +6.1 en AIME2024 mientras reducen el uso de tokens en un 63%. Un análisis adicional revela que nuestra compresión basada en RL produce patrones de razonamiento más concisos con menos "autorreflexiones" redundantes. Los recursos están disponibles en https://github.com/hkust-nlp/Laser.
Los modelos del mundo, que predicen transiciones basadas en la observación de historiales y secuencias de acciones, han mostrado un gran potencial para mejorar la eficiencia de los datos en la toma de decisiones secuenciales. Sin embargo, los modelos del mundo existentes a menudo requieren un entrenamiento extenso específico del dominio y aún producen predicciones de baja fidelidad y poco detalladas, lo que limita su aplicabilidad en entornos complejos. En contraste, los modelos de difusión de video entrenados en grandes conjuntos de datos a escala de internet han demostrado capacidades impresionantes para generar videos de alta calidad que capturan dinámicas diversas del mundo real. En este trabajo, presentamos Vid2World, un enfoque general para aprovechar y transferir modelos de difusión de video preentrenados a modelos del mundo interactivos. Para cerrar la brecha, Vid2World realiza la causalización de un modelo de difusión de video preentrenado mediante la adaptación de su arquitectura y objetivo de entrenamiento para permitir la generación autoregresiva. Además, introduce un mecanismo de guía de acciones causales para mejorar la controlabilidad de las acciones en el modelo del mundo interactivo resultante. Experimentos extensos en dominios de manipulación robótica y simulación de juegos muestran que nuestro método ofrece un enfoque escalable y efectivo para reutilizar modelos de difusión de video altamente capacitados como modelos del mundo interactivos.
La adquisición de escenas 3D detalladas generalmente requiere equipos costosos, datos de múltiples vistas o un modelado laborioso. Por lo tanto, una alternativa ligera, que genera escenas 3D complejas a partir de una única imagen desde una vista superior, desempeña un papel esencial en aplicaciones del mundo real. Si bien los modelos generativos 3D recientes han logrado resultados notables a nivel de objetos, su extensión a la generación de escenas completas a menudo resulta en geometría inconsistente, alucinaciones de diseño y mallas de baja calidad. En este trabajo, presentamos 3DTown, un marco sin entrenamiento diseñado para sintetizar escenas 3D realistas y coherentes a partir de una única vista superior. Nuestro método se basa en dos principios: generación basada en regiones para mejorar la alineación y resolución de imagen a 3D, y inpainting 3D espacialmente consciente para garantizar la coherencia global de la escena y la generación de geometría de alta calidad. Específicamente, descomponemos la imagen de entrada en regiones superpuestas y generamos cada una utilizando un generador de objetos 3D preentrenado, seguido de un proceso de inpainting con flujo rectificado enmascarado que rellena la geometría faltante mientras mantiene la continuidad estructural. Este diseño modular nos permite superar los cuellos de botella de resolución y preservar la estructura espacial sin requerir supervisión 3D o ajustes finos. Experimentos extensos en diversas escenas muestran que 3DTown supera a los métodos de referencia más avanzados, incluyendo Trellis, Hunyuan3D-2 y TripoSG, en términos de calidad de geometría, coherencia espacial y fidelidad de texturas. Nuestros resultados demuestran que la generación de ciudades 3D de alta calidad es alcanzable a partir de una única imagen utilizando un enfoque basado en principios y sin entrenamiento.
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés) logran un rendimiento notable mediante cadenas de razonamiento extensas, pero a menudo incurren en un exceso de sobrecarga computacional debido a razonamientos redundantes, especialmente en tareas simples. En este trabajo, cuantificamos sistemáticamente los límites superiores de los LRMs en los modos de Pensamiento Largo y Sin Pensamiento, y descubrimos el fenómeno del "Mecanismo de Autorecuperación Interna", donde los modelos complementan implícitamente el razonamiento durante la generación de respuestas. Basándonos en esta observación, proponemos Razonamiento de Autorecuperación Adaptativa (ASRR, por sus siglas en inglés), un marco que suprime el razonamiento innecesario y permite la recuperación implícita. Al introducir una regulación de recompensa de longitud basada en la precisión, ASRR asigna adaptativamente el esfuerzo de razonamiento según la dificultad del problema, logrando alta eficiencia con un sacrificio mínimo de rendimiento. Los experimentos en múltiples benchmarks y modelos muestran que, en comparación con GRPO, ASRR reduce el presupuesto de razonamiento hasta en un 32.5% (1.5B) y un 25.7% (7B) con una pérdida mínima de precisión (1.2% y 0.6% en pass@1), y aumenta significativamente las tasas de inocuidad en benchmarks de seguridad (hasta +21.7%). Nuestros resultados destacan el potencial de ASRR para habilitar un razonamiento eficiente, adaptativo y más seguro en los LRMs.
Jugar videojuegos requiere percepción, memoria y planificación, exactamente las facultades que se espera que dominen los agentes modernos de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés). Estudiamos los principales desafíos en el uso de videojuegos populares para evaluar los LLM modernos y encontramos que introducir directamente los LLM en los juegos no permite una evaluación efectiva, por tres razones: percepción visual frágil, sensibilidad a los prompts y posible contaminación de datos. Introducimos lmgame-Bench para convertir los juegos en evaluaciones confiables. lmgame-Bench incluye un conjunto de juegos de plataformas, puzles y narrativos entregados a través de una API unificada estilo Gym, junto con andamiajes ligeros de percepción y memoria, y está diseñado para estabilizar la variación en los prompts y eliminar la contaminación. En 13 modelos líderes, demostramos que lmgame-Bench es desafiante, pero aún así distingue bien los modelos. El análisis de correlación muestra que cada juego explora una combinación única de capacidades que a menudo se prueban de forma aislada en otros contextos. Más interesante aún, realizar aprendizaje por refuerzo en un solo juego de lmgame-Bench se transfiere tanto a juegos no vistos como a tareas de planificación externas. Nuestro código de evaluación está disponible en https://github.com/lmgame-org/GamingAgent/lmgame-bench.
Los seres humanos utilizan de manera natural múltiples modalidades de razonamiento para aprender y resolver problemas lógicos, es decir, diferentes formatos de representación como el lenguaje natural, el código y la lógica simbólica. En contraste, la mayoría de los enfoques basados en modelos de lenguaje grandes (LLM, por sus siglas en inglés) operan con una única modalidad de razonamiento durante el entrenamiento, típicamente el lenguaje natural. Aunque algunos métodos han explorado la selección o aumento de modalidades en el momento de la inferencia, el proceso de entrenamiento sigue siendo ciego a las modalidades, lo que limita la sinergia entre ellas. Para llenar este vacío, proponemos Mixture-of-Thought (MoT), un marco que permite a los LLM razonar a través de tres modalidades complementarias: lenguaje natural, código y una nueva modalidad simbólica, la tabla de verdad, que enumera sistemáticamente casos lógicos y mitiga parcialmente modos de fallo clave en el razonamiento basado en lenguaje natural. MoT adopta un diseño de dos fases: (1) entrenamiento auto-evolutivo de MoT, que aprende conjuntamente a partir de racionalidades auto-generadas y filtradas en todas las modalidades; y (2) inferencia de MoT, que aprovecha plenamente la sinergia de las tres modalidades para producir mejores predicciones. Los experimentos en benchmarks de razonamiento lógico, como FOLIO y ProofWriter, demuestran que nuestro marco MoT supera consistentemente y de manera significativa a los fuertes baselines de LLM con enfoques de cadena de pensamiento de una sola modalidad, logrando una mejora promedio de hasta +11.7 puntos porcentuales en precisión. Análisis adicionales muestran que nuestro marco MoT beneficia tanto las etapas de entrenamiento como de inferencia; que es particularmente efectivo en problemas de razonamiento lógico más difíciles; y que las diferentes modalidades aportan fortalezas complementarias, con el razonamiento basado en tablas de verdad ayudando a superar cuellos de botella clave en la inferencia basada en lenguaje natural.
Los grandes modelos de razonamiento, como OpenAI o1 y DeepSeek-R1, han logrado un rendimiento notable en el ámbito del razonamiento. Un componente clave de su entrenamiento es la incorporación de recompensas verificables dentro del aprendizaje por refuerzo (RL, por sus siglas en inglés). Sin embargo, los puntos de referencia de recompensa existentes no evalúan los sistemas de recompensa basados en referencias, lo que deja a los investigadores con una comprensión limitada de la precisión de los verificadores utilizados en RL. En este artículo, presentamos dos puntos de referencia, VerifyBench y VerifyBench-Hard, diseñados para evaluar el rendimiento de los sistemas de recompensa basados en referencias. Estos puntos de referencia se construyen mediante una recopilación y curación meticulosa de datos, seguida de una cuidadosa anotación humana para garantizar una alta calidad. Los modelos actuales aún muestran un margen considerable de mejora tanto en VerifyBench como en VerifyBench-Hard, especialmente los modelos de menor escala. Además, realizamos un análisis exhaustivo y detallado de los resultados de la evaluación, ofreciendo ideas para comprender y desarrollar sistemas de recompensa basados en referencias. Nuestros puntos de referencia propuestos sirven como herramientas efectivas para guiar el desarrollo de la precisión de los verificadores y las capacidades de razonamiento de los modelos entrenados mediante RL en tareas de razonamiento.
La cognición humana generalmente implica pensar a través de conceptos abstractos y fluidos en lugar de utilizar estrictamente tokens lingüísticos discretos. Sin embargo, los modelos de razonamiento actuales están limitados a razonar dentro de los límites del lenguaje humano, procesando embeddings de tokens discretos que representan puntos fijos en el espacio semántico. Esta restricción discreta limita el poder expresivo y el potencial máximo de dichos modelos de razonamiento, lo que a menudo provoca una exploración incompleta de las rutas de razonamiento, ya que los métodos estándar de Cadena de Pensamiento (CoT) dependen de muestrear un token por paso. En este trabajo, presentamos Soft Thinking, un método sin entrenamiento que emula el razonamiento "suave" similar al humano generando tokens de conceptos abstractos y suaves en un espacio de conceptos continuo. Estos tokens de conceptos se crean mediante la mezcla ponderada por probabilidad de embeddings de tokens, que forman el espacio de conceptos continuo, permitiendo transiciones suaves y representaciones más ricas que trascienden los límites discretos tradicionales. En esencia, cada token de concepto generado encapsula múltiples significados de tokens discretos relacionados, explorando implícitamente varias rutas de razonamiento para converger efectivamente hacia la respuesta correcta. Las evaluaciones empíricas en diversos benchmarks matemáticos y de codificación demuestran consistentemente la efectividad y eficiencia de Soft Thinking, mejorando la precisión pass@1 hasta en 2.48 puntos mientras se reduce el uso de tokens hasta en un 22.4% en comparación con CoT estándar. El análisis cualitativo revela además que las salidas de Soft Thinking siguen siendo altamente interpretables y legibles, destacando el potencial de Soft Thinking para romper el cuello de botella inherente al razonamiento basado en lenguaje discreto. El código está disponible en https://github.com/eric-ai-lab/Soft-Thinking.
Los modelos de lenguaje basados en difusión (DLMs, por sus siglas en inglés) han sido considerados como un competidor prometedor frente a los modelos de lenguaje autoregresivos. Sin embargo, los modelos de lenguaje basados en difusión han estado limitados durante mucho tiempo por una inferencia lenta. Un desafío central es que su arquitectura no autoregresiva y su atención bidireccional impiden el uso de la caché de clave-valor que acelera la decodificación. Abordamos este cuello de botella proponiendo un mecanismo similar a la caché KV, denominado KV-Cache retrasado, para el proceso de eliminación de ruido en los DLMs. Nuestro enfoque se basa en la observación de que diferentes tokens tienen dinámicas de representación distintas a lo largo del proceso de difusión. En consecuencia, proponemos una estrategia de almacenamiento en caché retrasada y condicionada para los estados de clave y valor. Diseñamos dos variantes complementarias para almacenar en caché clave y valor paso a paso: (1) dKV-Cache-Decode, que proporciona una aceleración casi sin pérdidas e incluso mejora el rendimiento en secuencias largas, sugiriendo que los DLMs existentes podrían estar subutilizando la información contextual durante la inferencia. (2) dKV-Cache-Greedy, que implementa un almacenamiento en caché más agresivo con una vida útil reducida, logrando mayores aceleraciones con complejidad temporal cuadrática a costa de cierta degradación en el rendimiento. En última instancia, dKV-Cache logra una aceleración de 2 a 10 veces en la inferencia, reduciendo significativamente la brecha entre los modelos autoregresivos (ARs) y los DLMs. Evaluamos nuestro dKV-Cache en varios benchmarks, demostrando aceleraciones en tareas de comprensión general del lenguaje, matemáticas y generación de código. Los experimentos muestran que la caché también puede utilizarse en DLMs, incluso de manera libre de entrenamiento a partir de los DLMs actuales.
Los modelos actuales de generación de texto a imagen (T2I) obtienen resultados prometedores, pero fallan en escenarios donde el conocimiento implícito en el texto es incierto. Por ejemplo, un modelo T2I lanzado en febrero tendría dificultades para generar un póster adecuado para una película que se estrena en abril, porque los diseños y estilos de los personajes son inciertos para el modelo. Para resolver este problema, proponemos un marco de generación de texto a imagen aumentado con Internet (IA-T2I) que permite a los modelos T2I aclarar dicho conocimiento incierto proporcionándoles imágenes de referencia. Específicamente, se diseña un módulo de recuperación activa para determinar si se necesita una imagen de referencia basándose en el texto proporcionado; se introduce un módulo de selección jerárquica de imágenes para encontrar la imagen más adecuada devuelta por un motor de búsqueda de imágenes y mejorar el modelo T2I; y se presenta un mecanismo de autorreflexión para evaluar y refinar continuamente la imagen generada, asegurando una alineación fiel con el texto. Para evaluar el rendimiento del marco propuesto, recopilamos un conjunto de datos llamado Img-Ref-T2I, donde los textos incluyen tres tipos de conocimiento incierto: (1) conocido pero raro, (2) desconocido y (3) ambiguo. Además, elaboramos cuidadosamente un texto complejo para guiar a GPT-4o en la evaluación de preferencias, que ha demostrado tener una precisión similar a la evaluación humana de preferencias. Los resultados experimentales demuestran la efectividad de nuestro marco, superando a GPT-4o en aproximadamente un 30% en la evaluación humana.
La generación aumentada por recuperación basada en grafos de conocimiento busca mitigar las alucinaciones en los Modelos de Lenguaje de Gran Escala (LLMs) causadas por conocimiento insuficiente o desactualizado. Sin embargo, los métodos existentes a menudo no logran explotar completamente el conocimiento previo incrustado en los grafos de conocimiento (KGs), particularmente su información estructural y las restricciones explícitas o implícitas. La primera puede mejorar la fidelidad del razonamiento de los LLMs, mientras que la segunda puede aumentar la confiabilidad en la generación de respuestas. Motivados por esto, proponemos un marco de razonamiento confiable, denominado Deliberación sobre Conocimientos Previos (DP), que utiliza de manera suficiente los conocimientos previos contenidos en los KGs. Específicamente, DP adopta una estrategia progresiva de destilación de conocimiento que integra los conocimientos estructurales previos en los LLMs mediante una combinación de ajuste fino supervisado y optimización Kahneman-Tversky, mejorando así la fidelidad en la generación de rutas de relaciones. Además, nuestro marco emplea una estrategia de razonamiento-introspección, que guía a los LLMs a realizar una verificación refinada del razonamiento basada en las restricciones previas extraídas, asegurando la confiabilidad en la generación de respuestas. Experimentos extensos en tres conjuntos de datos de referencia demuestran que DP alcanza un nuevo rendimiento de vanguardia, especialmente una mejora del 13% en Hit@1 en el conjunto de datos ComplexWebQuestions, y genera respuestas altamente confiables. También realizamos diversos análisis para verificar su flexibilidad y practicidad. El código está disponible en https://github.com/reml-group/Deliberation-on-Priors.
El ajuste fino (fine-tuning) de modelos de lenguaje de gran escala (LLMs) de código abierto con datos propietarios es ahora una práctica estándar para los desarrolladores de aplicaciones específicas con el fin de obtener LLMs adaptados a tareas concretas. Sorprendentemente, revelamos un nuevo y preocupante riesgo asociado a esta práctica: el creador de los LLMs de código abierto puede posteriormente extraer los datos privados utilizados en el ajuste fino mediante un simple entrenamiento con puerta trasera (backdoor), requiriendo únicamente acceso de caja negra al modelo ajustado. Nuestros experimentos exhaustivos, realizados en 4 modelos de código abierto ampliamente utilizados con parámetros que van desde 3B hasta 32B y 2 conjuntos de datos específicos, sugieren que el rendimiento de la extracción puede ser sorprendentemente alto: en entornos prácticos, hasta el 76.3% de los datos de ajuste fino (consultas) de un total de 5,000 muestras pueden ser extraídos perfectamente, y la tasa de éxito puede aumentar al 94.9% en condiciones más ideales. También exploramos una estrategia de defensa basada en detección, pero encontramos que puede ser eludida con un ataque mejorado. En general, destacamos la urgencia de este riesgo recién identificado de violación de datos en el ajuste fino, y esperamos que más investigaciones posteriores impulsen el progreso en la mitigación de este riesgo preocupante. El código y los datos utilizados en nuestros experimentos están disponibles en https://github.com/thu-coai/Backdoor-Data-Extraction.
Los modelos del mundo predicen transiciones de estado en respuesta a acciones y se desarrollan cada vez más en diversas modalidades. Sin embargo, los objetivos de entrenamiento estándar, como la estimación de máxima verosimilitud (MLE), a menudo no se alinean con los objetivos específicos de tareas de los modelos del mundo, es decir, métricas de predicción de transiciones como precisión o calidad perceptual. En este artículo, presentamos RLVR-World, un marco unificado que aprovecha el aprendizaje por refuerzo con recompensas verificables (RLVR) para optimizar directamente los modelos del mundo para dichas métricas. A pesar de formular el modelado del mundo como predicción autorregresiva de secuencias tokenizadas, RLVR-World evalúa métricas de predicciones decodificadas como recompensas verificables. Demostramos mejoras sustanciales en el rendimiento tanto en modelos del mundo basados en lenguaje como en video, en dominios que incluyen juegos de texto, navegación web y manipulación robótica. Nuestro trabajo indica que, más allá de los avances recientes en modelos de lenguaje de razonamiento, RLVR ofrece un paradigma prometedor de posentrenamiento para mejorar la utilidad de los modelos generativos de manera más amplia.
Los Modelos de Razonamiento de Gran Escala (LRMs, por sus siglas en inglés) han logrado un éxito notable en tareas que requieren un razonamiento intensivo, como las matemáticas y la programación. Sin embargo, sus capacidades mejoradas de razonamiento no necesariamente se traducen en un mejor desempeño en términos de seguridad, y en algunos casos, incluso pueden degradarlo. Esto plantea una pregunta de investigación importante: ¿cómo podemos mejorar la seguridad de los LRMs? En este artículo, presentamos un estudio empírico exhaustivo sobre cómo mejorar la seguridad de los LRMs mediante el Ajuste Fino Supervisado (SFT, por sus siglas en inglés). Nuestra investigación comienza con una observación inesperada: la destilación directa de respuestas seguras a partir de DeepSeek-R1 no logra mejorar significativamente la seguridad. Analizamos este fenómeno e identificamos tres patrones clave de fallo que contribuyen a ello. Luego, demostramos que abordar explícitamente estos problemas durante el proceso de destilación de datos puede conducir a mejoras sustanciales en la seguridad. A continuación, exploramos si un proceso de razonamiento largo y complejo es necesario para lograr la seguridad. Curiosamente, encontramos que simplemente utilizar un proceso de razonamiento corto o basado en plantillas puede alcanzar un desempeño de seguridad comparable, y es significativamente más fácil de aprender para los modelos que cadenas de razonamiento más intrincadas. Estos hallazgos nos llevan a reflexionar más profundamente sobre el papel del razonamiento en la garantía de la seguridad. Finalmente, descubrimos que mezclar datos de razonamiento matemático durante el ajuste fino de seguridad es útil para equilibrar la seguridad y la sobre-negación. En general, esperamos que nuestro estudio empírico pueda proporcionar una visión más holística sobre cómo mejorar la seguridad de los LRMs. El código y los datos utilizados en nuestros experimentos se han publicado en https://github.com/thu-coai/LRM-Safety-Study.
Diffusion Transformer (DiT), un modelo de difusión prometedor para la generación visual, demuestra un rendimiento impresionante pero incurre en un costo computacional significativo. Curiosamente, el análisis de modelos DiT preentrenados revela que la autoatención global a menudo es redundante, capturando predominantemente patrones locales, lo que resalta el potencial de alternativas más eficientes. En este artículo, reconsideramos la convolución como un bloque de construcción alternativo para construir modelos de difusión eficientes y expresivos. Sin embargo, reemplazar de manera ingenua la autoatención con convolución generalmente resulta en un rendimiento degradado. Nuestras investigaciones atribuyen esta brecha de rendimiento a la mayor redundancia de canales en ConvNets en comparación con Transformers. Para resolver esto, introducimos un mecanismo de atención de canales compacto que promueve la activación de canales más diversos, mejorando así la diversidad de características. Esto da lugar a Diffusion ConvNet (DiCo), una familia de modelos de difusión construidos completamente a partir de módulos estándar de ConvNet, que ofrecen un fuerte rendimiento generativo con ganancias significativas en eficiencia. En los puntos de referencia condicionales de clase de ImageNet, DiCo supera a los modelos de difusión anteriores tanto en calidad de imagen como en velocidad de generación. Notablemente, DiCo-XL logra un FID de 2.05 a una resolución de 256x256 y 2.53 a 512x512, con una aceleración de 2.7x y 3.1x sobre DiT-XL/2, respectivamente. Además, nuestro modelo más grande, DiCo-H, escalado a 1B parámetros, alcanza un FID de 1.90 en ImageNet 256x256, sin ninguna supervisión adicional durante el entrenamiento. Código: https://github.com/shallowdream204/DiCo.
Los recientes avances en los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) han demostrado capacidades impresionantes en razonamiento matemático y lógico. Sin embargo, los LRMs actuales rara vez admiten ignorancia o responden con "No lo sé". En su lugar, a menudo producen respuestas incorrectas mientras muestran una confianza excesiva, lo que genera preocupaciones sobre su fiabilidad factual. En este trabajo, identificamos dos patrones patológicos de razonamiento caracterizados por el sobreanálisis que contribuyen a respuestas incorrectas y demasiado confiadas: la conjetura de último minuto y la espiral de segundas opiniones. Para abordar estos problemas, proponemos BARREL, un marco novedoso que promueve un razonamiento factual conciso y consciente de los límites. Nuestros experimentos muestran que el entrenamiento con BARREL aumenta la fiabilidad de DeepSeek-R1-Distill-Llama-8B del 39.33% al 61.48%, manteniendo una precisión comparable a los modelos ajustados con datos de razonamiento generados por R1. Estos resultados demuestran que nuestro estudio piloto es inspirador para construir LRMs de Sistema 2 más fiables y factuales.
Los sistemas de búsqueda conversacional requieren un manejo efectivo de consultas dependientes del contexto que a menudo contienen ambigüedad, omisión y correferencia. La Reformulación de Consultas Conversacionales (CQR, por sus siglas en inglés) aborda este desafío transformando estas consultas en formas autónomas adecuadas para recuperadores estándar. Sin embargo, los enfoques existentes de CQR presentan dos limitaciones críticas: una alta dependencia de supervisión externa costosa, ya sea mediante anotaciones humanas o modelos de lenguaje grandes, y una alineación insuficiente entre el modelo de reescritura y los recuperadores posteriores. Presentamos ConvSearch-R1, el primer marco autónomo que elimina por completo la dependencia de supervisión externa para la reescritura, utilizando aprendizaje por refuerzo para optimizar la reformulación directamente a través de señales de recuperación. Nuestro enfoque novedoso de dos etapas combina un Calentamiento de Política Autónoma para abordar el problema de arranque en frío mediante auto-distilación guiada por recuperación, seguido de Aprendizaje por Refuerzo Guiado por Recuperación con un mecanismo de recompensa especialmente diseñado que incentiva el ranking, abordando así el problema de dispersión en las métricas de recuperación convencionales. Experimentos exhaustivos en los conjuntos de datos TopiOCQA y QReCC demuestran que ConvSearch-R1 supera significativamente a los métodos anteriores de vanguardia, logrando una mejora de más del 10% en el desafiante conjunto de datos TopiOCQA mientras utiliza modelos más pequeños de 3B parámetros sin ninguna supervisión externa.
En la generación autoregresiva estándar, un LLM predice la distribución del siguiente token, muestrea un token discreto y luego descarta la distribución, pasando solo el token muestreado como nueva entrada. Para preservar la rica información de esta distribución, proponemos Mezcla de Entradas (MoI), un método sin entrenamiento para la generación autoregresiva. Después de generar un token siguiendo el paradigma estándar, construimos una nueva entrada que combina el token generado con la distribución de tokens previamente descartada. Específicamente, empleamos un método de estimación bayesiana que trata la distribución de tokens como el prior, el token muestreado como la observación, y reemplaza el vector one-hot convencional con la expectativa posterior continua como la nueva entrada del modelo. MoI permite que el modelo mantenga una representación interna más rica durante todo el proceso de generación, lo que resulta en una mejora en la calidad del texto y las capacidades de razonamiento. En tareas de razonamiento matemático, generación de código y preguntas de nivel de doctorado, MoI mejora consistentemente el rendimiento en múltiples modelos, incluyendo QwQ-32B, Nemotron-Super-49B, Gemma-3-27B y DAPO-Qwen-32B, sin entrenamiento adicional y con un costo computacional insignificante.
El sesgo en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) socava significativamente su fiabilidad y equidad. Nos enfocamos en una forma común de sesgo: cuando dos conceptos de referencia en el espacio conceptual del modelo, como las polaridades de sentimiento (por ejemplo, "positivo" y "negativo"), están correlacionados de manera asimétrica con un tercer concepto objetivo, como un aspecto de revisión, el modelo exhibe un sesgo no intencionado. Por ejemplo, la comprensión de "comida" no debería inclinarse hacia ningún sentimiento particular. Los métodos existentes de evaluación de sesgos analizan las diferencias de comportamiento de los LLMs mediante la construcción de datos etiquetados para diferentes grupos sociales y midiendo las respuestas del modelo entre ellos, un proceso que requiere un esfuerzo humano considerable y captura solo un conjunto limitado de conceptos sociales. Para superar estas limitaciones, proponemos BiasLens, un marco de análisis de sesgos sin necesidad de conjuntos de prueba basado en la estructura del espacio vectorial del modelo. BiasLens combina Vectores de Activación de Conceptos (CAVs) con Autoencoders Dispersos (SAEs) para extraer representaciones conceptuales interpretables, y cuantifica el sesgo midiendo la variación en la similitud representacional entre el concepto objetivo y cada uno de los conceptos de referencia. Incluso sin datos etiquetados, BiasLens muestra una fuerte concordancia con las métricas tradicionales de evaluación de sesgos (correlación de Spearman r > 0.85). Además, BiasLens revela formas de sesgo que son difíciles de detectar utilizando métodos existentes. Por ejemplo, en escenarios clínicos simulados, el estado de seguro de un paciente puede hacer que el LLM produzca evaluaciones diagnósticas sesgadas. En general, BiasLens ofrece un paradigma escalable, interpretable y eficiente para la detección de sesgos, allanando el camino para mejorar la equidad y la transparencia en los LLMs.
Los potenciales interatómicos y campos de fuerza basados en aprendizaje automático dependen críticamente de estructuras atómicas precisas, sin embargo, tales datos son escasos debido a la disponibilidad limitada de cristales resueltos experimentalmente. Aunque la microscopía electrónica de resolución atómica ofrece una fuente potencial de datos estructurales, la conversión de estas imágenes en formatos listos para simulación sigue siendo laboriosa y propensa a errores, creando un cuello de botella para el entrenamiento y validación de modelos. Presentamos AutoMat, una pipeline integral asistida por agentes que transforma automáticamente imágenes de microscopía electrónica de transmisión por barrido (STEM) en estructuras cristalinas atómicas y predice sus propiedades físicas. AutoMat combina eliminación de ruido adaptativa a patrones, recuperación de plantillas guiada por física, reconstrucción atómica consciente de la simetría, relajación rápida y predicción de propiedades mediante MatterSim, y orquestación coordinada en todas las etapas. Proponemos el primer STEM2Mat-Bench dedicado a esta tarea y evaluamos el rendimiento utilizando el error cuadrático medio de la red (RMSD), el error absoluto medio de la energía de formación (MAE) y la tasa de éxito en la coincidencia de estructuras. Al orquestar llamadas a herramientas externas, AutoMat permite que un modelo de lenguaje grande (LLM) basado únicamente en texto supere a los modelos de lenguaje-visión en este dominio, logrando un razonamiento de bucle cerrado a lo largo de la pipeline. En experimentos a gran escala con más de 450 muestras de estructuras, AutoMat supera sustancialmente a los modelos de lenguaje grandes multimodales y herramientas existentes. Estos resultados validan tanto a AutoMat como a STEM2Mat-Bench, marcando un paso clave hacia la conexión entre la microscopía y la simulación atomística en la ciencia de materiales. El código y el conjunto de datos están disponibles públicamente en https://github.com/yyt-2378/AutoMat y https://huggingface.co/datasets/yaotianvector/STEM2Mat.
La minimización de entropía (EM, por sus siglas en inglés) entrena al modelo para concentrar aún más la masa de probabilidad en sus salidas más confiadas. Demostramos que este objetivo simple por sí solo, sin ningún dato etiquetado, puede mejorar sustancialmente el rendimiento de los modelos de lenguaje grandes (LLMs) en tareas desafiantes de matemáticas, física y programación. Exploramos tres enfoques: (1) EM-FT minimiza la entropía a nivel de token de manera similar al ajuste fino por instrucciones, pero en salidas no etiquetadas generadas por el modelo; (2) EM-RL: aprendizaje por refuerzo con la entropía negativa como única recompensa a maximizar; (3) EM-INF: ajuste de logits en tiempo de inferencia para reducir la entropía sin necesidad de datos de entrenamiento ni actualizaciones de parámetros. En Qwen-7B, EM-RL, sin ningún dato etiquetado, logra un rendimiento comparable o superior al de líneas base fuertes de aprendizaje por refuerzo como GRPO y RLOO, que se entrenan con 60K ejemplos etiquetados. Además, EM-INF permite que Qwen-32B iguale o supere el rendimiento de modelos propietarios como GPT-4o, Claude 3 Opus y Gemini 1.5 Pro en el benchmark desafiante de SciCode, siendo 3 veces más eficiente que la autocoherencia y el refinamiento secuencial. Nuestros hallazgos revelan que muchos LLMs preentrenados poseen capacidades de razonamiento previamente subestimadas que pueden ser efectivamente elicitadas únicamente mediante la minimización de entropía, sin necesidad de datos etiquetados ni siquiera actualizaciones de parámetros.
Los modelos de difusión han surgido como herramientas generativas poderosas en diversos dominios, sin embargo, adaptar modelos preentrenados para exhibir propiedades específicas deseables sigue siendo un desafío. Si bien el aprendizaje por refuerzo (RL) ofrece una solución prometedora, los métodos actuales luchan por lograr simultáneamente un ajuste fino estable y eficiente, además de soportar recompensas no diferenciables. Además, su dependencia de recompensas dispersas proporciona una supervisión inadecuada durante los pasos intermedios, lo que a menudo resulta en una calidad de generación subóptima. Para abordar estas limitaciones, se requieren señales densas y diferenciables a lo largo del proceso de difusión. Por lo tanto, proponemos VAlue-based Reinforced Diffusion (VARD): un enfoque novedoso que primero aprende una función de valor que predice la expectativa de recompensas a partir de estados intermedios, y posteriormente utiliza esta función de valor con regularización KL para proporcionar una supervisión densa durante todo el proceso de generación. Nuestro método mantiene la proximidad al modelo preentrenado mientras permite un entrenamiento efectivo y estable mediante retropropagación. Los resultados experimentales demuestran que nuestro enfoque facilita una mejor guía de trayectorias, mejora la eficiencia del entrenamiento y amplía la aplicabilidad de RL a modelos de difusión optimizados para funciones de recompensa complejas y no diferenciables.
El auge de los Modelos de Lenguaje de Audio a Gran Escala (LAMs, por sus siglas en inglés) conlleva tanto potencial como riesgos, ya que sus salidas de audio pueden contener contenido dañino o poco ético. Sin embargo, la investigación actual carece de una evaluación sistemática y cuantitativa de la seguridad de los LAMs, especialmente frente a ataques de jailbreak, los cuales son desafiantes debido a la naturaleza temporal y semántica del habla. Para abordar esta brecha, presentamos AJailBench, el primer punto de referencia diseñado específicamente para evaluar las vulnerabilidades de jailbreak en los LAMs. Comenzamos construyendo AJailBench-Base, un conjunto de datos de 1,495 indicaciones de audio adversarias que abarcan 10 categorías que violan políticas, convertidas a partir de ataques de jailbreak textuales utilizando síntesis de texto a voz realista. Utilizando este conjunto de datos, evaluamos varios LAMs de vanguardia y revelamos que ninguno muestra una robustez consistente frente a los ataques. Para fortalecer aún más las pruebas de jailbreak y simular condiciones de ataque más realistas, proponemos un método para generar variantes adversarias dinámicas. Nuestro Kit de Herramientas de Perturbación de Audio (APT, por sus siglas en inglés) aplica distorsiones específicas en los dominios de tiempo, frecuencia y amplitud. Para preservar la intención original del jailbreak, imponemos una restricción de consistencia semántica y empleamos optimización bayesiana para buscar de manera eficiente perturbaciones que sean tanto sutiles como altamente efectivas. Esto da como resultado AJailBench-APT, un conjunto de datos extendido de muestras de audio adversarias optimizadas. Nuestros hallazgos demuestran que incluso pequeñas perturbaciones, que preservan la semántica, pueden reducir significativamente el rendimiento de seguridad de los LAMs líderes, subrayando la necesidad de mecanismos de defensa más robustos y conscientes de la semántica.
Este artículo investiga la ingeniería de prompts previos (pPE) en el contexto del ajuste fino por refuerzo (RFT), donde los modelos de lenguaje (LMs) son incentivados a exhibir comportamientos que maximizan el rendimiento mediante señales de recompensa. Si bien la investigación existente en RFT se ha centrado principalmente en algoritmos, modelado de recompensas y curación de datos, el diseño del prompt previo—las instrucciones antepuestas a las consultas durante el entrenamiento para elicitar comportamientos como el razonamiento paso a paso—sigue siendo poco explorado. Investigamos si diferentes enfoques de pPE pueden guiar a los LMs a internalizar comportamientos distintos después del RFT. Inspirados por la ingeniería de prompts en tiempo de inferencia (iPE), traducimos cinco estrategias representativas de iPE—razonamiento, planificación, razonamiento basado en código, recuperación de conocimiento y utilización de ejemplos nulos—en enfoques de pPE correspondientes. Experimentamos con Qwen2.5-7B utilizando cada uno de los enfoques de pPE, luego evaluamos el rendimiento en benchmarks dentro y fuera del dominio (por ejemplo, AIME2024, HumanEval+ y GPQA-Diamond). Nuestros resultados muestran que todos los modelos entrenados con pPE superan a sus contrapartes con prompts de iPE, con el enfoque de pPE de ejemplos nulos logrando la mayor ganancia promedio de rendimiento y la mayor mejora en AIME2024 y GPQA-Diamond, superando al enfoque de razonamiento comúnmente utilizado. Además, al adaptar un marco de clasificación de comportamientos, demostramos que diferentes estrategias de pPE inculcan estilos de comportamiento distintos en los modelos resultantes. Estos hallazgos posicionan a la pPE como un eje poderoso pero poco estudiado para el RFT.
Los modelos multimodales grandes (LMMs, por sus siglas en inglés) ahora destacan en muchos puntos de referencia de lenguaje visual; sin embargo, aún enfrentan dificultades con criterios centrados en el ser humano, como la equidad, la ética, la empatía y la inclusividad, aspectos clave para alinearse con los valores humanos. Presentamos HumaniBench, un punto de referencia integral que consta de 32,000 pares de imágenes y preguntas del mundo real, anotados mediante una canalización escalable asistida por GPT4 y verificados exhaustivamente por expertos en el campo. HumaniBench evalúa siete principios de Inteligencia Artificial Centrada en el Ser Humano (HCAI, por sus siglas en inglés): equidad, ética, comprensión, razonamiento, inclusividad lingüística, empatía y robustez, a través de siete tareas diversas, que incluyen respuestas a preguntas visuales abiertas y cerradas (VQA), preguntas y respuestas multilingües, anclaje visual, subtítulos empáticos y pruebas de robustez. Al evaluar 15 LMMs de última generación (tanto de código abierto como cerrado), se observa que los modelos propietarios generalmente lideran, aunque la robustez y el anclaje visual siguen siendo puntos débiles. Algunos modelos de código abierto también enfrentan dificultades para equilibrar la precisión con la adherencia a principios alineados con los valores humanos. HumaniBench es el primer punto de referencia diseñado específicamente en torno a los principios de HCAI. Proporciona un entorno riguroso para diagnosticar brechas de alineación y guiar a los LMMs hacia comportamientos que sean tanto precisos como socialmente responsables. El conjunto de datos, las indicaciones de anotación y el código de evaluación están disponibles en: https://vectorinstitute.github.io/HumaniBench.
Los modelos de recompensa son fundamentales para alinear los LLM con las preferencias humanas, pero son costosos de entrenar, ya que requieren datos de preferencias etiquetados a gran escala por humanos y potentes modelos LLM preentrenados. Mientras tanto, la creciente disponibilidad de conjuntos de datos sintéticos de alta calidad para el seguimiento de instrucciones plantea la pregunta: ¿pueden métricas más simples basadas en referencias servir como alternativas viables a los modelos de recompensa durante la alineación basada en RL? En este artículo, mostramos primero que BLEU, una métrica básica de coincidencia de cadenas, coincide sorprendentemente con modelos de recompensa fuertes en términos de concordancia con las preferencias humanas en conjuntos de datos generales de seguimiento de instrucciones. Basándonos en esta idea, desarrollamos BLEUBERI, un método que primero identifica instrucciones desafiantes y luego aplica la Optimización de Política Relativa de Grupo (GRPO) utilizando BLEU directamente como función de recompensa. Demostramos que los modelos entrenados con BLEUBERI son competitivos con los modelos entrenados mediante RL guiado por modelos de recompensa en cuatro puntos de referencia desafiantes de seguimiento de instrucciones y tres modelos de lenguaje base diferentes. Una evaluación humana adicional respalda que la calidad de las salidas de los modelos BLEUBERI es comparable a la de los modelos alineados con modelos de recompensa. Además, los modelos BLEUBERI generan salidas que están más fundamentadas en hechos que los métodos competidores. En general, mostramos que, dado el acceso a salidas de referencia de alta calidad (fácilmente obtenibles mediante conjuntos de datos existentes de seguimiento de instrucciones o generación de datos sintéticos), las métricas basadas en coincidencia de cadenas son proxies baratos pero efectivos para los modelos de recompensa durante la alineación. Publicamos nuestro código y datos en https://github.com/lilakk/BLEUBERI.
La decodificación especulativa ha surgido como un método popular para acelerar la inferencia de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) mientras se conserva su rendimiento superior en la generación de texto. Los métodos anteriores adoptan una configuración fija de decodificación especulativa independientemente de los tokens de prefijo, o entrenan modelos de borrador de manera offline u online para alinearlos con el contexto. Este artículo propone un marco de aprendizaje online sin entrenamiento para elegir de manera adaptativa la configuración de los hiperparámetros de la decodificación especulativa a medida que se genera el texto. Primero, formulamos este problema de selección de hiperparámetros como un problema de Bandido Multibrazo y proporcionamos un marco general de decodificación especulativa llamado BanditSpec. Además, se diseñan y analizan dos algoritmos de selección de hiperparámetros basados en bandidos, UCBSpec y EXP3Spec, en términos de una nueva cantidad: el arrepentimiento del tiempo de parada. Acotamos superiormente este arrepentimiento tanto en entornos de recompensa estocástica como adversarial. Al derivar un resultado de imposibilidad teórico-informacional, se demuestra que el rendimiento en arrepentimiento de UCBSpec es óptimo hasta constantes universales. Finalmente, extensos experimentos empíricos con LLaMA3 y Qwen2 demuestran que nuestros algoritmos son efectivos en comparación con los métodos existentes, y el rendimiento se acerca al mejor hiperparámetro oráculo en escenarios simulados de servicio de LLMs en la vida real con entradas de texto diversas.
Los sistemas multiagente (MAS) basados en modelos de lenguaje de gran escala (LLM) demuestran un potencial notable para el descubrimiento científico. Sin embargo, los enfoques existentes suelen automatizar el descubrimiento científico utilizando flujos de trabajo predefinidos que carecen de restricciones de racionalidad. Esto a menudo conduce a una formulación de hipótesis sin rumbo y a una incapacidad para vincular consistentemente las hipótesis con la evidencia, lo que dificulta la reducción sistemática de la incertidumbre. Superar estas limitaciones requiere fundamentalmente una reducción sistemática de la incertidumbre. Presentamos PiFlow, un marco teórico de la información, que trata el descubrimiento científico automatizado como un problema estructurado de reducción de incertidumbre guiado por principios (por ejemplo, leyes científicas). En evaluaciones realizadas en tres dominios científicos distintos —descubrimiento de estructuras de nanomateriales, biomoléculas y candidatos a superconductores con propiedades específicas—, nuestro método mejora significativamente la eficiencia del descubrimiento, reflejada por un aumento del 73.55\% en el Área Bajo la Curva (AUC) de los valores de las propiedades frente a los pasos de exploración, y mejora la calidad de las soluciones en un 94.06\% en comparación con un sistema de agentes básico. En general, PiFlow sirve como un método Plug-and-Play, estableciendo un cambio de paradigma novedoso en el descubrimiento científico automatizado altamente eficiente, allanando el camino para una investigación impulsada por IA más robusta y acelerada. El código está disponible públicamente en nuestro {GitHub} https://github.com/amair-lab/PiFlow.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha surgido recientemente como un enfoque convincente para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), donde un generador LLM actúa como una política guiada por un verificador (modelo de recompensa). Sin embargo, los métodos actuales de entrenamiento posterior con RL para LLMs suelen utilizar verificadores que están fijos (basados en reglas o preentrenados congelados) o entrenados de manera discriminativa mediante ajuste fino supervisado (SFT, por sus siglas en inglés). Dichos diseños son susceptibles a la manipulación de recompensas y generalizan pobremente más allá de sus distribuciones de entrenamiento. Para superar estas limitaciones, proponemos Tango, un marco novedoso que utiliza RL para entrenar concurrentemente tanto un generador LLM como un verificador de manera intercalada. Una innovación central de Tango es su verificador LLM generativo a nivel de proceso, que se entrena mediante RL y coevoluciona con el generador. Es importante destacar que el verificador se entrena únicamente en base a recompensas de corrección de verificación a nivel de resultado, sin requerir anotaciones explícitas a nivel de proceso. Este verificador generativo entrenado con RL exhibe una mayor robustez y una superior generalización en comparación con verificadores deterministas o entrenados con SFT, fomentando un refuerzo mutuo efectivo con el generador. Experimentos extensos demuestran que ambos componentes de Tango logran resultados de vanguardia entre modelos de escala 7B/8B: el generador alcanza un rendimiento líder en cinco benchmarks de matemáticas de nivel competitivo y cuatro tareas de razonamiento desafiantes fuera de dominio, mientras que el verificador lidera en el conjunto de datos ProcessBench. Notablemente, ambos componentes muestran mejoras particularmente sustanciales en los problemas de razonamiento matemático más difíciles. El código está disponible en: https://github.com/kaiwenzha/rl-tango.
Evaluar de manera robusta las capacidades de narración extensa de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) sigue siendo un desafío significativo, ya que los puntos de referencia existentes a menudo carecen de la escala, diversidad o medidas objetivas necesarias. Para abordar esto, presentamos WebNovelBench, un nuevo punto de referencia diseñado específicamente para evaluar la generación de novelas extensas. WebNovelBench aprovecha un conjunto de datos a gran escala de más de 4,000 novelas web chinas, enmarcando la evaluación como una tarea de generación de sinopsis a historia. Proponemos un marco multifacético que abarca ocho dimensiones de calidad narrativa, evaluadas automáticamente mediante un enfoque de LLM-como-Juez. Las puntuaciones se agregan utilizando Análisis de Componentes Principales y se mapean a un rango percentil en comparación con obras escritas por humanos. Nuestros experimentos demuestran que WebNovelBench diferencia efectivamente entre obras maestras escritas por humanos, novelas web populares y contenido generado por LLMs. Ofrecemos un análisis exhaustivo de 24 LLMs de vanguardia, clasificando sus habilidades narrativas y proporcionando ideas para su desarrollo futuro. Este punto de referencia proporciona una metodología escalable, replicable y basada en datos para evaluar y avanzar en la generación narrativa impulsada por LLMs.
Los modelos multimodales de gran escala destacan en tareas multimodales, pero enfrentan desafíos computacionales significativos debido al excesivo procesamiento de tokens visuales. A diferencia de los métodos de reducción de tokens que se centran en la redundancia a nivel de token, identificamos y estudiamos la redundancia a nivel de computación en los tokens visuales para garantizar que no se pierda información. Nuestra idea clave es que los tokens visuales provenientes del codificador visual preentrenado no necesariamente requieren todas las operaciones intensivas (por ejemplo, autoatención, FFNs) en los modelos multimodales de solo decodificador y podrían procesarse de manera más ligera con diseños adecuados. Diseñamos una serie de experimentos para descubrir y eliminar progresivamente la redundancia computacional relacionada con la visión. Basándonos en nuestros hallazgos, proponemos ProxyV, un enfoque novedoso que utiliza tokens visuales proxy para aliviar la carga computacional en los tokens visuales originales. ProxyV mejora la eficiencia sin comprometer el rendimiento e incluso puede generar ganancias notables en escenarios con mejoras de eficiencia más moderadas. Además, la flexibilidad de ProxyV se demuestra a través de su combinación con métodos de reducción de tokens para aumentar aún más la eficiencia. El código estará disponible públicamente en esta URL: https://github.com/penghao-wu/ProxyV.
El Reconocimiento de Habla Audio-Visual (AVSR) mejora la robustez en entornos ruidosos al integrar señales visuales. Si bien los avances recientes incorporan Modelos de Lenguaje de Gran Escala (LLMs) en AVSR, su alto costo computacional dificulta su implementación en entornos con recursos limitados. Para abordar esto, proponemos Llama-SMoP, un LLM multimodal eficiente que emplea un módulo de Mezcla Dispersa de Proyectores (SMoP) para escalar la capacidad del modelo sin aumentar los costos de inferencia. Al incorporar proyectores de mezcla de expertos con compuertas dispersas (MoE), Llama-SMoP permite el uso de LLMs más pequeños mientras mantiene un rendimiento sólido. Exploramos tres configuraciones de SMoP y demostramos que Llama-SMoP DEDR (Expertos Disjuntos, Enrutadores Disjuntos), que utiliza enrutadores y expertos específicos por modalidad, logra un rendimiento superior en tareas de ASR, VSR y AVSR. Los estudios de ablación confirman su eficacia en la activación de expertos, escalabilidad y robustez frente al ruido.
Los oyentes humanos se adaptan fácilmente a hablantes desconocidos y variedades lingüísticas a través de la exposición, pero ¿se extienden estos beneficios de adaptación a los modelos de lenguaje hablado más avanzados? Introducimos un marco escalable que permite el aprendizaje en contexto (ICL, por sus siglas en inglés) en Phi-4 Multimodal utilizando indicaciones de tareas intercaladas y pares de audio-texto, y encontramos que tan solo 12 ejemplos de enunciados (~50 segundos) en tiempo de inferencia reducen las tasas de error de palabras en un 19.7% relativo (1.2 pp.) en promedio en diversos corpus de inglés. Estas mejoras son más pronunciadas en variedades de bajos recursos, cuando el contexto y el hablante objetivo coinciden, y cuando se proporcionan más ejemplos, aunque escalar nuestro procedimiento produce rendimientos marginales decrecientes en relación con la longitud del contexto. En general, encontramos que nuestro novedoso esquema de adaptación ICL (1) revela un perfil de rendimiento similar al de los oyentes humanos y (2) demuestra mejoras consistentes en la robustez del reconocimiento automático del habla (ASR, por sus siglas en inglés) en diversos hablantes y antecedentes lingüísticos. Aunque la adaptación tiene éxito en general, persisten brechas significativas para ciertas variedades, lo que revela dónde los modelos actuales aún no alcanzan la flexibilidad humana. Publicamos nuestras indicaciones y código en GitHub.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) presentan limitaciones inherentes en cuanto a fidelidad y factualidad, comúnmente conocidas como alucinaciones. Se han desarrollado varios puntos de referencia que proporcionan un entorno de prueba para la evaluación de la factualidad en el contexto de conjuntos de datos centrados en el inglés, los cuales dependen de contextos informativos adicionales como enlaces web o pasajes de texto, pero ignoran los recursos estructurados de hechos disponibles. Con este fin, los Grafos de Conocimiento (KGs, por sus siglas en inglés) han sido identificados como una herramienta útil para mitigar las alucinaciones, ya que proporcionan una forma estructurada de representar los hechos sobre entidades y sus relaciones con un mínimo de sobrecarga lingüística. Nosotros abordamos la falta de rutas en KGs y la multilingüidad para el modelado de lenguaje factual dentro de los puntos de referencia existentes para la evaluación de alucinaciones y proponemos un punto de referencia multilingüe y de múltiples saltos basado en KGs, llamado MultiHal, diseñado para la evaluación de texto generativo. Como parte de nuestra canalización de recopilación de datos, extrajimos 140k rutas de KGs de grafos de conocimiento de dominio abierto, de las cuales eliminamos las rutas ruidosas, curando un subconjunto de alta calidad de 25.9k. Nuestra evaluación de referencia muestra un aumento en la escala absoluta de aproximadamente 0.12 a 0.36 puntos para la puntuación de similitud semántica en KG-RAG sobre QA básico en múltiples idiomas y múltiples modelos, demostrando el potencial de la integración de KGs. Anticipamos que MultiHal fomentará futuras investigaciones hacia varias tareas de mitigación de alucinaciones y verificación de hechos basadas en grafos.
El cambio de código es un fenómeno común que consiste en alternar entre diferentes idiomas dentro de una misma expresión, pensamiento o conversación. Postulamos que los seres humanos cambian de código porque se sienten más cómodos hablando de ciertos temas y dominios en un idioma que en otro. Con el auge de los modelos de lenguaje intensivos en conocimiento, nos planteamos la siguiente pregunta natural: ¿Podrían los modelos contener más conocimiento sobre algunos temas en un idioma X? Más importante aún, ¿podríamos mejorar el razonamiento cambiando el idioma en el que se realiza? Acuñamos el término Conocimiento Específico del Idioma (LSK, por sus siglas en inglés) para representar este fenómeno. Dado que las culturas étnicas tienden a desarrollarse junto con diferentes idiomas, empleamos conjuntos de datos específicos de cada cultura (que contienen conocimiento sobre normas culturales y de comportamiento social). Descubrimos que los modelos de lenguaje pueden desempeñarse mejor cuando utilizan el razonamiento en cadena de pensamiento en algunos idiomas distintos al inglés, a veces incluso mejor en idiomas de bajos recursos. Junto con trabajos previos que muestran que la similitud semántica no equivale a la similitud representacional, planteamos la hipótesis de que los textos culturalmente específicos ocurren con mayor abundancia en los idiomas correspondientes, lo que permite que el conocimiento específico se manifieste solo en idiomas "expertos" particulares. Motivados por nuestros resultados iniciales, diseñamos una metodología simple llamada LSKExtractor para evaluar el conocimiento específico del idioma presente en un modelo de lenguaje y, luego, explotarlo durante la inferencia. Mostramos nuestros resultados en varios modelos y conjuntos de datos, obteniendo una mejora relativa promedio del 10% en precisión. Nuestra investigación contribuye al desarrollo de código abierto de modelos de lenguaje que son inclusivos y están más alineados con los contextos culturales y lingüísticos en los que se implementan.