ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: [email protected]

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Preentrenamiento por Refuerzo
Reinforcement Pre-Training

Jun 9, 2025
Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
18715

En este trabajo, presentamos el Preentrenamiento con Refuerzo (Reinforcement Pre-Training, RPT) como un nuevo paradigma de escalabilidad para modelos de lenguaje a gran escala y aprendizaje por refuerzo (RL). Específicamente, reformulamos la predicción del siguiente token como una tarea de razonamiento entrenada mediante RL, donde el modelo recibe recompensas verificables por predecir correctamente el siguiente token dado un contexto. RPT ofrece un método escalable para aprovechar grandes cantidades de datos de texto en RL de propósito general, en lugar de depender de respuestas anotadas específicas de un dominio. Al incentivar la capacidad de razonamiento para predecir el siguiente token, RPT mejora significativamente la precisión del modelado del lenguaje en la predicción de tokens subsiguientes. Además, RPT proporciona una base preentrenada sólida para un ajuste fino adicional con refuerzo. Las curvas de escalabilidad muestran que un mayor cómputo de entrenamiento mejora consistentemente la precisión en la predicción del siguiente token. Los resultados posicionan a RPT como un paradigma de escalabilidad efectivo y prometedor para avanzar en el preentrenamiento de modelos de lenguaje.

Lingshu: Un modelo fundacional generalista para la comprensión y razonamiento médico multimodal unificado
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning

Jun 8, 2025
LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
943

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades impresionantes para comprender elementos visuales comunes, en gran parte debido a sus conjuntos de datos a gran escala y estrategias de entrenamiento avanzadas. Sin embargo, su efectividad en aplicaciones médicas sigue siendo limitada debido a las discrepancias inherentes entre los datos y las tareas en escenarios médicos y aquellos del dominio general. Concretamente, los MLLMs médicos existentes enfrentan las siguientes limitaciones críticas: (1) cobertura limitada del conocimiento médico más allá de las imágenes, (2) mayor susceptibilidad a alucinaciones debido a procesos de curación de datos subóptimos, (3) falta de capacidades de razonamiento adaptadas a escenarios médicos complejos. Para abordar estos desafíos, primero proponemos un procedimiento integral de curación de datos que (1) adquiere de manera eficiente datos ricos en conocimiento médico no solo de imágenes médicas, sino también de textos médicos extensos y datos del dominio general; y (2) sintetiza descripciones médicas precisas, respuestas a preguntas visuales (VQA) y muestras de razonamiento. Como resultado, construimos un conjunto de datos multimodal enriquecido con un amplio conocimiento médico. Basándonos en los datos curados, presentamos nuestro MLLM especializado en medicina: Lingshu. Lingshu se somete a un entrenamiento en múltiples etapas para incorporar experiencia médica y mejorar progresivamente sus capacidades de resolución de tareas. Además, exploramos preliminarmente el potencial de aplicar el paradigma de aprendizaje por refuerzo con recompensas verificables para mejorar la capacidad de razonamiento médico de Lingshu. Adicionalmente, desarrollamos MedEvalKit, un marco de evaluación unificado que consolida los principales puntos de referencia médicos multimodales y textuales para una evaluación de modelos estandarizada, justa y eficiente. Evaluamos el rendimiento de Lingshu en tres tareas médicas fundamentales: preguntas y respuestas multimodales, preguntas y respuestas basadas en texto y generación de informes médicos. Los resultados muestran que Lingshu supera consistentemente a los modelos multimodales de código abierto existentes en la mayoría de las tareas...

MiniCPM4: Modelos de Lenguaje Ultra-Eficientes en Dispositivos Finales
MiniCPM4: Ultra-Efficient LLMs on End Devices

Jun 9, 2025
MiniCPM Team, Chaojun Xiao, Yuxuan Li, Xu Han, Yuzhuo Bai, Jie Cai, Haotian Chen, Wentong Chen, Xin Cong, Ganqu Cui, Ning Ding, Shengdan Fan, Yewei Fang, Zixuan Fu, Wenyu Guan, Yitong Guan, Junshao Guo, Yufeng Han, Bingxiang He, Yuxiang Huang, Cunliang Kong, Qiuzuo Li, Siyuan Li, Wenhao Li, Yanghao Li, Yishan Li, Zhen Li, Dan Liu, Biyuan Lin, Yankai Lin, Xiang Long, Quanyu Lu, Yaxi Lu, Peiyan Luo, Hongya Lyu, Litu Ou, Yinxu Pan, Zekai Qu, Qundong Shi, Zijun Song, Jiayuan Su, Zhou Su, Ao Sun, Xianghui Sun, Peijun Tang, Fangzheng Wang, Feng Wang, Shuo Wang, Yudong Wang, Yesai Wu, Zhenyu Xiao, Jie Xie, Zihao Xie, Yukun Yan, Jiarui Yuan, Kaihuo Zhang, Lei Zhang, Linyue Zhang, Xueren Zhang, Yudi Zhang, Hengyu Zhao, Weilin Zhao, Weilun Zhao, Yuanqian Zhao, Zhi Zheng, Ge Zhou, Jie Zhou, Wei Zhou, Zihan Zhou, Zixuan Zhou, Zhiyuan Liu, Guoyang Zeng, Chao Jia, Dahai Li, Maosong Sun
722

Este artículo presenta MiniCPM4, un modelo de lenguaje grande (LLM) altamente eficiente diseñado específicamente para dispositivos de usuario final. Logramos esta eficiencia mediante innovaciones sistemáticas en cuatro dimensiones clave: arquitectura del modelo, datos de entrenamiento, algoritmos de entrenamiento y sistemas de inferencia. Específicamente, en cuanto a la arquitectura del modelo, proponemos InfLLM v2, un mecanismo de atención dispersa entrenable que acelera tanto la fase de prefilling como la de decodificación para el procesamiento de contextos largos. Respecto a los datos de entrenamiento, proponemos UltraClean, una estrategia eficiente y precisa de filtrado y generación de datos de preentrenamiento, y UltraChat v2, un conjunto de datos integral para ajuste fino supervisado. Estos conjuntos de datos permiten alcanzar un rendimiento satisfactorio del modelo utilizando solo 8 billones de tokens de entrenamiento. En cuanto a los algoritmos de entrenamiento, proponemos ModelTunnel v2 para la búsqueda eficiente de estrategias de preentrenamiento, y mejoramos los métodos de postentrenamiento existentes mediante la introducción de chunk-wise rollout para aprendizaje por refuerzo equilibrado en carga y el LLM ternario eficiente en datos, BitCPM. Respecto a los sistemas de inferencia, proponemos CPM.cu, que integra atención dispersa, cuantización del modelo y muestreo especulativo para lograr un prefilling y decodificación eficientes. Para satisfacer diversos requisitos en dispositivos, MiniCPM4 está disponible en dos versiones, con 0.5B y 8B parámetros, respectivamente. Los resultados de evaluación suficientes muestran que MiniCPM4 supera a modelos de código abierto de tamaño similar en múltiples benchmarks, destacando tanto su eficiencia como su efectividad. Notablemente, MiniCPM4-8B demuestra mejoras significativas en velocidad sobre Qwen3-8B al procesar secuencias largas. Mediante una adaptación adicional, MiniCPM4 impulsa con éxito diversas aplicaciones, incluyendo la generación confiable de encuestas y el uso de herramientas con protocolo de contexto del modelo, demostrando claramente su amplia usabilidad.

Azafrán-1: Hacia un Paradigma de Escalado de Inferencia para la Garantía de Seguridad en Modelos de Lenguaje de Gran Escala
Saffron-1: Towards an Inference Scaling Paradigm for LLM Safety Assurance

Jun 6, 2025
Ruizhong Qiu, Gaotang Li, Tianxin Wei, Jingrui He, Hanghang Tong
682

La investigación existente sobre garantía de seguridad se ha centrado principalmente en la alineación durante la fase de entrenamiento para inculcar comportamientos seguros en los LLM. Sin embargo, estudios recientes han expuesto la susceptibilidad de estos métodos a diversos ataques de jailbreak. Paralelamente, el escalado en inferencia ha avanzado significativamente las capacidades de razonamiento de los LLM, pero sigue sin explorarse en el contexto de la garantía de seguridad. Abordando esta brecha, nuestro trabajo pionero en escalado de inferencia busca una seguridad robusta y efectiva en los LLM frente a amenazas emergentes. Revelamos que las técnicas convencionales de escalado en inferencia, a pesar de su éxito en tareas de razonamiento, tienen un desempeño deficiente en contextos de seguridad, incluso quedando por debajo de enfoques básicos como el muestreo Best-of-N. Atribuimos esta ineficiencia a un desafío recién identificado, el dilema exploración-eficiencia, que surge del alto costo computacional asociado con las frecuentes evaluaciones del modelo de recompensa de proceso (PRM). Para superar este dilema, proponemos SAFFRON, un nuevo paradigma de escalado en inferencia diseñado explícitamente para la garantía de seguridad. Central a nuestro enfoque es la introducción de un modelo de recompensa multifurcación (MRM) que reduce significativamente el número requerido de evaluaciones del modelo de recompensa. Para operacionalizar este paradigma, proponemos además: (i) un objetivo de entrenamiento con supervisión parcial para el MRM, (ii) una restricción de exploración conservadora para prevenir exploraciones fuera de distribución, y (iii) una estrategia de almacenamiento en caché basada en Trie que facilita el intercambio de caché entre secuencias durante la búsqueda en árbol. Experimentos extensos validan la efectividad de nuestro método. Adicionalmente, publicamos nuestro modelo de recompensa multifurcación entrenado (Saffron-1) y el conjunto de datos de recompensa de seguridad a nivel de token (Safety4M) para acelerar futuras investigaciones en seguridad de LLM. Nuestro código, modelo y datos están disponibles públicamente en https://github.com/q-rz/saffron, y nuestra página del proyecto se encuentra en https://q-rz.github.io/p/saffron.

OneIG-Bench: Evaluación Omni-dimensional y Matizada para la Generación de Imágenes
OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation

Jun 9, 2025
Jingjing Chang, Yixiao Fang, Peng Xing, Shuhan Wu, Wei Cheng, Rui Wang, Xianfang Zeng, Gang Yu, Hai-Bao Chen
382

Los modelos de texto a imagen (T2I) han captado una atención significativa por su capacidad para generar imágenes de alta calidad alineadas con indicaciones de texto. Sin embargo, los rápidos avances en los modelos T2I han revelado limitaciones en los primeros puntos de referencia, los cuales carecen de evaluaciones integrales, como por ejemplo, la evaluación del razonamiento, la representación de texto y el estilo. Cabe destacar que los modelos más recientes de última generación, con sus capacidades avanzadas de modelado de conocimiento, muestran resultados prometedores en problemas de generación de imágenes que requieren una fuerte capacidad de razonamiento, aunque los sistemas de evaluación existentes no han abordado adecuadamente esta frontera. Para abordar sistemáticamente estas brechas, presentamos OneIG-Bench, un marco de referencia integral meticulosamente diseñado para la evaluación detallada de modelos T2I en múltiples dimensiones, incluyendo la alineación entre el texto y la imagen, la precisión en la representación de texto, el contenido generado mediante razonamiento, la estilización y la diversidad. Al estructurar la evaluación, este punto de referencia permite un análisis profundo del rendimiento de los modelos, ayudando a investigadores y profesionales a identificar fortalezas y cuellos de botella en todo el proceso de generación de imágenes. Específicamente, OneIG-Bench permite una evaluación flexible al permitir a los usuarios centrarse en un subconjunto particular de evaluación. En lugar de generar imágenes para todo el conjunto de indicaciones, los usuarios pueden generar imágenes solo para las indicaciones asociadas con la dimensión seleccionada y completar la evaluación correspondiente de manera adecuada. Nuestro código y conjunto de datos están ahora disponibles públicamente para facilitar estudios de evaluación reproducibles y comparaciones entre modelos dentro de la comunidad de investigación en T2I.

SpatialLM: Entrenamiento de Modelos de Lenguaje a Gran Escala para el Modelado Estructurado de Interiores
SpatialLM: Training Large Language Models for Structured Indoor Modeling

Jun 9, 2025
Yongsen Mao, Junhao Zhong, Chuan Fang, Jia Zheng, Rui Tang, Hao Zhu, Ping Tan, Zihan Zhou
342

SpatialLM es un modelo de lenguaje de gran escala diseñado para procesar datos de nubes de puntos 3D y generar salidas estructuradas de comprensión de escenas 3D. Estas salidas incluyen elementos arquitectónicos como paredes, puertas, ventanas y cajas de objetos orientados con sus categorías semánticas. A diferencia de métodos anteriores que utilizan diseños de redes específicos para tareas, nuestro modelo sigue la arquitectura estándar de LLM multimodal y se ajusta directamente a partir de LLM de código abierto. Para entrenar SpatialLM, recopilamos un conjunto de datos sintéticos de gran escala y alta calidad que consta de las nubes de puntos de 12,328 escenas interiores (54,778 habitaciones) con anotaciones 3D de referencia, y realizamos un estudio detallado sobre diversas decisiones de modelado y entrenamiento. En benchmarks públicos, nuestro modelo ofrece un rendimiento de vanguardia en estimación de distribución espacial y resultados competitivos en detección de objetos 3D. Con esto, demostramos un camino viable para mejorar las capacidades de comprensión espacial de los LLM modernos para aplicaciones en realidad aumentada, robótica encarnada y más.

Reconstrucción de Imágenes como Herramienta para el Análisis de Características
Image Reconstruction as a Tool for Feature Analysis

Jun 9, 2025
Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
282

Los codificadores de visión se utilizan cada vez más en aplicaciones modernas, desde modelos exclusivamente visuales hasta sistemas multimodales como los modelos de visión y lenguaje. A pesar de su notable éxito, sigue sin estar claro cómo estas arquitecturas representan internamente las características. Aquí, proponemos un enfoque novedoso para interpretar las características visuales mediante la reconstrucción de imágenes. Comparamos dos familias de modelos relacionados, SigLIP y SigLIP2, que difieren únicamente en su objetivo de entrenamiento, y demostramos que los codificadores preentrenados en tareas basadas en imágenes retienen significativamente más información visual que aquellos entrenados en tareas no visuales, como el aprendizaje contrastivo. Además, aplicamos nuestro método a una variedad de codificadores visuales, clasificándolos según la informatividad de sus representaciones de características. Finalmente, demostramos que la manipulación del espacio de características produce cambios predecibles en las imágenes reconstruidas, revelando que las rotaciones ortogonales (en lugar de las transformaciones espaciales) controlan la codificación del color. Nuestro enfoque puede aplicarse a cualquier codificador visual, arrojando luz sobre la estructura interna de su espacio de características. El código y los pesos del modelo para reproducir los experimentos están disponibles en GitHub.

Astra: Hacia robots móviles de propósito general mediante aprendizaje multimodal jerárquico
Astra: Toward General-Purpose Mobile Robots via Hierarchical Multimodal Learning

Jun 6, 2025
Sheng Chen, Peiyu He, Jiaxin Hu, Ziyang Liu, Yansheng Wang, Tao Xu, Chi Zhang, Chongchong Zhang, Chao An, Shiyu Cai, Duo Cao, Kangping Chen, Shuai Chu, Tianwei Chu, Mingdi Dan, Min Du, Weiwei Fang, Pengyou Fu, Junkai Hu, Xiaowei Jiang, Zhaodi Jiang, Fuxuan Li, Jun Li, Minghui Li, Mingyao Li, Yanchang Li, Zhibin Li, Guangming Liu, Kairui Liu, Lihao Liu, Weizhi Liu, Xiaoshun Liu, Yufei Liu, Yunfei Liu, Qiang Lu, Yuanfei Luo, Xiang Lv, Hongying Ma, Sai Ma, Lingxian Mi, Sha Sa, Hongxiang Shu, Lei Tian, Chengzhi Wang, Jiayu Wang, Kaijie Wang, Qingyi Wang, Renwen Wang, Tao Wang, Wei Wang, Xirui Wang, Chao Wei, Xuguang Wei, Zijun Xia, Zhaohao Xiao, Tingshuai Yan, Liyan Yang, Yifan Yang, Zhikai Yang, Zhong Yin, Li Yuan, Liuchun Yuan, Chi Zhang, Jinyang Zhang, Junhui Zhang, Linge Zhang, Zhenyi Zhang, Zheyu Zhang, Dongjie Zhu, Hang Li, Yangang Zhang
272

Los sistemas modernos de navegación robótica enfrentan dificultades en entornos interiores diversos y complejos. Los enfoques tradicionales dependen de múltiples módulos con modelos pequeños o sistemas basados en reglas, lo que limita su adaptabilidad a nuevos entornos. Para abordar este problema, desarrollamos Astra, una arquitectura dual integral compuesta por Astra-Global y Astra-Local, diseñada para la navegación de robots móviles. Astra-Global, un modelo de lenguaje multimodal (LLM), procesa entradas visuales y lingüísticas para realizar la localización del robot y del objetivo utilizando un grafo topológico-semántico híbrido como mapa global, superando los métodos tradicionales de reconocimiento de lugares visuales. Astra-Local, una red multitarea, se encarga de la planificación de rutas locales y la estimación de odometría. Su codificador espacio-temporal 4D, entrenado mediante aprendizaje autosupervisado, genera características 4D robustas para tareas posteriores. El módulo de planificación utiliza emparejamiento de flujo y una nueva función de pérdida ESDF enmascarada para minimizar los riesgos de colisión al generar trayectorias locales, mientras que el módulo de odometría integra entradas multisensoriales mediante un codificador transformador para predecir la pose relativa del robot. Implementado en robots móviles reales en entornos interiores diversos, Astra logra una alta tasa de éxito en misiones de extremo a extremo.

Los modelos de lenguaje preentrenados a gran escala aprenden modelos ocultos de Markov en contexto.
Pre-trained Large Language Models Learn Hidden Markov Models In-context

Jun 8, 2025
Yijia Dai, Zhaolin Gao, Yahya Satter, Sarah Dean, Jennifer J. Sun
193

Los Modelos Ocultos de Markov (HMMs, por sus siglas en inglés) son herramientas fundamentales para modelar datos secuenciales con estructura latente markoviana, aunque ajustarlos a datos del mundo real sigue siendo un desafío computacional. En este trabajo, demostramos que los modelos de lenguaje de gran escala (LLMs) preentrenados pueden modelar efectivamente datos generados por HMMs mediante el aprendizaje en contexto (ICL, por sus siglas en inglés)x2013su capacidad para inferir patrones a partir de ejemplos dentro de un prompt. En un conjunto diverso de HMMs sintéticos, los LLMs alcanzan una precisión predictiva cercana al óptimo teórico. Descubrimos tendencias de escalamiento novedosas influenciadas por las propiedades de los HMMs y ofrecemos conjeturas teóricas para estas observaciones empíricas. También proporcionamos pautas prácticas para científicos sobre el uso de ICL como herramienta de diagnóstico para datos complejos. En tareas reales de toma de decisiones animales, ICL logra un rendimiento competitivo con modelos diseñados por expertos humanos. Hasta donde sabemos, esta es la primera demostración de que ICL puede aprender y predecir secuencias generadas por HMMsx2013un avance que profundiza nuestra comprensión del aprendizaje en contexto en LLMs y establece su potencial como una herramienta poderosa para descubrir estructuras ocultas en datos científicos complejos.

BitVLA: Modelos Visión-Lenguaje-Acción de 1 bit para Manipulación Robótica
BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Jun 9, 2025
Hongyu Wang, Chuyan Xiong, Ruiping Wang, Xilin Chen
172

Los modelos Visión-Lenguaje-Acción (VLA) han demostrado capacidades impresionantes en una amplia gama de tareas de manipulación robótica. Sin embargo, su creciente tamaño de modelo plantea desafíos significativos para su implementación en sistemas robóticos con recursos limitados. Si bien el preentrenamiento de 1 bit ha demostrado ser efectivo para mejorar la eficiencia de inferencia de modelos de lenguaje grandes con una pérdida mínima de rendimiento, su aplicación a modelos VLA sigue siendo poco explorada. En este trabajo, presentamos BitVLA, el primer modelo VLA de 1 bit para manipulación robótica, en el que cada parámetro es ternario, es decir, {-1, 0, 1}. Para reducir aún más la huella de memoria del codificador de visión, proponemos una estrategia de entrenamiento consciente de la destilación que comprime el codificador de precisión completa a pesos de 1.58 bits. Durante este proceso, un codificador de precisión completa sirve como modelo maestro para alinear mejor las representaciones latentes. A pesar de la falta de preentrenamiento robótico a gran escala, BitVLA logra un rendimiento comparable al modelo de última generación OpenVLA-OFT con cuantización post-entrenamiento de 4 bits en el benchmark LIBERO, mientras consume solo el 29.8% de la memoria. Estos resultados resaltan el potencial de BitVLA para su implementación en dispositivos de borde con memoria limitada. Publicamos el código y los pesos del modelo en https://github.com/ustcwhy/BitVLA.

Replanteando la Interacción Intermodal en Transformadores de Difusión Multimodal
Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers

Jun 9, 2025
Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
162

Los Transformadores de Difusión Multimodal (MM-DiTs) han logrado avances notables en la generación visual impulsada por texto. Sin embargo, incluso los modelos MM-DiT más avanzados, como FLUX, enfrentan dificultades para lograr una alineación precisa entre las indicaciones de texto y el contenido generado. Identificamos dos problemas clave en el mecanismo de atención de los MM-DiT: 1) la supresión de la atención multimodal debido al desequilibrio de tokens entre las modalidades visual y textual, y 2) la falta de ponderación de atención consciente del paso de tiempo, lo que obstaculiza la alineación. Para abordar estos problemas, proponemos la Atención Multimodal Ajustada por Temperatura (TACA), un método eficiente en parámetros que reequilibra dinámicamente las interacciones multimodales mediante escalado de temperatura y ajuste dependiente del paso de tiempo. Cuando se combina con el ajuste fino de LoRA, TACA mejora significativamente la alineación texto-imagen en el benchmark T2I-CompBench con un mínimo sobrecarga computacional. Probamos TACA en modelos de vanguardia como FLUX y SD3.5, demostrando su capacidad para mejorar la alineación imagen-texto en términos de apariencia de objetos, vinculación de atributos y relaciones espaciales. Nuestros hallazgos destacan la importancia de equilibrar la atención multimodal para mejorar la fidelidad semántica en los modelos de difusión de texto a imagen. Nuestros códigos están disponibles públicamente en https://github.com/Vchitect/TACA.

A través del valle: Camino hacia un entrenamiento efectivo de razonamiento en cadena (CoT) prolongado para modelos de lenguaje pequeños
Through the Valley: Path to Effective Long CoT Training for Small Language Models

Jun 9, 2025
Renjie Luo, Jiaxi Li, Chen Huang, Wei Lu
162

La supervisión de cadenas de razonamiento largas (CoT, por sus siglas en inglés) se ha convertido en una estrategia común para mejorar el razonamiento en los modelos de lenguaje. Aunque es efectiva para modelos grandes, identificamos un fenómeno que denominamos Degradación de CoT Larga, en el cual los modelos de lenguaje pequeños (SLMs; <=3B parámetros) entrenados con datos limitados de CoT larga experimentan un deterioro significativo en su rendimiento. A través de experimentos exhaustivos con las familias Qwen2.5, LLaMA3 y Gemma3, demostramos que esta degradación es generalizada en los SLMs. En algunos casos, los modelos entrenados con solo 8k ejemplos de CoT larga pierden hasta el 75% de su rendimiento original antes del ajuste fino. Sorprendentemente, observamos además que, para algunos modelos particularmente pequeños, incluso el entrenamiento con 220k ejemplos de CoT larga no logra recuperar o superar su rendimiento original previo al ajuste fino. Nuestro análisis atribuye este efecto a la acumulación de errores: aunque las respuestas más largas aumentan la capacidad para el razonamiento de múltiples pasos, también amplifican el riesgo de errores compuestos. Además, encontramos que la Degradación de CoT Larga puede afectar negativamente el aprendizaje por refuerzo (RL) posterior, aunque esto puede mitigarse con un ajuste fino supervisado (SFT) suficientemente escalado. Nuestros hallazgos desafían las suposiciones comunes sobre los beneficios del entrenamiento con CoT larga para los SLMs y ofrecen orientación práctica para construir modelos de razonamiento a pequeña escala más efectivos.

Los Transformadores de Visión No Necesitan Registros Entrenados
Vision Transformers Don't Need Trained Registers

Jun 9, 2025
Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman
142

Investigamos el mecanismo subyacente a un fenómeno previamente identificado en los Transformers de Visión: la aparición de tokens de alta norma que generan mapas de atención ruidosos. Observamos que, en múltiples modelos (por ejemplo, CLIP, DINOv2), un conjunto disperso de neuronas es responsable de concentrar activaciones de alta norma en tokens atípicos, lo que conduce a patrones de atención irregulares y degrada el procesamiento visual posterior. Mientras que la solución existente para eliminar estos valores atípicos implica reentrenar los modelos desde cero con tokens de registro adicionales aprendidos, utilizamos nuestros hallazgos para crear un enfoque sin entrenamiento que mitiga estos artefactos. Al trasladar las activaciones de alta norma de las neuronas de registro descubiertas a un token adicional no entrenado, podemos imitar el efecto de los tokens de registro en un modelo ya entrenado sin ellos. Demostramos que nuestro método produce mapas de atención y características más limpios, mejora el rendimiento sobre los modelos base en múltiples tareas visuales posteriores y logra resultados comparables a los modelos entrenados explícitamente con tokens de registro. Luego, extendemos los registros en tiempo de prueba a modelos de visión-lenguaje disponibles comercialmente para mejorar su interpretabilidad. Nuestros resultados sugieren que los registros en tiempo de prueba asumen efectivamente el papel de los tokens de registro durante la prueba, ofreciendo una solución sin entrenamiento para cualquier modelo preentrenado lanzado sin ellos.

Jugar para Generalizar: Aprender a Razonar a Través del Juego
Play to Generalize: Learning to Reason Through Game Play

Jun 9, 2025
Yunfei Xie, Yinsong Ma, Shiyi Lan, Alan Yuille, Junfei Xiao, Chen Wei
133

El desarrollo de capacidades de razonamiento generalizables en modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) sigue siendo un desafío. Motivados por la literatura de la ciencia cognitiva que sugiere que el juego promueve habilidades cognitivas transferibles, proponemos un nuevo paradigma de posentrenamiento, denominado Aprendizaje Visual a través del Juego (ViGaL, por sus siglas en inglés), en el que los MLLMs desarrollan generalización fuera del dominio del razonamiento multimodal mediante la participación en juegos de tipo arcade. Específicamente, demostramos que el posentrenamiento de un MLLM de 7 mil millones de parámetros mediante aprendizaje por refuerzo (RL, por sus siglas en inglés) en juegos simples de tipo arcade, como Snake, mejora significativamente su rendimiento en tareas posteriores en benchmarks de matemáticas multimodales como MathVista y en preguntas multidisciplinarias como MMMU, sin haber visto soluciones detalladas, ecuaciones o diagramas durante el RL, lo que sugiere la captura de habilidades de razonamiento transferibles. Notablemente, nuestro modelo supera a modelos especializados ajustados en datos de razonamiento multimodal en benchmarks de razonamiento multimodal, mientras mantiene el rendimiento del modelo base en benchmarks visuales generales, un desafío en el que los modelos especializados a menudo fallan. Nuestros hallazgos sugieren un nuevo paradigma de posentrenamiento: los juegos sintéticos basados en reglas pueden servir como tareas pretexto controlables y escalables que desbloquean habilidades generalizables de razonamiento multimodal en los MLLMs.

Inteligencia Debatible: Evaluación de Jueces de Modelos de Lenguaje mediante el Análisis de Discursos de Debate
Debatable Intelligence: Benchmarking LLM Judges via Debate Speech Evaluation

Jun 5, 2025
Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim
132

Introducimos la Evaluación de Discursos de Debate como un nuevo y desafiante punto de referencia para evaluar jueces de LLM. Evaluar discursos de debate requiere una comprensión profunda del discurso en múltiples niveles, incluyendo la fuerza y relevancia de los argumentos, la coherencia y organización del discurso, la adecuación de su estilo y tono, entre otros. Esta tarea implica un conjunto único de habilidades cognitivas que han recibido atención limitada en la evaluación sistemática de LLM. Para explorar dichas habilidades, utilizamos un conjunto de datos de más de 600 discursos de debate meticulosamente anotados y presentamos el primer análisis en profundidad de cómo los LLM de última generación se comparan con jueces humanos en esta tarea. Nuestros hallazgos revelan un panorama matizado: aunque los modelos más grandes pueden aproximarse a los juicios individuales humanos en algunos aspectos, difieren sustancialmente en su comportamiento general de evaluación. También investigamos la capacidad de los LLM de vanguardia para generar discursos persuasivos y con opiniones firmes, demostrando que los modelos pueden desempeñarse a un nivel humano en esta tarea.

GTR-CoT: Recorrido de Grafos como Cadena de Pensamiento Visual para el Reconocimiento de Estructuras Moleculares
GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition

Jun 9, 2025
Jingchao Wang, Haote Yang, Jiang Wu, Yifan He, Xingjian Wei, Yinfan Wang, Chengjin Liu, Lingli Ge, Lijun Wu, Bin Wang, Dahua Lin, Conghui He
122

El Reconocimiento Óptico de Estructuras Químicas (OCSR, por sus siglas en inglés) es crucial para la digitalización del conocimiento químico al convertir imágenes moleculares en formatos legibles por máquinas. Si bien los modelos de visión y lenguaje (VLMs) recientes han mostrado potencial en esta tarea, su enfoque de generación de subtítulos a partir de imágenes a menudo enfrenta dificultades con estructuras moleculares complejas y anotaciones inconsistentes. Para superar estos desafíos, presentamos GTR-Mol-VLM, un marco novedoso que incluye dos innovaciones clave: (1) el mecanismo de Recorrido de Grafos como Cadena de Pensamiento Visual, que emula el razonamiento humano al analizar incrementalmente grafos moleculares mediante predicciones secuenciales de átomos y enlaces, y (2) el principio centrado en los datos de "Reconocer Fielmente lo que has Visto", que aborda la discrepancia entre las estructuras abreviadas en las imágenes y sus anotaciones expandidas. Para apoyar el desarrollo del modelo, construimos GTR-CoT-1.3M, un conjunto de datos de ajuste de instrucciones a gran escala con anotaciones meticulosamente corregidas, e introdujimos MolRec-Bench, el primer punto de referencia diseñado para una evaluación detallada de la precisión en el análisis de grafos en OCSR. Experimentos exhaustivos demuestran que GTR-Mol-VLM logra resultados superiores en comparación con modelos especializados, VLMs del dominio de la química y VLMs comerciales de propósito general. Notablemente, en escenarios que involucran imágenes moleculares con abreviaturas de grupos funcionales, GTR-Mol-VLM supera al segundo mejor modelo de referencia en aproximadamente 14 puntos porcentuales, tanto en métricas basadas en SMILES como en grafos. Esperamos que este trabajo impulse la tecnología OCSR para satisfacer de manera más efectiva las necesidades del mundo real, avanzando así en los campos de la quimioinformática y la IA para la Ciencia. Publicaremos GTR-CoT en https://github.com/opendatalab/GTR-CoT.

La Ilusión del Pensamiento: Comprender las Fortalezas y Limitaciones de los Modelos de Razonamiento a través del Lente de la Complejidad de los Problemas
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

Jun 7, 2025
Parshin Shojaee, Iman Mirzadeh, Keivan Alizadeh, Maxwell Horton, Samy Bengio, Mehrdad Farajtabar
112

Las generaciones recientes de modelos de lenguaje han introducido Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) que generan procesos de pensamiento detallados antes de proporcionar respuestas. Si bien estos modelos demuestran un mejor rendimiento en benchmarks de razonamiento, sus capacidades fundamentales, propiedades de escalabilidad y limitaciones siguen siendo insuficientemente comprendidas. Las evaluaciones actuales se centran principalmente en benchmarks establecidos de matemáticas y programación, enfatizando la precisión de las respuestas finales. Sin embargo, este paradigma de evaluación a menudo sufre de contaminación y no proporciona información sobre los trazos de razonamiento. En este trabajo, investigamos sistemáticamente estas brechas con la ayuda de entornos de rompecabezas controlables que permiten la manipulación precisa de la complejidad mientras mantienen estructuras lógicas consistentes. Esta configuración permite analizar no solo las respuestas finales, sino también los trazos de razonamiento internos, ofreciendo información sobre cómo piensan los LRMs. A través de experimentos extensos, mostramos que los LRMs enfrentan un colapso completo de precisión más allá de ciertas complejidades. Además, exhiben un límite de escalabilidad contraintuitivo: su esfuerzo de razonamiento aumenta con la complejidad del problema hasta cierto punto, luego disminuye a pesar de tener un presupuesto de tokens restante. Al comparar los LRMs con sus contrapartes estándar de modelos de lenguaje (LLMs) bajo el mismo cómputo de inferencia, identificamos tres regímenes de rendimiento: (1) tareas de baja complejidad donde los modelos estándar superan a los LRMs, (2) tareas de complejidad media donde los LRMs demuestran ventaja, y (3) tareas de alta complejidad donde ambos modelos enfrentan un colapso completo. Descubrimos que los LRMs tienen limitaciones en el cálculo exacto: no logran utilizar algoritmos explícitos y razonan de manera inconsistente a través de escalas. También investigamos los trazos de razonamiento en mayor profundidad, estudiando los patrones de soluciones exploradas y analizando el comportamiento computacional de los modelos, arrojando luz sobre sus fortalezas, limitaciones y planteando preguntas sobre sus capacidades de razonamiento.

Arranque de Modelos del Mundo a partir de Modelos de Dinámica en Modelos Fundacionales Multimodales
Bootstrapping World Models from Dynamics Models in Multimodal Foundation Models

Jun 6, 2025
Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti
112

¿Hasta qué punto los modelos fundamentales de visión y lenguaje poseen un modelo del mundo realista (observación por acción implica observación) y un modelo de dinámica (observación por observación implica acción), cuando las acciones se expresan a través del lenguaje? Mientras que los modelos fundamentales de código abierto tienen dificultades con ambos, encontramos que ajustarlos finamente para adquirir un modelo de dinámica mediante supervisión es significativamente más fácil que adquirir un modelo del mundo. A su vez, los modelos de dinámica pueden utilizarse para impulsar modelos del mundo a través de dos estrategias principales: 1) aprendizaje débilmente supervisado a partir de datos sintéticos y 2) verificación en tiempo de inferencia. En primer lugar, el modelo de dinámica puede anotar acciones para pares de observaciones de fotogramas de video sin etiquetar para expandir los datos de entrenamiento. Además, proponemos un nuevo objetivo en el que los tokens de imagen en pares de observaciones se ponderan según su importancia, según lo predicho por un modelo de reconocimiento. En segundo lugar, los modelos de dinámica pueden asignar recompensas a múltiples muestras del modelo del mundo para puntuarlas, guiando efectivamente la búsqueda en tiempo de inferencia. Evaluamos los modelos del mundo resultantes de ambas estrategias mediante la tarea de edición de imágenes centrada en acciones en Aurora-Bench. Nuestro mejor modelo logra un rendimiento competitivo con los modelos de edición de imágenes de última generación, superándolos en un margen del 15% en subconjuntos del mundo real según GPT4o como juez, y alcanzando la mejor evaluación humana promedio en todos los subconjuntos de Aurora-Bench.

ConfQA: Responde solo si estás seguro.
ConfQA: Answer Only If You Are Confident

Jun 8, 2025
Yin Huang, Yifan Ethan Xu, Kai Sun, Vera Yan, Alicia Sun, Haidar Khan, Jimmy Nguyen, Mohammad Kachuee, Zhaojiang Lin, Yue Liu, Aaron Colak, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
92

¿Podemos enseñar a los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a evitar generar afirmaciones factuales incorrectas? En este artículo presentamos una estrategia de ajuste fino que denominamos ConfQA, la cual puede reducir la tasa de alucinación de un 20-40% a menos del 5% en múltiples benchmarks de factualidad. La idea central es simple: cuando el LLM responde una pregunta correctamente, se entrena para continuar con la respuesta; de lo contrario, se entrena para admitir "No estoy seguro". Sin embargo, hay dos factores clave que hacen que este entrenamiento sea altamente efectivo. En primer lugar, introducimos una indicación de amortiguación "responde solo si estás seguro" para guiar explícitamente el comportamiento, sin la cual la alucinación se mantiene en un 15%-25%. En segundo lugar, aprovechamos afirmaciones factuales simples, específicamente valores de atributos de grafos de conocimiento, para ayudar a los LLMs a calibrar la confianza, lo que resulta en una generalización robusta entre dominios y tipos de preguntas. Basándonos en esta idea, proponemos el marco de Conocimiento Neural Dual, que selecciona de manera fluida entre el conocimiento neural parametrizado internamente y el conocimiento simbólico registrado externamente, según la confianza de ConfQA. Este marco permite alcanzar ganancias potenciales en precisión de más del 95%, mientras reduce las recuperaciones externas innecesarias en más del 30%.

CCI4.0: Un conjunto de datos de preentrenamiento bilingüe para mejorar el razonamiento en modelos de lenguaje de gran escala
CCI4.0: A Bilingual Pretraining Dataset for Enhancing Reasoning in Large Language Models

Jun 9, 2025
Guang Liu, Liangdong Wang, Jijie Li, Yang Yu, Yao Xu, Jiabei Chen, Yu Bai, Feng Liao, Yonghua Lin
82

Presentamos CCI4.0, un conjunto de datos bilingüe de preentrenamiento a gran escala diseñado para ofrecer una calidad de datos superior y trayectorias de razonamiento diversas y similares a las humanas. CCI4.0 ocupa aproximadamente 35 TB de espacio en disco y consta de dos subconjuntos: CCI4.0-M2-Base y CCI4.0-M2-CoT. CCI4.0-M2-Base combina un corpus web chino cuidadosamente curado de 5.2 TB, un subconjunto en inglés de 22.5 TB de Nemotron-CC, y diversas fuentes de matemáticas, wiki, arxiv y código. Aunque estos datos provienen principalmente de conjuntos de datos bien procesados, los estándares de calidad en varios dominios son dinámicos y requieren una amplia experiencia y mano de obra experta para su procesamiento. Por ello, proponemos una novedosa pipeline que justifica la calidad de los datos principalmente basada en modelos a través de deduplicación en dos etapas, puntuación de calidad multiclasificador y filtrado de fluidez consciente del dominio. Extraemos 4.5 mil millones de plantillas de CoT (Cadena de Pensamiento), denominadas CCI4.0-M2-CoT. A diferencia de la destilación de CoT a partir de modelos más grandes, nuestra propuesta de extracción de CoT por etapas ejemplifica patrones de razonamiento diversos y reduce significativamente la posibilidad de alucinación. Las evaluaciones empíricas demuestran que los LLM preentrenados en CCI4.0 se benefician de señales de entrenamiento más limpias y confiables, obteniendo mejoras consistentes en tareas posteriores, especialmente en tareas de reflexión matemática y de código. Nuestros resultados subrayan el papel crítico de la curación rigurosa de datos y las plantillas de pensamiento humano en el avance del rendimiento de los LLM, arrojando algo de luz sobre el procesamiento automático de corpus de preentrenamiento.

ExpertLongBench: Evaluación de Modelos de Lenguaje en Tareas de Generación de Texto Largo de Nivel Experto con Listas de Verificación Estructuradas
ExpertLongBench: Benchmarking Language Models on Expert-Level Long-Form Generation Tasks with Structured Checklists

Jun 2, 2025
Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
82

Este artículo presenta ExpertLongBench, un benchmark de nivel experto que contiene 11 tareas de 9 dominios que reflejan flujos de trabajo y aplicaciones realistas de expertos. Más allá de la respuesta a preguntas, las tareas orientadas a aplicaciones en ExpertLongBench requieren salidas de formato largo que pueden superar las 5,000 fichas y una estricta adherencia a los requisitos específicos del dominio. Cabe destacar que cada tarea en ExpertLongBench incluye una rúbrica, diseñada o validada por expertos en el dominio, para especificar los requisitos de la tarea y guiar la evaluación de las salidas. Además, proponemos CLEAR, un marco de evaluación que permite una evaluación precisa de las salidas de formato largo de los modelos en nuestro benchmark. Para lograr una evaluación detallada y alineada con los expertos, CLEAR deriva listas de verificación tanto de las salidas del modelo como de las referencias, extrayendo información correspondiente a los elementos de la rúbrica específica de la tarea. Los elementos de la lista de verificación para las salidas del modelo se comparan luego con los elementos correspondientes para las salidas de referencia para evaluar su corrección, permitiendo una evaluación fundamentada. Evaluamos 11 modelos de lenguaje de gran escala (LLMs) y analizamos los componentes de CLEAR, mostrando que (1) los LLMs existentes, con el mejor desempeño alcanzando solo un 26.8% de puntuación F1, requieren una mejora significativa para tareas de nivel experto; (2) los modelos pueden generar contenido correspondiente a los aspectos requeridos, aunque a menudo no con precisión; y (3) la extracción y comparación precisa de listas de verificación en CLEAR puede ser lograda por modelos de peso abierto para un uso más escalable y de bajo costo.

Inmunización de Modelos desde una Perspectiva del Número de Condición
Model Immunization from a Condition Number Perspective

May 29, 2025
Amber Yijia Zheng, Cedar Site Bai, Brian Bullins, Raymond A. Yeh
82

La inmunización de modelos tiene como objetivo preentrenar modelos que sean difíciles de ajustar en tareas perjudiciales, manteniendo su utilidad en otras tareas no perjudiciales. Aunque trabajos previos han mostrado evidencia empírica de la inmunización de modelos de texto a imagen, la comprensión clave de cuándo es posible la inmunización y una definición precisa de un modelo inmunizado siguen siendo poco claras. En este trabajo, proponemos un marco basado en el número de condición de una matriz hessiana para analizar la inmunización de modelos en modelos lineales. Sobre este marco, diseñamos un algoritmo con términos de regularización para controlar los números de condición resultantes después del preentrenamiento. Los resultados empíricos en modelos lineales y redes profundas no lineales demuestran la efectividad del algoritmo propuesto para la inmunización de modelos. El código está disponible en https://github.com/amberyzheng/model-immunization-cond-num.

GUI-Reflection: Potenciando Modelos Multimodales de GUI con Autoreflexión Conductual
GUI-Reflection: Empowering Multimodal GUI Models with Self-Reflection Behavior

Jun 9, 2025
Penghao Wu, Shengnan Ma, Bo Wang, Jiaheng Yu, Lewei Lu, Ziwei Liu
72

Los Modelos de Lenguaje Multimodales (MLLMs, por sus siglas en inglés) han demostrado un gran potencial para revolucionar la automatización de Interfaces Gráficas de Usuario (GUI). Sin embargo, los modelos de GUI existentes se basan principalmente en el aprendizaje a partir de trayectorias offline casi libres de errores, careciendo así de capacidades de reflexión y recuperación ante errores. Para cerrar esta brecha, proponemos GUI-Reflection, un marco novedoso que integra explícitamente capacidades de autorreflexión y corrección de errores en modelos multimodales de GUI de extremo a extremo a lo largo de etapas de entrenamiento dedicadas: preentrenamiento específico para GUI, ajuste supervisado offline (SFT) y ajuste de reflexión online. GUI-Reflection permite la emergencia de comportamientos de autorreflexión con procesos de generación de datos y aprendizaje completamente automatizados, sin requerir anotaciones humanas. Específicamente, 1) primero proponemos pipelines de datos escalables para construir automáticamente datos de reflexión y corrección de errores a partir de trayectorias exitosas existentes. Mientras que los modelos de GUI existentes se centran principalmente en la capacidad de fundamentación y comprensión de la interfaz de usuario, proponemos el Conjunto de Tareas de GUI-Reflection para aprender y evaluar explícitamente habilidades orientadas a la reflexión. 2) Además, construimos un entorno diverso y eficiente para el entrenamiento online y la recopilación de datos de modelos de GUI en dispositivos móviles. 3) También presentamos un algoritmo iterativo de ajuste de reflexión online que aprovecha el entorno propuesto, permitiendo que el modelo mejore continuamente sus capacidades de reflexión y corrección de errores. Nuestro marco equipa a los agentes de GUI con capacidades de autorreflexión y corrección, allanando el camino para una automatización de GUI más robusta, adaptable e inteligente, con todos los datos, modelos, entornos y herramientas que se liberarán públicamente.

Dreamland: Creación de Mundos Controlables con Simuladores y Modelos Generativos
Dreamland: Controllable World Creation with Simulator and Generative Models

Jun 9, 2025
Sicheng Mo, Ziyang Leng, Leon Liu, Weizhen Wang, Honglin He, Bolei Zhou
72

Los modelos generativos de video a gran escala pueden sintetizar contenido visual diverso y realista para la creación de mundos dinámicos, pero a menudo carecen de controlabilidad a nivel de elementos, lo que dificulta su uso en la edición de escenas y el entrenamiento de agentes de IA encarnados. Proponemos Dreamland, un marco híbrido de generación de mundos que combina el control granular de un simulador basado en física y la salida de contenido fotorrealista de modelos generativos preentrenados a gran escala. En particular, diseñamos una abstracción de mundo en capas que codifica tanto la semántica como la geometría a nivel de píxeles y objetos como una representación intermedia para conectar el simulador y el modelo generativo. Este enfoque mejora la controlabilidad, minimiza el costo de adaptación mediante una alineación temprana con distribuciones del mundo real y permite el uso inmediato de modelos generativos preentrenados existentes y futuros. Además, construimos un conjunto de datos D3Sim para facilitar el entrenamiento y la evaluación de pipelines de generación híbrida. Los experimentos demuestran que Dreamland supera a las líneas de base existentes con un 50.8% de mejora en la calidad de la imagen, un 17.9% de mayor controlabilidad y tiene un gran potencial para mejorar el entrenamiento de agentes encarnados. El código y los datos estarán disponibles.

Bien Comenzado es Medio Hecho: Alineación de Preferencias con Recursos Limitados mediante Decodificación de Débil a Fuerte
Well Begun is Half Done: Low-resource Preference Alignment by Weak-to-Strong Decoding

Jun 9, 2025
Feifan Song, Shaohang Wei, Wen Luo, Yuxuan Fan, Tianyu Liu, Guoyin Wang, Houfeng Wang
72

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) requieren alineación con las preferencias humanas para evitar generar contenido ofensivo, falso o carente de significado. Recientemente, los métodos de bajo recurso para la alineación de LLMs han ganado popularidad, aunque aún enfrentan desafíos para obtener contenido tanto de alta calidad como alineado. Motivados por la observación de que la dificultad de generar respuestas alineadas se concentra al inicio del proceso de decodificación, proponemos un marco novedoso, Decodificación de Débil a Fuerte (WSD, por sus siglas en inglés), para mejorar la capacidad de alineación de los modelos base mediante la guía de un modelo pequeño alineado. El modelo pequeño primero redacta inicios bien alineados, seguido por el modelo base grande para continuar el resto, controlado por un mecanismo de auto-cambio bien diseñado. También recopilamos un nuevo conjunto de datos, GenerAlign, para ajustar un modelo pequeño Pilot-3B como modelo de borrador, lo que mejora efectivamente diferentes modelos base bajo el marco WSD para superar todos los métodos de referencia, evitando al mismo tiempo la degradación en tareas posteriores, conocida como el "impuesto de alineación". Se realizan experimentos exhaustivos para examinar el impacto de diferentes configuraciones y la eficiencia en el tiempo, así como análisis en profundidad sobre los mecanismos intrínsecos de WSD.

¡SynthesizeMe! Inducción de indicaciones guiadas por personalidad para modelos de recompensa personalizados en LLMs
SynthesizeMe! Inducing Persona-Guided Prompts for Personalized Reward Models in LLMs

Jun 5, 2025
Michael J Ryan, Omar Shaikh, Aditri Bhagirath, Daniel Frees, William Held, Diyi Yang
62

Los recientes llamados a la alineación pluralística de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) fomentan la adaptación de los modelos a las preferencias diversas de los usuarios. Sin embargo, la mayoría de los trabajos previos sobre modelos de recompensa personalizados dependen en gran medida de información adicional de identidad, como detalles demográficos o un conjunto predefinido de categorías de preferencias. Con este fin, presentamos SynthesizeMe, un enfoque para inducir personajes sintéticos de usuarios a partir de interacciones de los usuarios para el modelado de recompensas personalizadas. SynthesizeMe primero genera y verifica razonamientos para explicar las preferencias del usuario, luego induce personajes sintéticos de usuarios a partir de ese razonamiento y, finalmente, filtra las interacciones previas informativas de los usuarios para construir indicaciones personalizadas para un usuario en particular. Demostramos que el uso de indicaciones inducidas por SynthesizeMe mejora la precisión de los LLMs como jueces personalizados en un 4.4% en Chatbot Arena. La combinación de indicaciones derivadas de SynthesizeMe con un modelo de recompensa logra el mejor rendimiento en PersonalRewardBench: una nueva recopilación de interacciones estratificadas por usuarios con chatbots, recolectadas de 854 usuarios de Chatbot Arena y PRISM.

SAFEFLOW: Un protocolo fundamentado para sistemas de agentes autónomos confiables y transaccionales
SAFEFLOW: A Principled Protocol for Trustworthy and Transactional Autonomous Agent Systems

Jun 9, 2025
Peiran Li, Xinkai Zou, Zhuohang Wu, Ruifeng Li, Shuo Xing, Hanwen Zheng, Zhikai Hu, Yuping Wang, Haoxi Li, Qin Yuan, Yingmo Zhang, Zhengzhong Tu
52

Los recientes avances en los modelos de lenguaje de gran escala (LLMs) y los modelos de visión-lenguaje (VLMs) han permitido el desarrollo de agentes autónomos potentes capaces de razonamiento complejo y uso de herramientas multimodales. A pesar de sus crecientes capacidades, los marcos de agentes actuales siguen siendo frágiles, careciendo de mecanismos fundamentados para el flujo seguro de información, la fiabilidad y la coordinación multiagente. En este trabajo, presentamos SAFEFLOW, un nuevo marco a nivel de protocolo para construir agentes confiables basados en LLM/VLM. SAFEFLOW aplica un control de flujo de información (IFC) de grano fino, rastreando con precisión la procedencia, integridad y confidencialidad de todos los datos intercambiados entre agentes, herramientas, usuarios y entornos. Al restringir el razonamiento de los LLM para respetar estas etiquetas de seguridad, SAFEFLOW evita que entradas no confiables o adversarias contaminen decisiones de alta integridad. Para garantizar robustez en entornos multiagente concurrentes, SAFEFLOW introduce ejecución transaccional, resolución de conflictos y planificación segura sobre estados compartidos, preservando la consistencia global entre agentes. Además, introducimos mecanismos, como registro anticipado (write-ahead logging), retroceso (rollback) y cachés seguras, que mejoran aún más la resiliencia frente a errores en tiempo de ejecución y violaciones de políticas. Para validar el rendimiento, construimos SAFEFLOWBENCH, un conjunto de pruebas integral diseñado para evaluar la fiabilidad de los agentes bajo condiciones operativas adversas, ruidosas y concurrentes. Experimentos extensivos demuestran que los agentes construidos con SAFEFLOW mantienen un rendimiento impresionante en tareas y garantías de seguridad incluso en entornos hostiles, superando sustancialmente a los métodos más avanzados. Juntos, SAFEFLOW y SAFEFLOWBENCH sientan las bases para ecosistemas de agentes fundamentados, robustos y seguros, avanzando la frontera de la autonomía confiable.

Lo que se ve no puede dejar de verse: El efecto disruptivo del conflicto de conocimiento en los modelos de lenguaje de gran escala
What Is Seen Cannot Be Unseen: The Disruptive Effect of Knowledge Conflict on Large Language Models

Jun 6, 2025
Kaiser Sun, Fan Bai, Mark Dredze
52

Los modelos de lenguaje de gran tamaño frecuentemente dependen tanto de la entrada contextual como del conocimiento paramétrico para realizar tareas. Sin embargo, estas fuentes pueden entrar en conflicto, especialmente cuando los documentos recuperados contradicen el conocimiento paramétrico del modelo. Proponemos un marco de diagnóstico para evaluar sistemáticamente el comportamiento de los LLM bajo conflictos entre contexto y memoria, donde la información contextual diverge de sus creencias paramétricas. Construimos datos de diagnóstico que provocan estos conflictos y analizamos el rendimiento del modelo en múltiples tipos de tareas. Nuestros hallazgos revelan que (1) el conflicto de conocimiento tiene un impacto mínimo en tareas que no requieren la utilización de conocimiento, (2) el rendimiento del modelo es consistentemente mayor cuando el conocimiento contextual y paramétrico están alineados, (3) los modelos no pueden suprimir completamente su conocimiento interno incluso cuando se les indica, y (4) proporcionar razonamientos que expliquen el conflicto aumenta la dependencia en los contextos. Estas observaciones generan preocupaciones sobre la validez de la evaluación basada en modelos y subrayan la necesidad de considerar los conflictos de conocimiento en el despliegue de los LLM.

Cartuchos: Representaciones de contexto largo livianas y de propósito general mediante autoaprendizaje
Cartridges: Lightweight and general-purpose long context representations via self-study

Jun 6, 2025
Sabri Eyuboglu, Ryan Ehrlich, Simran Arora, Neel Guha, Dylan Zinsley, Emily Liu, Will Tennien, Atri Rudra, James Zou, Azalia Mirhoseini, Christopher Re
52

Los modelos de lenguaje de gran escala se utilizan frecuentemente para responder consultas basadas en grandes corpus de texto (por ejemplo, bases de código, documentos legales o historiales de chat) al incluir todo el corpus en la ventana de contexto y aprovechar el aprendizaje en contexto (ICL, por sus siglas en inglés). Aunque los modelos actuales admiten contextos de 100K a 1M de tokens, esta configuración es costosa de implementar debido a que el consumo de memoria de la caché KV escala con la longitud de la entrada. Exploramos una alternativa: entrenar una caché KV más pequeña fuera de línea para cada corpus. En el momento de la inferencia, cargamos esta caché KV entrenada, a la que llamamos Cartucho, y decodificamos una respuesta. Es crucial destacar que el costo de entrenar un Cartucho puede amortizarse en todas las consultas que hacen referencia al mismo corpus. Sin embargo, encontramos que el enfoque ingenuo de entrenar el Cartucho con la predicción del siguiente token en el corpus no es competitivo con el ICL. En su lugar, proponemos el autoestudio, una receta de entrenamiento en la que generamos conversaciones sintéticas sobre el corpus y entrenamos el Cartucho con un objetivo de destilación de contexto. Descubrimos que los Cartuchos entrenados con autoestudio replican la funcionalidad del ICL, siendo significativamente más económicos de implementar. En puntos de referencia desafiantes de contexto largo, los Cartuchos entrenados con autoestudio igualan el rendimiento del ICL mientras utilizan 38.6 veces menos memoria y permiten un rendimiento 26.4 veces mayor. El autoestudio también extiende la longitud efectiva del contexto del modelo (por ejemplo, de 128k a 484k tokens en MTOB) y, sorprendentemente, conduce a Cartuchos que pueden componerse en el momento de la inferencia sin necesidad de reentrenamiento.

Agentes de Cambio: Agentes de LLM Autoevolutivos para la Planificación Estratégica
Agents of Change: Self-Evolving LLM Agents for Strategic Planning

Jun 5, 2025
Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
52

Los avances recientes en los LLM han permitido su uso como agentes autónomos en una variedad de tareas, aunque siguen enfrentando dificultades para formular y adherirse a estrategias coherentes a largo plazo. En este artículo, investigamos si los agentes basados en LLM pueden automejorarse cuando se les coloca en entornos que desafían explícitamente sus habilidades de planificación estratégica. Utilizando el juego de mesa Catan, accedido a través del marco de código abierto Catanatron, evaluamos una progresión de agentes basados en LLM, desde un agente simple que juega el juego hasta sistemas capaces de reescribir autónomamente sus propios prompts y el código de su agente jugador. Introducimos una arquitectura multiagente en la que roles especializados (Analizador, Investigador, Programador y Jugador) colaboran para analizar iterativamente el juego, investigar nuevas estrategias y modificar la lógica o el prompt del agente. Al comparar agentes diseñados manualmente con aquellos evolucionados completamente por LLM, evaluamos cuán efectivamente estos sistemas pueden diagnosticar fallos y adaptarse con el tiempo. Nuestros resultados muestran que los agentes autoevolutivos, especialmente cuando están impulsados por modelos como Claude 3.7 y GPT-4o, superan a las líneas base estáticas al adoptar autónomamente sus estrategias, transmitir comportamientos de muestra a los agentes jugadores y demostrar razonamiento adaptativo a lo largo de múltiples iteraciones.

Síntesis Dinámica de Vistas como un Problema Inverso
Dynamic View Synthesis as an Inverse Problem

Jun 9, 2025
Hidir Yesiltepe, Pinar Yanardag
42

En este trabajo, abordamos la síntesis dinámica de vistas a partir de videos monoculares como un problema inverso en un entorno sin entrenamiento. Al rediseñar la fase de inicialización del ruido de un modelo de difusión de video preentrenado, habilitamos la síntesis dinámica de vistas de alta fidelidad sin actualizaciones de pesos ni módulos auxiliares. Comenzamos identificando un obstáculo fundamental para la inversión determinista que surge de los esquemas de relación señal-ruido (SNR) con terminal cero, y lo resolvemos introduciendo una nueva representación del ruido, denominada Representación de Ruido Recursivo de Orden K. Derivamos una expresión en forma cerrada para esta representación, permitiendo una alineación precisa y eficiente entre los latentes codificados por VAE y los invertidos mediante DDIM. Para sintetizar regiones recién visibles resultantes del movimiento de la cámara, introducimos la Modulación Estocástica de Latentes, que realiza un muestreo consciente de la visibilidad en el espacio latente para completar las regiones ocluidas. Experimentos exhaustivos demuestran que la síntesis dinámica de vistas puede realizarse efectivamente mediante la manipulación estructurada de latentes en la fase de inicialización del ruido.

τ^2-Bench: Evaluación de Agentes Conversacionales en un Entorno de Doble Control
τ^2-Bench: Evaluating Conversational Agents in a Dual-Control Environment

Jun 9, 2025
Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan
42

Los puntos de referencia existentes para los agentes de IA conversacional simulan entornos de control único, donde solo el agente de IA puede utilizar herramientas para interactuar con el mundo, mientras que el usuario permanece como un proveedor pasivo de información. Esto difiere de escenarios del mundo real, como el soporte técnico, donde los usuarios necesitan participar activamente en la modificación del estado del mundo (compartido). Para abordar esta brecha, presentamos tau^2-bench, con cuatro contribuciones clave: 1) Un nuevo dominio de control dual en Telecom modelado como un Dec-POMDP, donde tanto el agente como el usuario utilizan herramientas para actuar en un entorno compartido y dinámico que pone a prueba la coordinación y la comunicación del agente, 2) Un generador de tareas composicional que crea programáticamente tareas diversas y verificables a partir de componentes atómicos, asegurando cobertura del dominio y complejidad controlada, 3) Un simulador de usuario confiable estrechamente acoplado al entorno, cuyo comportamiento está limitado por herramientas y estados observables, mejorando la fidelidad de la simulación, 4) Un análisis detallado del rendimiento del agente a través de múltiples ablaciones, incluyendo la separación de errores derivados del razonamiento frente a la comunicación/coordinación. En particular, nuestros experimentos muestran caídas significativas en el rendimiento cuando los agentes pasan de un entorno sin usuario a uno de control dual, destacando los desafíos de guiar a los usuarios. En general, tau^2-bench proporciona un entorno de prueba controlado para agentes que deben razonar de manera efectiva y guiar las acciones del usuario.

CyberV: Cibernética para el Escalado en Tiempo de Prueba en Comprensión de Video
CyberV: Cybernetics for Test-time Scaling in Video Understanding

Jun 9, 2025
Jiahao Meng, Shuyang Sun, Yue Tan, Lu Qi, Yunhai Tong, Xiangtai Li, Longyin Wen
42

Los modelos actuales de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) pueden enfrentar dificultades para comprender videos largos o complejos debido a las demandas computacionales en tiempo de prueba, la falta de robustez y la precisión limitada, principalmente derivadas de su naturaleza de procesamiento secuencial. Estas limitaciones podrían ser más severas en modelos con menos parámetros. Para abordar estos desafíos, proponemos un marco novedoso inspirado en principios cibernéticos, rediseñando los MLLMs de video como sistemas adaptativos capaces de auto-monitoreo, auto-corrección y asignación dinámica de recursos durante la inferencia. Nuestro enfoque, CyberV, introduce un bucle cibernético compuesto por un Sistema de Inferencia MLLM, un Sensor y un Controlador. Específicamente, el sensor monitorea los procesos de avance del MLLM y recopila interpretaciones intermedias, como la deriva de atención, mientras que el controlador determina cuándo y cómo activar la auto-corrección y generar retroalimentación para guiar la siguiente iteración. Este marco de escalado adaptativo en tiempo de prueba mejora los MLLMs congelados sin necesidad de reentrenamiento o componentes adicionales. Los experimentos demuestran mejoras significativas: CyberV aumenta Qwen2.5-VL-7B en un 8.3% e InternVL3-8B en un 5.5% en VideoMMMU, superando al modelo propietario competitivo GPT-4o. Cuando se aplica a Qwen2.5-VL-72B, se obtiene una mejora del 10.0%, alcanzando un rendimiento comparable incluso al de expertos humanos. Además, nuestro método muestra ganancias consistentes en benchmarks de propósito general, como VideoMME y WorldSense, destacando su efectividad y capacidades de generalización para hacer que los MLLMs sean más robustos y precisos en la comprensión dinámica de videos. El código está disponible en https://github.com/marinero4972/CyberV.

PolyVivid: Generación de Vídeo Multitemático Vívido con Interacción y Mejora Intermodal
PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement

Jun 9, 2025
Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
32

A pesar de los avances recientes en la generación de videos, los modelos existentes aún carecen de controlabilidad detallada, especialmente para la personalización de múltiples sujetos con identidad e interacción consistentes. En este artículo, proponemos PolyVivid, un marco de personalización de videos con múltiples sujetos que permite una generación flexible y consistente en la identidad. Para establecer correspondencias precisas entre imágenes de sujetos y entidades textuales, diseñamos un módulo de fusión texto-imagen basado en VLLM que incrusta identidades visuales en el espacio textual para una anclaje preciso. Para mejorar aún más la preservación de la identidad y la interacción entre sujetos, proponemos un módulo de mejora basado en 3D-RoPE que permite una fusión bidireccional estructurada entre incrustaciones de texto e imágenes. Además, desarrollamos un módulo de inyección de identidad heredado por atención para inyectar eficazmente características de identidad fusionadas en el proceso de generación de videos, mitigando la deriva de identidad. Finalmente, construimos una canalización de datos basada en MLLM que combina anclaje basado en MLLM, segmentación y una estrategia de consolidación de sujetos basada en cliques para producir datos de múltiples sujetos de alta calidad, mejorando efectivamente la distinción de sujetos y reduciendo la ambigüedad en la generación de videos subsiguiente. Experimentos extensos demuestran que PolyVivid logra un rendimiento superior en fidelidad de identidad, realismo de video y alineación de sujetos, superando a las líneas base de código abierto y comerciales existentes.

Mejora de modelos de lenguaje extenso mediante ajuste fino consciente de conceptos
Improving large language models with concept-aware fine-tuning

Jun 9, 2025
Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
32

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han convertido en la piedra angular de la inteligencia artificial moderna. Sin embargo, el paradigma existente de predicción del siguiente token limita fundamentalmente su capacidad para formar conceptos coherentes y de alto nivel, lo que representa una barrera crítica para la comprensión y el razonamiento similares a los humanos. Tomemos como ejemplo la frase "ácido ribonucleico": un LLM primero la descompondrá en tokens, es decir, fragmentos de texto artificiales ("rib", "on", ...), y luego aprenderá cada token de manera secuencial, en lugar de captar la frase como una entidad semántica unificada y coherente. Esta representación fragmentada obstaculiza una comprensión conceptual más profunda y, en última instancia, el desarrollo de sistemas verdaderamente inteligentes. En respuesta, presentamos el Ajuste Fino Consciente de Conceptos (CAFT, por sus siglas en inglés), un novedoso método de entrenamiento multi-token que redefine cómo se ajustan los LLMs. Al permitir el aprendizaje de secuencias que abarcan múltiples tokens, este método fomenta un aprendizaje más consciente de los conceptos. Nuestros experimentos demuestran mejoras significativas en comparación con los métodos convencionales de ajuste fino basados en la predicción del siguiente token, en diversas tareas, incluidas aplicaciones tradicionales como la resumen de texto y otras específicas de dominio como el diseño de novo de proteínas. La predicción multi-token anteriormente solo era posible en la fase de preentrenamiento, que resulta prohibitivamente costosa; CAFT, hasta donde sabemos, es el primer método en llevar el entorno multi-token a la fase posterior al entrenamiento, democratizando así efectivamente sus beneficios para la comunidad más amplia de profesionales e investigadores. Finalmente, la efectividad inesperada de nuestro método propuesto sugiere implicaciones más amplias para la comunidad de investigación en aprendizaje automático. Todo el código y los datos están disponibles en https://github.com/michaelchen-lab/caft-llm.

Aprendiendo lo que el Aprendizaje por Refuerzo no Puede: Ajuste Fino Intercalado en Línea para las Preguntas más Difíciles
Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Jun 9, 2025
Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Bin Cui, Wentao Zhang
32

Los avances recientes en el razonamiento de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han demostrado que comportamientos sofisticados, como la planificación y la autorreflexión, pueden surgir a través del aprendizaje por refuerzo (RL, por sus siglas en inglés). Sin embargo, a pesar de estos éxitos, el RL en su forma actual sigue siendo insuficiente para inducir capacidades que superen las limitaciones del modelo base, ya que se optimiza principalmente en función del conocimiento existente del modelo en lugar de facilitar la adquisición de nueva información. Para abordar esta limitación, empleamos el ajuste fino supervisado (SFT, por sus siglas en inglés) para aprender lo que el RL no puede, lo que permite la incorporación de nuevos conocimientos y patrones de razonamiento al aprovechar datos de demostración de alta calidad. Analizamos la dinámica de entrenamiento del RL y el SFT para el razonamiento de LLM y encontramos que el RL sobresale en mantener y mejorar el rendimiento en preguntas dentro de las capacidades originales del modelo, mientras que el SFT es más efectivo para permitir avances en preguntas que van más allá del alcance actual del modelo. Motivados por las fortalezas complementarias del RL y el SFT, introducimos un nuevo enfoque de entrenamiento, ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). En ReLIFT, el modelo se entrena principalmente utilizando RL, pero cuando encuentra preguntas desafiantes, se recopilan soluciones de alta calidad para el ajuste fino, y el proceso de entrenamiento alterna entre RL y ajuste fino para mejorar las habilidades de razonamiento del modelo. ReLIFT logra una mejora promedio de más de +5.2 puntos en cinco benchmarks de nivel competitivo y un benchmark fuera de distribución en comparación con otros modelos sin RL. Además, demostramos que ReLIFT supera tanto al RL como al SFT mientras utiliza solo el 13\% de los datos de demostración detallados, destacando su escalabilidad. Estos resultados proporcionan evidencia convincente de que ReLIFT supera las limitaciones fundamentales del RL y subraya su potencial significativo.

Sobrelimitación del Razonamiento en LLM: Monitoreo y Control de la Longitud de las Rutas de Pensamiento en LLMs
Overclocking LLM Reasoning: Monitoring and Controlling Thinking Path Lengths in LLMs

Jun 8, 2025
Roy Eisenstadt, Itamar Zimerman, Lior Wolf
32

Recientemente, técnicas como el razonamiento estructurado explícito han demostrado un fuerte comportamiento de escalado en el momento de la prueba al imponer una separación entre el proceso de "pensamiento" interno del modelo y la respuesta final. Un factor clave que influye en la calidad de la respuesta en este contexto es la duración de la etapa de pensamiento. Cuando el razonamiento es demasiado breve, el modelo puede no captar la complejidad de la tarea. Por el contrario, cuando es demasiado largo, el modelo puede sobrepensar, lo que lleva a un cálculo innecesario y a un deterioro del rendimiento. Este artículo explora y aprovecha los mecanismos subyacentes mediante los cuales los modelos de lenguaje grandes (LLMs) comprenden y regulan la duración de su razonamiento durante los procesos de pensamiento explícito. En primer lugar, mostramos que los LLMs codifican su progreso a través del proceso de razonamiento e introducimos una visualización interactiva de una barra de progreso, que luego se utiliza para revelar información sobre la dinámica de planificación del modelo. En segundo lugar, manipulamos la codificación interna del progreso durante la inferencia para reducir pasos innecesarios y generar una cadena de pensamientos más concisa y decisiva. Nuestros resultados empíricos demuestran que este método de "sobreaceleración" mitiga el sobrepensamiento, mejora la precisión de las respuestas y reduce la latencia de inferencia. Nuestro código está disponible públicamente.

GeometryZero: Mejora de la Resolución de Geometría para LLM con Optimización de Política de Contraste Grupal
GeometryZero: Improving Geometry Solving for LLM with Group Contrastive Policy Optimization

Jun 8, 2025
Yikun Wang, Yibin Wang, Dianyi Wang, Zimian Peng, Qipeng Guo, Dacheng Tao, Jiaqi Wang
32

Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en diversos dominios, particularmente en el razonamiento matemático, entre los cuales la resolución de problemas de geometría sigue siendo un área desafiante donde la construcción auxiliar desempeña un papel esencial. Los enfoques existentes logran un rendimiento subóptimo o dependen de LLMs masivos (por ejemplo, GPT-4o), incurriendo en costos computacionales significativos. Postulamos que el aprendizaje por refuerzo con recompensas verificables (por ejemplo, GRPO) ofrece una dirección prometedora para entrenar modelos más pequeños que combinen de manera efectiva la construcción auxiliar con un razonamiento geométrico robusto. Sin embargo, la aplicación directa de GRPO al razonamiento geométrico presenta limitaciones fundamentales debido a su dependencia de recompensas incondicionales, lo que conduce a construcciones auxiliares indiscriminadas y contraproducentes. Para abordar estos desafíos, proponemos la Optimización de Políticas por Contraste Grupal (GCPO, por sus siglas en inglés), un novedoso marco de aprendizaje por refuerzo que presenta dos innovaciones clave: (1) el Enmascaramiento por Contraste Grupal, que proporciona señales de recompensa positivas o negativas para la construcción auxiliar basadas en la utilidad contextual, y (2) una recompensa de longitud que promueve cadenas de razonamiento más largas. Basándonos en GCPO, desarrollamos GeometryZero, una familia de modelos de razonamiento geométrico de tamaño asequible que determinan de manera juiciosa cuándo emplear la construcción auxiliar. Nuestra extensa evaluación empírica en benchmarks geométricos populares (Geometry3K, MathVista) demuestra que los modelos GeometryZero superan consistentemente a los baselines (por ejemplo, GRPO), logrando una mejora promedio del 4.29% en todos los benchmarks.

Bucles de Mejora Auto-Adaptativos para el Aprendizaje Robótico
Self-Adapting Improvement Loops for Robotic Learning

Jun 7, 2025
Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun
32

Los modelos generativos de video entrenados con demostraciones de expertos se han utilizado como planificadores visuales condicionados por texto de alto rendimiento para resolver tareas robóticas. Sin embargo, la generalización a tareas no vistas sigue siendo un desafío. Si bien una mejor generalización podría facilitarse aprovechando el conocimiento previo aprendido de fuentes de datos adicionales recopiladas previamente de manera offline, como conjuntos de datos de video a escala web, en la era de la experiencia, nuestro objetivo es diseñar agentes que puedan mejorar continuamente de manera online a partir de comportamientos auto-recopilados. En este trabajo, proponemos el Bucle de Mejora Auto-Adaptativo (SAIL, por sus siglas en inglés), donde un modelo de video en el dominio se actualiza iterativamente con trayectorias auto-producidas, recopiladas mediante la adaptación con un modelo de video preentrenado a escala de internet, y mejora constantemente su rendimiento para una tarea específica de interés. Aplicamos SAIL a un conjunto diverso de tareas de MetaWorld, así como a dos tareas de manipulación en un brazo robótico real, y encontramos que las mejoras en el rendimiento emergen continuamente a lo largo de múltiples iteraciones para tareas novedosas que inicialmente no se habían visto durante el entrenamiento original del modelo de video en el dominio. Además, descubrimos que SAIL es sorprendentemente robusto en cuanto a si y cómo se filtra la experiencia auto-recopilada, y la calidad de las demostraciones iniciales en el dominio. A través de la adaptación con datos resumidos a escala de internet y el aprendizaje mediante la experiencia online, demostramos así una forma de impulsar iterativamente un modelo de video de alto rendimiento para resolver tareas robóticas novedosas mediante la auto-mejora.

NetPress: Puntos de Referencia Generados Dinámicamente para Aplicaciones de Red con Modelos de Lenguaje de Gran Escala
NetPress: Dynamically Generated LLM Benchmarks for Network Applications

Jun 3, 2025
Yajie Zhou, Jiajun Ruan, Eric S. Wang, Sadjad Fouladi, Francis Y. Yan, Kevin Hsieh, Zaoxing Liu
33

A pesar del creciente interés en la evaluación específica de dominios para modelos de lenguaje grandes (LLMs) y agentes, las evaluaciones actuales siguen limitándose a conjuntos de datos estáticos y de pequeña escala, especialmente en tareas de alto riesgo como las operaciones de red que exigen fiabilidad para su implementación. Presentamos NetPress, un marco de generación automática de puntos de referencia para evaluar agentes LLM en aplicaciones de red. NetPress introduce una abstracción unificada con estado y acción, permitiendo la generación dinámica de diversos conjuntos de consultas junto con sus verdades de referencia. En tiempo de ejecución, los usuarios pueden especificar configuraciones de puntos de referencia para generar millones de consultas sobre la marcha. Además de la construcción dinámica de puntos de referencia, NetPress se integra con emuladores de red para proporcionar retroalimentación de entorno realista, apoyando una evaluación integral en términos de corrección, seguridad y latencia. Instanciamos NetPress en tres aplicaciones representativas, revelando diferencias interesantes y detalladas en el comportamiento de los agentes que los puntos de referencia estáticos, centrados únicamente en la corrección, suelen pasar por alto. NetPress avanza la evaluación de LLM hacia pruebas realistas y escalables en dominios centrados en infraestructura, ayudando a cerrar la brecha entre el rendimiento en los puntos de referencia y la preparación para la implementación en el mundo real. El código está disponible en https://github.com/Froot-NetSys/NetPress.

Trasplante de Tokenizador sin Entrenamiento mediante Búsqueda de Coincidencias Ortogonales
Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit

Jun 7, 2025
Charles Goddard, Fernando Fernandes Neto
22

Presentamos un método sin entrenamiento para trasplantar tokenizadores en modelos de lenguaje grandes (LLMs) preentrenados mediante la reconstrucción de incrustaciones de tokens no vistos a través de la Búsqueda de Coincidencias Ortogonales (OMP, por sus siglas en inglés). Específicamente, aproximamos cada token fuera del vocabulario como una combinación lineal dispersa de tokens compartidos, en dos fases: primero, calculamos la representación de cada nuevo token en el espacio de incrustaciones del modelo donante utilizando un pequeño diccionario de tokens ancla compartidos, luego transferimos estos mismos coeficientes dispersos de vuelta al espacio de incrustaciones del modelo base. En dos tareas desafiantes de cruce de tokenizadores—LlamatoMistral NeMo (12B) y QwentoLlama (1B)—demostramos que OMP logra la mejor preservación de cero disparos del rendimiento del modelo base en múltiples benchmarks, mientras que otros enfoques de cero disparos se degradan significativamente. En comparación con las líneas base (inicialización cero, inicialización media y enfoques existentes como WECHSEL, FOCUS, ZETT), OMP consigue consistentemente el mejor rendimiento general, cerrando eficazmente grandes discrepancias entre tokenizadores sin actualizaciones de gradiente. Nuestro análisis identifica además los esquemas de tokenización numérica desalineados como un desafío crítico para preservar las capacidades de razonamiento matemático. Esta técnica permite la reutilización directa de los pesos preentrenados del modelo con nuevos tokenizadores, facilitando la destilación de conocimiento entre tokenizadores, decodificación especulativa, ensamblado, fusión y adaptaciones de vocabulario específicas de dominio. Integramos nuestro método en la herramienta de código abierto mergekit-tokensurgeon para el realineamiento de vocabulario a posteriori.

Generación Proactiva de Diálogos de Asistencia a partir de Vídeos Egocéntricos en Tiempo Real
Proactive Assistant Dialogue Generation from Streaming Egocentric Videos

Jun 6, 2025
Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon
22

Los avances recientes en la inteligencia artificial conversacional han sido significativos, pero el desarrollo de sistemas en tiempo real para la guía de tareas perceptivas sigue siendo un desafío. Estos sistemas deben proporcionar asistencia interactiva y proactiva basada en entradas visuales en tiempo real, aunque su desarrollo está limitado por el proceso costoso y laborioso de recopilación de datos y evaluación del sistema. Para abordar estas limitaciones, presentamos un marco integral con tres contribuciones clave. En primer lugar, introducimos una novedosa canalización de curación de datos que sintetiza diálogos a partir de videos egocéntricos anotados, resultando en \dataset, un conjunto de datos de diálogos sintéticos a gran escala que abarca múltiples dominios. En segundo lugar, desarrollamos un conjunto de métricas de evaluación automática, validadas mediante estudios exhaustivos con humanos. En tercer lugar, proponemos un modelo de extremo a extremo que procesa entradas de video en tiempo real para generar respuestas contextualmente apropiadas, incorporando técnicas novedosas para manejar el desequilibrio de datos y videos de larga duración. Este trabajo sienta las bases para el desarrollo de asistentes de IA proactivos y en tiempo real, capaces de guiar a los usuarios en diversas tareas. Página del proyecto: https://pro-assist.github.io/

MegaHan97K: Un conjunto de datos a gran escala para el reconocimiento de caracteres chinos en mega-categorías con más de 97K categorías
MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories

Jun 5, 2025
Yuyi Zhang, Yongxin Shi, Peirong Zhang, Yixin Zhao, Zhenhua Yang, Lianwen Jin
22

Fundamentales para el idioma y la cultura china, los caracteres chinos abarcan categorías extraordinariamente extensas y en constante expansión, con el último estándar chino GB18030-2022 que contiene 87,887 categorías. El reconocimiento preciso de este vasto número de caracteres, denominado reconocimiento de mega-categorías, representa un desafío formidable pero crucial para la preservación del patrimonio cultural y las aplicaciones digitales. A pesar de los avances significativos en el Reconocimiento Óptico de Caracteres (OCR), el reconocimiento de mega-categorías sigue sin explorarse debido a la ausencia de conjuntos de datos completos, con el mayor conjunto de datos existente que contiene apenas 16,151 categorías. Para cerrar esta brecha crítica, presentamos MegaHan97K, un conjunto de datos a gran escala de mega-categorías que cubre un número sin precedentes de 97,455 categorías de caracteres chinos. Nuestro trabajo ofrece tres contribuciones principales: (1) MegaHan97K es el primer conjunto de datos que respalda completamente el último estándar GB18030-2022, proporcionando al menos seis veces más categorías que los conjuntos de datos existentes; (2) Aborda eficazmente el problema de la distribución de cola larga al proporcionar muestras equilibradas en todas las categorías a través de sus tres subconjuntos distintos: subconjuntos manuscritos, históricos y sintéticos; (3) Los experimentos de evaluación comparativa exhaustivos revelan nuevos desafíos en escenarios de mega-categorías, incluyendo mayores demandas de almacenamiento, reconocimiento de caracteres morfológicamente similares y dificultades en el aprendizaje de cero disparos, al mismo tiempo que desbloquean oportunidades sustanciales para futuras investigaciones. Hasta donde sabemos, MegaHan97K es probablemente el conjunto de datos con la mayor cantidad de clases no solo en el campo del OCR, sino también en el ámbito más amplio del reconocimiento de patrones. El conjunto de datos está disponible en https://github.com/SCUT-DLVCLab/MegaHan97K.

Optimización Robusta de Preferencias mediante Márgenes Dinámicos de Referencia
Robust Preference Optimization via Dynamic Target Margins

Jun 4, 2025
Jie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Lintao Ma, Xiang Wang
22

La alineación de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es crucial para garantizar su seguridad y fiabilidad en aplicaciones prácticas. La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) ha surgido como un método eficiente que optimiza directamente los modelos utilizando pares de preferencias, reduciendo significativamente la demanda de recursos. Sin embargo, la efectividad de DPO depende en gran medida de la calidad de los datos, que con frecuencia se ve comprometida por el ruido. En este trabajo, proponemos gamma-PO, un algoritmo de optimización de preferencias con margen dinámico que ajusta los márgenes de recompensa a nivel de pares. Al introducir una calibración de márgenes específica para cada instancia, gamma-PO prioriza estratégicamente los pares de alta confianza (aquellos que muestran márgenes de recompensa más altos) mientras suprime el ruido potencial de los pares ambiguos. Además, gamma-PO es un método plug-and-play, compatible con variantes de DPO que dependen del margen de recompensa entre pares de preferencias. En benchmarks como AlpacaEval2 y Arena-Hard, gamma-PO logra una mejora promedio del 4.4\% sobre otras líneas base, estableciendo nuevos estándares para el rendimiento de última generación. Adicionalmente, gamma-PO requiere cambios mínimos en el código y tiene un impacto insignificante en la eficiencia del entrenamiento, convirtiéndolo en una solución robusta para mejorar la alineación de los LLMs. Nuestros códigos están disponibles en https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.

Oculto a simple vista: Explorando el razonamiento implícito en modelos de lenguaje multimodal
Hidden in Plain Sight: Probing Implicit Reasoning in Multimodal Language Models

May 30, 2025
Qianqi Yan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang
21

Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) se están implementando cada vez más en entornos abiertos y del mundo real, donde las entradas son desordenadas, poco especificadas y no siempre confiables. A diferencia de los puntos de referencia cuidadosamente seleccionados, estos entornos frecuentemente involucran instrucciones que se refieren a objetos ausentes o hechos contradictorios, dependen de referencias ambiguas o solicitan acciones inviables. En tales casos, el éxito no depende únicamente de la ejecución de la tarea, sino de la capacidad del modelo para detectar cuándo algo está silenciosamente mal. Este artículo presenta un análisis sistemático de cómo los MLLMs actuales manejan estos escenarios de razonamiento implícito: casos en los que el error no se expresa explícitamente, pero debe inferirse a partir del contexto. Utilizando un conjunto de diagnósticos cuidadosamente seleccionados que abarcan cuatro categorías de modos de fallo del mundo real, evaluamos seis MLLMs, incluyendo o3 y GPT-4o, y encontramos que los modelos frecuentemente no logran identificar problemas ocultos, incluso cuando poseen las habilidades perceptivas y de razonamiento necesarias. El uso de indicaciones explícitas revela que las capacidades subyacentes existen, pero a menudo se suprimen en favor del cumplimiento del usuario. Además, demostramos que intervenciones simples durante la inferencia, como el uso de indicaciones de personalidad cautelosa y, en particular, la exigencia de una pregunta de clarificación, pueden recuperar drásticamente el rendimiento. Nuestros hallazgos destacan una brecha persistente entre la competencia de razonamiento y el cumplimiento conductual en los MLLMs actuales y sugieren estrategias prácticas para hacer que estos modelos sean más confiables en entornos poco restringidos.

EVOREFUSE: Optimización Evolutiva de Prompts para la Evaluación y Mitigación del Exceso de Rechazo en LLM ante Instrucciones Pseudo-Maliciosas
EVOREFUSE: Evolutionary Prompt Optimization for Evaluation and Mitigation of LLM Over-Refusal to Pseudo-Malicious Instructions

May 29, 2025
Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li
22

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) frecuentemente se niegan a responder a instrucciones pseudo-maliciosas: consultas de entrada semánticamente inofensivas que desencadenan rechazos innecesarios por parte de los LLMs debido a una alineación de seguridad conservadora, lo que perjudica significativamente la experiencia del usuario. Recopilar dichas instrucciones es crucial para evaluar y mitigar los rechazos excesivos, pero los métodos existentes de curación de instrucciones, como la creación manual o la reescritura de instrucciones, carecen de escalabilidad o no logran producir indicaciones lo suficientemente diversas y efectivas para inducir rechazos. Para abordar estas limitaciones, presentamos EVOREFUSE, un enfoque de optimización de indicaciones que genera instrucciones pseudo-maliciosas diversas que consistentemente provocan rechazos confiados en varios LLMs. EVOREFUSE emplea un algoritmo evolutivo que explora el espacio de instrucciones en direcciones más diversas que los métodos existentes mediante estrategias de mutación y recombinación, y evoluciona iterativamente instrucciones semilla para maximizar el límite inferior de evidencia sobre la probabilidad de rechazo de los LLMs. Utilizando EVOREFUSE, creamos dos nuevos conjuntos de datos: EVOREFUSE-TEST, un punto de referencia de 582 instrucciones pseudo-maliciosas que supera al siguiente mejor punto de referencia con un 140.41% más de tasa promedio de desencadenamiento de rechazos en 9 LLMs, un 34.86% mayor diversidad léxica y un 40.03% de mejora en las puntuaciones de confianza de las respuestas de los LLMs; y EVOREFUSE-ALIGN, que proporciona 3,000 instrucciones pseudo-maliciosas con respuestas para el entrenamiento de alineación supervisado y basado en preferencias. LLAMA3.1-8B-INSTRUCT ajustado supervisadamente en EVOREFUSE-ALIGN logra hasta un 14.31% menos de rechazos excesivos que los modelos entrenados en el segundo mejor conjunto de datos de alineación, sin comprometer la seguridad. Nuestro análisis con EVOREFUSE-TEST revela que los modelos desencadenan rechazos excesivos al enfocarse demasiado en palabras clave sensibles mientras ignoran el contexto más amplio.

Evaluación de la Robustez de los Modelos de Lenguaje de Gran Escala en Lenguas Menos Recurridas mediante Modelos Proxy
Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models

Jun 9, 2025
Maciej Chrabąszcz, Katarzyna Lorenc, Karolina Seweryn
12

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en diversas tareas de procesamiento del lenguaje natural (PLN) en los últimos años. Sin embargo, su susceptibilidad a jailbreaks y perturbaciones requiere evaluaciones adicionales. Muchos LLMs son multilingües, pero los datos de entrenamiento relacionados con la seguridad contienen principalmente lenguajes de alto recurso como el inglés. Esto puede dejarlos vulnerables a perturbaciones en lenguajes de bajo recurso, como el polaco. Mostramos cómo se pueden crear ataques sorprendentemente fuertes de manera económica alterando solo unos pocos caracteres y utilizando un modelo proxy pequeño para calcular la importancia de las palabras. Descubrimos que estos ataques a nivel de caracteres y palabras alteran drásticamente las predicciones de diferentes LLMs, lo que sugiere una vulnerabilidad potencial que puede ser utilizada para eludir sus mecanismos internos de seguridad. Validamos nuestra metodología de construcción de ataques en polaco, un lenguaje de bajo recurso, y encontramos vulnerabilidades potenciales de los LLMs en este idioma. Además, mostramos cómo puede extenderse a otros idiomas. Publicamos los conjuntos de datos y el código creados para futuras investigaciones.

Distilación de Prompts Meta-Adaptativa para Respuesta Visual a Preguntas con Pocos Ejemplos
Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Jun 7, 2025
Akash Gupta, Amos Storkey, Mirella Lapata
12

Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) suelen depender del aprendizaje en contexto (ICL, por sus siglas en inglés) para realizar nuevas tareas con una supervisión mínima. Sin embargo, el rendimiento del ICL, especialmente en LMMs más pequeños, es inconsistente y no siempre mejora de manera monótona con el aumento de ejemplos. Nuestra hipótesis es que esto ocurre porque el LMM se ve abrumado por la información adicional presente en los embeddings de imágenes, que no es necesaria para la tarea específica. Para abordar esto, proponemos un enfoque de metaaprendizaje que ofrece una alternativa para inducir capacidades de pocos ejemplos en LMMs, utilizando un conjunto fijo de prompts suaves que se destilan a partir de características de imágenes relevantes para la tarea y que pueden adaptarse en tiempo de prueba utilizando unos pocos ejemplos. Para facilitar esta destilación, introducimos un módulo de mapeo de atención que puede integrarse fácilmente con la popular arquitectura LLaVA v1.5 y se aprende conjuntamente con los prompts suaves, permitiendo la adaptación de tareas en LMMs en regímenes de pocos datos con solo unos pocos pasos de gradiente. La evaluación en el VL-ICL Bench muestra que nuestro método supera consistentemente al ICL y a enfoques relacionados de ajuste de prompts, incluso bajo perturbaciones de imágenes, mejorando la inducción de tareas y el razonamiento en tareas de respuesta a preguntas visuales.

Jun 9
Jun 10
Jun 11