Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos CASS, el primer conjunto de datos a gran escala y suite de modelos para la transpilación de código GPU entre arquitecturas, abordando tanto la traducción a nivel de código fuente (CUDA ↔ HIP) como a nivel de ensamblador (Nvidia SASS ↔ AMD RDNA3). El conjunto de datos incluye 70k pares de código verificados en el host y el dispositivo, abordando una brecha crítica en la portabilidad de código GPU de bajo nivel. Aprovechando este recurso, entrenamos la familia de modelos de lenguaje específicos de dominio CASS, logrando un 95% de precisión en la traducción de código fuente y un 37.5% en la traducción de ensamblador, superando sustancialmente líneas de base comerciales como GPT-4o, Claude e Hipify. Nuestro código generado coincide con el rendimiento nativo en más del 85% de los casos de prueba, preservando el comportamiento en tiempo de ejecución y memoria. Para apoyar una evaluación rigurosa, introducimos CASS-Bench, un benchmark curado que abarca 16 dominios de GPU con ejecución de referencia. Todos los datos, modelos y herramientas de evaluación se publican como código abierto para fomentar el avance en herramientas de compilación GPU, compatibilidad binaria y traducción de hardware guiada por LLM. El conjunto de datos y el benchmark están disponibles en https://huggingface.co/datasets/MBZUAI/cass{HuggingFace}, con el código en https://github.com/GustavoStahl/CASS{GitHub}.
Presentamos Mutarjim, un modelo de lenguaje compacto pero potente para la traducción bidireccional árabe-inglés. Si bien los modelos de lenguaje a gran escala (LLMs) han demostrado un progreso impresionante en tareas de procesamiento del lenguaje natural, incluida la traducción automática, los modelos más pequeños también han mostrado su potencial. Aprovechando esta idea, desarrollamos Mutarjim basado en Kuwain-1.5B, un modelo de lenguaje diseñado específicamente para el árabe y el inglés. A pesar de su tamaño modesto, Mutarjim supera a modelos mucho más grandes en varios puntos de referencia establecidos, logrado mediante un enfoque de entrenamiento optimizado en dos fases y un corpus de entrenamiento cuidadosamente seleccionado y de alta calidad. Los resultados experimentales muestran que Mutarjim compite con modelos hasta 20 veces más grandes, reduciendo significativamente los costos computacionales y los requisitos de entrenamiento. También presentamos Tarjama-25, un nuevo punto de referencia diseñado para superar las limitaciones en los conjuntos de datos existentes para la evaluación de traducciones árabe-inglés, como la estrechez de dominio, la longitud corta de las oraciones y el sesgo hacia el inglés como idioma fuente. Tarjama-25 consta de 5,000 pares de oraciones revisados por expertos y abarca una amplia gama de dominios, ofreciendo un marco de evaluación más completo y equilibrado. Cabe destacar que Mutarjim logra un rendimiento de vanguardia en la tarea de inglés a árabe en Tarjama-25, superando incluso a modelos significativamente más grandes y propietarios como GPT-4o mini. Publicamos Tarjama-25 de manera abierta para apoyar futuras investigaciones y avanzar en la evaluación de sistemas de traducción árabe-inglés.
El rápido avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y los modelos de lenguaje multimodal (MLLMs) históricamente ha dependido de la escalabilidad centrada en el modelo, mediante el aumento del número de parámetros desde millones hasta cientos de miles de millones, para impulsar mejoras en el rendimiento. Sin embargo, a medida que nos acercamos a los límites de hardware en cuanto al tamaño del modelo, el cuello de botella computacional dominante ha cambiado fundamentalmente hacia el costo cuadrático de la autoatención sobre secuencias largas de tokens, impulsado ahora por contextos de texto ultralargos, imágenes de alta resolución y videos extensos. En este documento de posición, argumentamos que el enfoque de la investigación para una IA eficiente está cambiando de la compresión centrada en el modelo a la compresión centrada en los datos. Posicionamos la compresión de tokens como la nueva frontera, que mejora la eficiencia de la IA al reducir el número de tokens durante el entrenamiento o la inferencia del modelo. A través de un análisis exhaustivo, primero examinamos los desarrollos recientes en IA de contexto largo en diversos dominios y establecemos un marco matemático unificado para las estrategias existentes de eficiencia de modelos, demostrando por qué la compresión de tokens representa un cambio de paradigma crucial para abordar la sobrecarga de contextos largos. Posteriormente, revisamos sistemáticamente el panorama de investigación en compresión de tokens, analizando sus beneficios fundamentales e identificando sus ventajas convincentes en diversos escenarios. Además, proporcionamos un análisis en profundidad de los desafíos actuales en la investigación de compresión de tokens y delineamos direcciones futuras prometedoras. En última instancia, nuestro trabajo tiene como objetivo ofrecer una perspectiva fresca sobre la eficiencia de la IA, sintetizar la investigación existente y catalizar desarrollos innovadores para abordar los desafíos que las longitudes crecientes de contexto plantean para el avance de la comunidad de IA.
El preentrenamiento equipa a los modelos de texto a imagen (T2I) con un amplio conocimiento del mundo, pero esto por sí solo a menudo es insuficiente para lograr una alta calidad estética y alineación. En consecuencia, el ajuste fino supervisado (SFT, por sus siglas en inglés) es crucial para un refinamiento adicional. Sin embargo, su efectividad depende en gran medida de la calidad del conjunto de datos de ajuste fino. Los conjuntos de datos públicos de SFT existentes suelen enfocarse en dominios específicos (por ejemplo, anime o estilos artísticos particulares), y la creación de conjuntos de datos de SFT de alta calidad y propósito general sigue siendo un desafío significativo. Los métodos actuales de curaduría suelen ser costosos y tienen dificultades para identificar muestras verdaderamente impactantes. Este desafío se complica aún más por la escasez de conjuntos de datos públicos de propósito general, ya que los modelos líderes a menudo dependen de grandes volúmenes de datos internos, propietarios y poco documentados, lo que obstaculiza el progreso de la investigación en general. Este artículo introduce una metodología novedosa para la creación de conjuntos de datos de SFT de propósito general, aprovechando un modelo generativo preentrenado como estimador de muestras de entrenamiento de alto impacto. Aplicamos esta metodología para construir y publicar Alchemist, un conjunto de datos de SFT compacto (3,350 muestras) pero altamente efectivo. Los experimentos demuestran que Alchemist mejora sustancialmente la calidad generativa de cinco modelos públicos de T2I, al tiempo que preserva la diversidad y el estilo. Además, publicamos los pesos de los modelos ajustados para el uso público.
Los grandes modelos de lenguaje sobresalen en tareas generales, pero evaluar su confiabilidad en dominios que requieren lógica y precisión, como finanzas, derecho y atención médica, sigue siendo un desafío. Para abordar esto, presentamos BizFinBench, el primer punto de referencia diseñado específicamente para evaluar modelos de lenguaje en aplicaciones financieras del mundo real. BizFinBench consta de 6,781 consultas bien anotadas en chino, abarcando cinco dimensiones: cálculo numérico, razonamiento, extracción de información, reconocimiento de predicciones y preguntas basadas en conocimiento, agrupadas en nueve categorías detalladas. El punto de referencia incluye métricas tanto objetivas como subjetivas. También introducimos IteraJudge, un método novedoso de evaluación de modelos de lenguaje que reduce el sesgo cuando estos actúan como evaluadores en métricas objetivas. Evaluamos 25 modelos, incluyendo sistemas propietarios y de código abierto. Experimentos extensos muestran que ningún modelo domina en todas las tareas. Nuestra evaluación revela patrones distintivos de capacidades: (1) En Cálculo Numérico, Claude-3.5-Sonnet (63.18) y DeepSeek-R1 (64.04) lideran, mientras que modelos más pequeños como Qwen2.5-VL-3B (15.92) se quedan significativamente atrás; (2) En Razonamiento, los modelos propietarios dominan (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), con modelos de código abierto rezagados hasta 19.49 puntos; (3) En Extracción de Información, la dispersión de rendimiento es la mayor, con DeepSeek-R1 obteniendo 71.46, mientras que Qwen3-1.7B obtiene 11.23; (4) En Reconocimiento de Predicciones, la variación de rendimiento es mínima, con los mejores modelos obteniendo entre 39.16 y 50.00. Encontramos que, aunque los modelos actuales manejan consultas financieras rutinarias de manera competente, tienen dificultades con escenarios complejos que requieren razonamiento entre conceptos. BizFinBench ofrece un punto de referencia riguroso y alineado con los negocios para futuras investigaciones. El código y el conjunto de datos están disponibles en https://github.com/HiThink-Research/BizFinBench.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) actuales suelen adoptar una estrategia de razonamiento fija, ya sea simple o compleja, para todas las preguntas, independientemente de su dificultad. Esta falta de consideración de la variación en la complejidad de las tareas y los procesos de razonamiento conduce a un desequilibrio entre el rendimiento y la eficiencia. Los métodos existentes intentan implementar un sistema de conmutación entre pensamiento rápido y lento sin necesidad de entrenamiento para abordar problemas de diversa dificultad, pero están limitados por ajustes de estrategia a nivel de solución de grano grueso. Para abordar este problema, proponemos un nuevo paradigma de razonamiento: Conmutación Adaptativa del Modo de Pensamiento a Nivel de Proceso (PATS, por sus siglas en inglés), que permite a los LLMs ajustar dinámicamente su estrategia de razonamiento según la dificultad de cada paso, optimizando el equilibrio entre precisión y eficiencia computacional. Nuestro enfoque integra Modelos de Recompensa de Proceso (PRMs, por sus siglas en inglés) con Búsqueda por Haz, incorporando mecanismos de conmutación progresiva de modos y penalización de pasos erróneos. Los experimentos en diversos benchmarks matemáticos demuestran que nuestra metodología logra una alta precisión mientras mantiene un uso moderado de tokens. Este estudio enfatiza la importancia de la adaptación de estrategias de razonamiento conscientes de la dificultad a nivel de proceso, ofreciendo insights valiosos para la inferencia eficiente en LLMs.
Los agentes encarnados potenciados por modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento sólido en tareas de reorganización de objetos en el hogar. Sin embargo, estas tareas se centran principalmente en interacciones de un solo turno con instrucciones simplificadas, lo que no refleja verdaderamente los desafíos de brindar asistencia significativa a los usuarios. Para proporcionar asistencia personalizada, los agentes encarnados deben comprender la semántica única que los usuarios asignan al mundo físico (por ejemplo, la taza favorita, la rutina del desayuno) aprovechando el historial de interacciones previas para interpretar instrucciones dinámicas del mundo real. No obstante, la efectividad de los agentes encarnados en la utilización de la memoria para la asistencia personalizada sigue siendo en gran medida poco explorada. Para abordar esta brecha, presentamos MEMENTO, un marco de evaluación de agentes encarnados personalizados diseñado para evaluar de manera integral las capacidades de utilización de la memoria para brindar asistencia personalizada. Nuestro marco consiste en un diseño de proceso de evaluación de memoria en dos etapas que permite cuantificar el impacto de la utilización de la memoria en el rendimiento de la tarea. Este proceso permite evaluar la comprensión de los agentes sobre el conocimiento personalizado en tareas de reorganización de objetos, centrándose en su papel en la interpretación de objetivos: (1) la capacidad de identificar objetos objetivo basándose en significados personales (semántica de objetos), y (2) la capacidad de inferir configuraciones objeto-ubicación a partir de patrones consistentes del usuario, como rutinas (patrones del usuario). Nuestros experimentos con varios LLMs revelan limitaciones significativas en la utilización de la memoria, incluso en modelos de vanguardia como GPT-4o, que experimentan una caída del 30.5% en el rendimiento cuando se requiere hacer referencia a múltiples memorias, particularmente en tareas que involucran patrones del usuario. Estos hallazgos, junto con nuestros análisis detallados y estudios de caso, proporcionan valiosas perspectivas para futuras investigaciones en el desarrollo de agentes encarnados personalizados más efectivos. Sitio web del proyecto: https://connoriginal.github.io/MEMENTO
Si bien los modelos de razonamiento a gran escala demuestran un rendimiento sólido en tareas complejas, carecen de la capacidad de ajustar el uso de tokens de razonamiento según la dificultad de la tarea. Esto a menudo conduce al problema del "sobrerazonamiento" —un razonamiento excesivo e innecesario— que, aunque podría mitigarse mediante la intervención humana para controlar el presupuesto de tokens, sigue contradiciendo fundamentalmente el objetivo de lograr una IA completamente autónoma. En este trabajo, proponemos el Modelo de Razonamiento Adaptativo (ARM, por sus siglas en inglés), un modelo de razonamiento capaz de seleccionar de manera adaptativa formatos de razonamiento apropiados según la tarea en cuestión. Estos formatos incluyen tres eficientes —Respuesta Directa, CoT Corto y Código— así como un formato más elaborado, CoT Largo. Para entrenar ARM, introducimos Ada-GRPO, una adaptación de la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés), que aborda el problema del colapso de formatos en GRPO tradicional. Ada-GRPO permite que ARM logre una alta eficiencia en el uso de tokens, reduciéndolos en un promedio del 30% y hasta un 70%, mientras mantiene un rendimiento comparable al modelo que depende exclusivamente de CoT Largo. Además, no solo mejora la eficiencia en la inferencia al reducir la generación de tokens, sino que también acelera el entrenamiento en un factor de 2x. Además del Modo Adaptativo predeterminado, ARM admite dos modos de razonamiento adicionales: 1) Modo Guiado por Instrucciones, que permite a los usuarios especificar explícitamente el formato de razonamiento mediante tokens especiales —ideal cuando se conoce el formato apropiado para un lote de tareas. 2) Modo Guiado por Consenso, que agrega las salidas de los tres formatos eficientes y recurre a CoT Largo en caso de desacuerdo, priorizando el rendimiento con un mayor uso de tokens.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés), como el o1 de OpenAI y el R1 de DeepSeek, destacan en tareas de razonamiento avanzado como matemáticas y codificación mediante Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés), pero aún tienen dificultades con acertijos que los humanos pueden resolver sin conocimiento específico del dominio. Presentamos Enigmata, el primer conjunto integral diseñado para mejorar las habilidades de razonamiento de acertijos en LLMs. Incluye 36 tareas en siete categorías, cada una con 1) un generador que produce ejemplos ilimitados con dificultad controlable y 2) un verificador basado en reglas para evaluación automática. Este diseño generador-verificador permite un entrenamiento RL escalable y multitarea, análisis detallado e integración fluida de RLVR. Además, proponemos Enigmata-Eval, un punto de referencia riguroso, y desarrollamos estrategias optimizadas de RLVR multitarea. Nuestro modelo entrenado, Qwen2.5-32B-Enigmata, supera consistentemente a o3-mini-high y o1 en puntos de referencia de razonamiento de acertijos como Enigmata-Eval, ARC-AGI (32.8%) y ARC-AGI 2 (0.6%). También generaliza bien a puntos de referencia de acertijos fuera del dominio y razonamiento matemático, con un mínimo compromiso multitarea. Cuando se entrena en modelos más grandes como Seed1.5-Thinking (20 mil millones de parámetros activados y 200 mil millones de parámetros totales), los datos de acertijos de Enigmata mejoran aún más el rendimiento de vanguardia en tareas avanzadas de matemáticas y razonamiento STEM como AIME (2024-2025), BeyondAIME y GPQA (Diamond), mostrando los beneficios de generalización de Enigmata. Este trabajo ofrece un marco unificado y controlable para avanzar en el razonamiento lógico en LLMs. Los recursos de este trabajo se pueden encontrar en https://seed-enigmata.github.io.
Proponemos un marco novedoso para comprender las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs) desde la perspectiva del metaaprendizaje. Al conceptualizar las trayectorias de razonamiento como actualizaciones de descenso de gradiente pseudo a los parámetros del LLM, identificamos paralelismos entre el razonamiento de los LLMs y varios paradigmas de metaaprendizaje. Formalizamos el proceso de entrenamiento para tareas de razonamiento como una configuración de metaaprendizaje, donde cada pregunta se trata como una tarea individual y las trayectorias de razonamiento sirven como la optimización del bucle interno para adaptar los parámetros del modelo. Una vez entrenado en un conjunto diverso de preguntas, el LLM desarrolla capacidades fundamentales de razonamiento que pueden generalizarse a preguntas no vistas previamente. Evaluaciones empíricas extensas respaldan la fuerte conexión entre el razonamiento de los LLMs y el metaaprendizaje, explorando varios temas de interés significativo desde el punto de vista del metaaprendizaje. Nuestro trabajo no solo mejora la comprensión del razonamiento de los LLMs, sino que también proporciona ideas prácticas para mejorar estos modelos mediante técnicas establecidas de metaaprendizaje.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado un éxito notable en tareas de procesamiento de lenguaje natural, con el Aprendizaje por Refuerzo desempeñando un papel clave en su adaptación a aplicaciones específicas. Sin embargo, obtener respuestas de referencia (ground truth) para entrenar LLMs en la resolución de problemas matemáticos suele ser desafiante, costoso y, en ocasiones, inviable. Esta investigación profundiza en la utilización del formato y la longitud como señales sustitutas para entrenar LLMs en la resolución de problemas matemáticos, evitando la necesidad de respuestas de referencia tradicionales. Nuestro estudio demuestra que una función de recompensa centrada únicamente en la corrección del formato puede generar mejoras de rendimiento comparables al algoritmo estándar GRPO en las fases iniciales. Reconociendo las limitaciones de las recompensas basadas solo en el formato en fases posteriores, incorporamos recompensas basadas en la longitud. El enfoque GRPO resultante, que aprovecha señales sustitutas de formato-longitud, no solo iguala sino que supera el rendimiento del algoritmo GRPO estándar que depende de respuestas de referencia en ciertos escenarios, alcanzando un 40.0\% de precisión en AIME2024 con un modelo base de 7B. A través de una exploración y experimentación sistemáticas, esta investigación no solo ofrece una solución práctica para entrenar LLMs en la resolución de problemas matemáticos y reducir la dependencia de la recopilación extensiva de datos de referencia, sino que también revela la esencia de por qué nuestro enfoque sin etiquetas tiene éxito: el modelo base es como un estudiante excelente que ya ha dominado las habilidades de razonamiento matemático y lógico, pero que tiene un desempeño deficiente en el examen; simplemente necesita desarrollar buenos hábitos de respuesta para lograr resultados sobresalientes en los exámenes, es decir, para desbloquear las capacidades que ya posee.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen exhibir fuertes sesgos, por ejemplo, contra las mujeres o a favor del número 7. Investigamos si los LLMs serían capaces de generar respuestas menos sesgadas cuando se les permite observar sus respuestas previas a la misma pregunta en una conversación de múltiples turnos. Para comprender qué tipos de preguntas invitan a respuestas más sesgadas, probamos los LLMs con nuestro conjunto propuesto de preguntas que abarcan 9 temas y pertenecen a tres tipos: (1) Subjetivas; (2) Aleatorias; y (3) Objetivas. Curiosamente, los LLMs son capaces de "des-sesgarse" en una conversación de múltiples turnos en respuesta a preguntas que buscan una respuesta aleatoria y no sesgada. Además, proponemos B-score, una métrica novedosa que es efectiva para detectar sesgos en preguntas Subjetivas, Aleatorias, Fáciles y Difíciles. En MMLU, HLE y CSQA, el uso de B-score mejora sustancialmente la precisión de verificación de las respuestas de los LLMs (es decir, aceptar respuestas correctas de los LLMs y rechazar las incorrectas) en comparación con el uso de puntuaciones de confianza verbalizadas o la frecuencia de respuestas de un solo turno. El código y los datos están disponibles en: https://b-score.github.io.
El entrenamiento de modelos de lenguaje grandes (LLMs) para razonamiento complejo mediante Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) es efectivo, pero está limitado por la dependencia de supervisión costosa y específica del dominio. Exploramos el Aprendizaje por Refuerzo a partir de Retroalimentación Interna (RLIF), un marco que permite a los LLMs aprender de señales intrínsecas sin recompensas externas ni datos etiquetados. Proponemos Intuitor, un método RLIF que utiliza la confianza propia del modelo, denominada auto-certeza, como su única señal de recompensa. Intuitor reemplaza las recompensas externas en la Optimización de Políticas Relativas de Grupo (GRPO) con puntuaciones de auto-certeza, permitiendo un aprendizaje completamente no supervisado. Los experimentos demuestran que Intuitor iguala el rendimiento de GRPO en benchmarks matemáticos mientras logra una generalización superior en tareas fuera del dominio, como la generación de código, sin requerir soluciones de referencia ni casos de prueba. Nuestros hallazgos muestran que las señales intrínsecas del modelo pueden impulsar un aprendizaje efectivo en diversos dominios, ofreciendo una alternativa escalable a RLVR para sistemas de IA autónomos donde las recompensas verificables no están disponibles. El código está disponible en https://github.com/sunblaze-ucb/Intuitor.
Las señales de recompensa generadas por humanos son cruciales para alinear los modelos generativos con las preferencias humanas, guiando tanto el entrenamiento como las evaluaciones en tiempo de inferencia. Si bien los modelos de lenguaje de gran escala (LLMs) empleados como evaluadores proxy, es decir, LLM-como-Juez, reducen significativamente los costos asociados con las anotaciones manuales, generalmente requieren extensos datos de entrenamiento específicos de la modalidad y no logran generalizar bien en tareas multimodales diversas. En este artículo, proponemos Flex-Judge, un modelo juez multimodal guiado por razonamiento que aprovecha datos mínimos de razonamiento textual para generalizar robustamente en múltiples modalidades y formatos de evaluación. Nuestra intuición central es que las explicaciones de razonamiento textual estructurado codifican inherentemente patrones de toma de decisiones generalizables, permitiendo una transferencia efectiva a juicios multimodales, por ejemplo, con imágenes o videos. Los resultados empíricos demuestran que Flex-Judge, a pesar de estar entrenado con significativamente menos datos textuales, logra un rendimiento competitivo o superior en comparación con las API comerciales de última generación y los evaluadores multimodales extensamente entrenados. Notablemente, Flex-Judge presenta un impacto amplio en modalidades como las moléculas, donde los puntos de referencia de evaluación integrales son escasos, destacando su valor práctico en dominios con recursos limitados. Nuestro marco resalta la supervisión textual basada en razonamiento como una alternativa poderosa y rentable a los enfoques tradicionales intensivos en anotaciones, avanzando sustancialmente en la escalabilidad del modelo-como-juez multimodal.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado potencial en la automatización de la generación de hipótesis científicas; sin embargo, los enfoques existentes producen principalmente hipótesis de grano grueso que carecen de detalles metodológicos y experimentales críticos. Introducimos y definimos formalmente la novedosa tarea de descubrimiento de hipótesis científicas de grano fino, que implica generar hipótesis detalladas y experimentalmente accionables a partir de direcciones de investigación iniciales de grano grueso. Enmarcamos esto como un problema de optimización combinatoria e investigamos los límites superiores de la capacidad de los LLMs para resolverlo cuando se aprovechan al máximo. Específicamente, exploramos cuatro preguntas fundamentales: (1) cómo aprovechar mejor las heurísticas internas de un LLM para formular la hipótesis de grano fino que el propio modelo juzgaría como la más prometedora entre todas las posibles hipótesis que podría generar, basándose en su propia puntuación interna, definiendo así un paisaje de recompensas latente sobre el espacio de hipótesis; (2) si tales hipótesis mejor evaluadas por el LLM muestran una mayor alineación con hipótesis de referencia; (3) si moldear el paisaje de recompensas utilizando un conjunto de LLMs diversos de capacidad similar produce mejores resultados que definirlo con instancias repetidas del LLM más fuerte entre ellos; y (4) si un conjunto de LLMs idénticos proporciona un paisaje de recompensas más confiable que un solo LLM. Para abordar estas preguntas, proponemos un método de búsqueda jerárquica que propone e integra incrementalmente detalles en la hipótesis, avanzando desde conceptos generales hasta configuraciones experimentales específicas. Demostramos que este proceso jerárquico suaviza el paisaje de recompensas y permite una optimización más efectiva. Las evaluaciones empíricas en un nuevo conjunto de datos de referencia de hipótesis de grano fino anotadas por expertos, extraídas de la literatura química reciente, muestran que nuestro método supera consistentemente a los baselines fuertes.
Los LLM han logrado avances impresionantes, pero sus crecientes capacidades también los exponen a ataques de jailbreaking altamente flexibles diseñados para eludir la alineación de seguridad. Si bien muchas defensas existentes se centran en tipos de ataques conocidos, es más crítico preparar a los LLM para ataques no vistos que puedan surgir durante su despliegue. Para abordar esto, proponemos un marco de alineación de seguridad continua que permite a los LLM adaptarse constantemente a nuevas y evolutivas estrategias de jailbreaking. Nuestro marco introduce una configuración competitiva entre dos componentes: un Meta-Atacante, entrenado para descubrir activamente nuevas estrategias de jailbreaking, y un Defensor, entrenado para resistirlas. Para preparar eficazmente al Meta-Atacante, primero aprovechamos la API de GPT-4 para extraer ideas clave de una gran colección de artículos de investigación relacionados con jailbreaking. A través de un entrenamiento iterativo, el Meta-Atacante de la primera iteración logra una tasa de éxito de ataque (ASR) del 73% en RR y una ASR de transferencia del 57% en LAT utilizando solo ataques de una sola vuelta. Mientras tanto, el Defensor mejora progresivamente su robustez y finalmente reduce la tasa de éxito del Meta-Atacante a solo un 7%, permitiendo un despliegue más seguro y confiable de los LLM en entornos abiertos. El código está disponible en https://github.com/sail-sg/LifelongSafetyAlignment.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado avances significativos recientemente en tareas visuales, incluyendo la comprensión semántica de escenas y la alineación texto-imagen, con variantes de razonamiento que mejoran el rendimiento en tareas complejas que involucran matemáticas y lógica. Sin embargo, su capacidad para tareas de razonamiento que requieren una comprensión visual detallada sigue siendo insuficientemente evaluada. Para abordar esta brecha, presentamos ReasonMap, un punto de referencia diseñado para evaluar la comprensión visual detallada y las habilidades de razonamiento espacial de los MLLMs. ReasonMap abarca mapas de tránsito de alta resolución de 30 ciudades en 13 países e incluye 1,008 pares de preguntas-respuestas que abarcan dos tipos de preguntas y tres plantillas. Además, diseñamos una canalización de evaluación de dos niveles que evalúa adecuadamente la corrección y calidad de las respuestas. Las evaluaciones exhaustivas de 15 MLLMs populares, incluyendo tanto modelos base como variantes de razonamiento, revelan un patrón contraintuitivo: entre los modelos de código abierto, los modelos base superan a los de razonamiento, mientras que se observa la tendencia opuesta en los modelos de código cerrado. Además, el rendimiento generalmente se degrada cuando las entradas visuales están enmascaradas, lo que indica que, aunque los MLLMs pueden aprovechar el conocimiento previo para responder algunas preguntas, las tareas de razonamiento visual detallado aún requieren una percepción visual genuina para un rendimiento sólido. Nuestro estudio de referencia ofrece nuevas perspectivas sobre el razonamiento visual y contribuye a investigar la brecha entre los modelos de código abierto y los de código cerrado.
A pesar del predominio de los modelos de lenguaje basados únicamente en decodificadores, los codificadores siguen siendo cruciales para aplicaciones con recursos limitados. Presentamos ModernGBERT (134M, 1B), una familia completamente transparente de modelos codificadores en alemán entrenados desde cero, incorporando innovaciones arquitectónicas de ModernBERT. Para evaluar las compensaciones prácticas de entrenar codificadores desde cero, también presentamos LL\"aMmlein2Vec (120M, 1B, 7B), una familia de codificadores derivados de modelos de decodificadores en alemán a través de LLM2Vec. Evaluamos todos los modelos en tareas de comprensión del lenguaje natural, generación de embeddings de texto y razonamiento de contexto largo, permitiendo una comparación controlada entre codificadores dedicados y decodificadores convertidos. Nuestros resultados muestran que ModernGBERT 1B supera a los codificadores en alemán de última generación anteriores, así como a los codificadores adaptados mediante LLM2Vec, en términos de rendimiento y eficiencia de parámetros. Todos los modelos, datos de entrenamiento, puntos de control y código están disponibles públicamente, avanzando el ecosistema de PLN en alemán con modelos codificadores transparentes y de alto rendimiento.
La generación y comprensión visual son dos aspectos profundamente interconectados de la inteligencia humana, aunque tradicionalmente se han tratado como tareas separadas en el aprendizaje automático. En este artículo, proponemos Jodi, un marco de difusión que unifica la generación y comprensión visual mediante el modelado conjunto del dominio de imágenes y múltiples dominios de etiquetas. Específicamente, Jodi se basa en un transformador de difusión lineal junto con un mecanismo de cambio de roles, lo que le permite realizar tres tipos particulares de tareas: (1) generación conjunta, donde el modelo genera simultáneamente imágenes y múltiples etiquetas; (2) generación controlada, donde las imágenes se generan condicionadas a cualquier combinación de etiquetas; y (3) percepción de imágenes, donde se pueden predecir múltiples etiquetas a la vez a partir de una imagen dada. Además, presentamos el conjunto de datos Joint-1.6M, que contiene 200,000 imágenes de alta calidad recopiladas de fuentes públicas, etiquetas automáticas para 7 dominios visuales y subtítulos generados por LLM. Experimentos exhaustivos demuestran que Jodi sobresale tanto en tareas de generación como de comprensión y exhibe una fuerte extensibilidad a una gama más amplia de dominios visuales. El código está disponible en https://github.com/VIPL-GENUN/Jodi.
A medida que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se integran en los flujos de trabajo de desarrollo de software, su capacidad para generar salidas estructuradas se ha vuelto de crítica importancia. Presentamos StructEval, un punto de referencia integral para evaluar las capacidades de los LLMs en la producción de formatos estructurados tanto no renderizables (JSON, YAML, CSV) como renderizables (HTML, React, SVG). A diferencia de puntos de referencia anteriores, StructEval evalúa sistemáticamente la fidelidad estructural en diversos formatos a través de dos paradigmas: 1) tareas de generación, que producen salidas estructuradas a partir de instrucciones en lenguaje natural, y 2) tareas de conversión, que traducen entre formatos estructurados. Nuestro punto de referencia abarca 18 formatos y 44 tipos de tareas, con métricas novedosas para la adherencia al formato y la corrección estructural. Los resultados revelan brechas significativas en el rendimiento; incluso modelos de última generación como o1-mini alcanzan solo un puntaje promedio de 75.58, con alternativas de código abierto quedando aproximadamente 10 puntos por detrás. Encontramos que las tareas de generación son más desafiantes que las de conversión, y que producir contenido visual correcto es más difícil que generar estructuras únicamente de texto.
En el año 2025, en un momento crucial en la búsqueda de la Inteligencia General Artificial (AGI), el ajuste fino por refuerzo (RFT, por sus siglas en inglés) ha demostrado un potencial significativo para mejorar la capacidad de razonamiento de los modelos de lenguaje de gran escala (LLMs) y ha llevado al desarrollo de modelos de IA de vanguardia como OpenAI-o1 y DeepSeek-R1. Además, la aplicación eficiente de RFT para mejorar la capacidad de razonamiento de los modelos de lenguaje multimodal de gran escala (MLLMs) ha captado una atención generalizada en la comunidad. En este documento de posición, argumentamos que el ajuste fino por refuerzo potencia la capacidad de razonamiento de los modelos de lenguaje multimodal de gran escala. Para comenzar, proporcionamos una introducción detallada a los conocimientos fundamentales que los investigadores interesados en este campo deberían conocer. Además, resumimos meticulosamente las mejoras de RFT en la potenciación de la capacidad de razonamiento de los MLLMs en cinco puntos clave: modalidades diversas, tareas y dominios variados, mejores algoritmos de entrenamiento, abundantes benchmarks y marcos de ingeniería en auge. Finalmente, proponemos cinco direcciones prometedoras para futuras investigaciones que la comunidad podría considerar. Esperamos que este documento de posición brinde valiosas perspectivas a la comunidad en esta etapa crucial del avance hacia la AGI. Un resumen de los trabajos realizados sobre RFT para MLLMs está disponible en https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.
El razonamiento audiovisual a largo plazo y la comprensión detallada a nivel de píxel imponen requisitos conflictivos en los modelos omnimodales: la cobertura temporal densa demanda muchos fotogramas de baja resolución, mientras que el anclaje preciso requiere entradas de alta resolución. Abordamos este equilibrio con una arquitectura de dos sistemas: un Sistema de Razonamiento Global selecciona fotogramas clave informativos y reformula la tarea con un bajo costo espacial, mientras que un Sistema de Comprensión Detallada realiza el anclaje a nivel de píxel en los fragmentos seleccionados de alta resolución. Dado que la selección y reformulación de fotogramas clave "óptimos" son ambiguas y difíciles de supervisar, las formulamos como un problema de aprendizaje por refuerzo (RL) y presentamos Omni-R1, un marco de RL de extremo a extremo basado en la Optimización de Políticas Relativas por Grupos. Omni-R1 entrena el Sistema de Razonamiento Global mediante recompensas jerárquicas obtenidas a través de la colaboración en línea con el Sistema de Comprensión Detallada, requiriendo solo una época de RL en divisiones pequeñas de la tarea. Los experimentos en dos puntos de referencia desafiantes, la Segmentación Audiovisual Referencial (RefAVS) y la Segmentación de Objetos en Video con Razonamiento (REVOS), muestran que Omni-R1 no solo supera a las líneas base supervisadas sólidas, sino que también supera a los modelos especializados de última generación, al tiempo que mejora sustancialmente la generalización fuera del dominio y mitiga la alucinación multimodal. Nuestros resultados demuestran la primera aplicación exitosa de RL al razonamiento omnimodal a gran escala y destacan un camino escalable hacia modelos de base universales.
Presentamos REARANK, un agente de reranking basado en un modelo de lenguaje grande (LLM) que utiliza razonamiento listwise. REARANK razona explícitamente antes de realizar el reranking, mejorando significativamente tanto el rendimiento como la interpretabilidad. Al aprovechar el aprendizaje por refuerzo y la ampliación de datos, REARANK logra mejoras sustanciales sobre los modelos de referencia en benchmarks populares de recuperación de información, destacando que requiere solo 179 muestras anotadas. Construido sobre Qwen2.5-7B, nuestro REARANK-7B demuestra un rendimiento comparable al de GPT-4 tanto en benchmarks dentro del dominio como fuera de él, e incluso supera a GPT-4 en benchmarks intensivos en razonamiento como BRIGHT. Estos resultados subrayan la efectividad de nuestro enfoque y resaltan cómo el aprendizaje por refuerzo puede mejorar las capacidades de razonamiento de los LLM en el reranking.
La difusión discreta ha surgido recientemente como un paradigma prometedor en el modelado de datos discretos. Sin embargo, los métodos existentes suelen depender de una matriz de transición de tasa fija durante el entrenamiento, lo que no solo limita la expresividad de las representaciones latentes, una fortaleza fundamental de los métodos variacionales, sino que también restringe el espacio de diseño general. Para abordar estas limitaciones, proponemos Discrete Markov Bridge, un marco novedoso diseñado específicamente para el aprendizaje de representaciones discretas. Nuestro enfoque se basa en dos componentes clave: Aprendizaje de Matrices y Aprendizaje de Puntuaciones. Realizamos un análisis teórico riguroso, estableciendo garantías formales de rendimiento para el Aprendizaje de Matrices y demostrando la convergencia del marco general. Además, analizamos la complejidad espacial de nuestro método, abordando limitaciones prácticas identificadas en estudios previos. Evaluaciones empíricas exhaustivas validan la efectividad del Discrete Markov Bridge propuesto, que alcanza un Límite Inferior de Evidencia (ELBO) de 1.38 en el conjunto de datos Text8, superando a los métodos de referencia establecidos. Además, el modelo propuesto demuestra un rendimiento competitivo en el conjunto de datos CIFAR-10, logrando resultados comparables a los obtenidos por enfoques específicos para la generación de imágenes.
Proponemos un sistema de física neuronal para simulaciones de fluidos interactivas en tiempo real. Los métodos tradicionales basados en física, aunque precisos, son computacionalmente intensivos y presentan problemas de latencia. Los métodos recientes de aprendizaje automático reducen los costos computacionales mientras preservan la fidelidad; sin embargo, la mayoría aún no cumple con las restricciones de latencia para su uso en tiempo real y carece de soporte para aplicaciones interactivas. Para cerrar esta brecha, introducimos un método híbrido novedoso que integra simulación numérica, física neuronal y control generativo. Nuestra física neuronal busca simultáneamente una simulación de baja latencia y una alta fidelidad física mediante el empleo de un mecanismo de respaldo basado en solucionadores numéricos clásicos. Además, desarrollamos un controlador basado en difusión que se entrena utilizando una estrategia de modelado inverso para generar campos de fuerza dinámicos externos para la manipulación de fluidos. Nuestro sistema demuestra un rendimiento robusto en diversos escenarios 2D/3D, tipos de materiales e interacciones con obstáculos, logrando simulaciones en tiempo real a altas tasas de cuadros (11~29% de latencia) y permitiendo el control de fluidos guiado por bocetos manuales intuitivos. Presentamos un avance significativo hacia simulaciones de fluidos prácticas, controlables y físicamente plausibles para aplicaciones interactivas en tiempo real. Prometemos liberar tanto los modelos como los datos tras su aceptación.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento notables en matemáticas y programación, a menudo potenciadas por el entrenamiento posterior en cadenas de pensamiento (CoTs, por sus siglas en inglés) generadas por modelos más avanzados. Sin embargo, las estrategias existentes para la selección de dichos datos de entrenamiento se basan predominantemente en heurísticas, lo que limita la generalización y no logra captar las sutilezas subyacentes en los datos. Para abordar estas limitaciones, utilizamos funciones de influencia para atribuir sistemáticamente la capacidad de razonamiento de los LLMs en matemáticas y programación a ejemplos, secuencias y tokens individuales de entrenamiento, lo que permite obtener una comprensión más profunda de las características efectivas de los datos. Nuestra Atribución de Razonamiento Basada en Influencia (Infra, por sus siglas en inglés) revela efectos no triviales entre dominios en tareas de matemáticas y programación: los ejemplos de matemáticas de alta dificultad mejoran tanto el razonamiento matemático como el de programación, mientras que las tareas de programación de baja dificultad benefician más efectivamente el razonamiento en código. Basándonos en estos hallazgos, introducimos una estrategia simple pero efectiva de re-ponderación de datos al invertir la dificultad de las tareas, lo que duplica la precisión de AIME24 del 10% al 20% y aumenta la precisión de LiveCodeBench del 33.8% al 35.3% para Qwen2.5-7B-Instruct. Además, nuestra atribución detallada revela que los comportamientos exploratorios a nivel de secuencia mejoran el rendimiento del razonamiento tanto en matemáticas como en programación, y que los patrones de influencia a nivel de token son distintos para el razonamiento matemático y el de programación: el primero prefiere conectores lógicos en lenguaje natural, mientras que el segundo enfatiza la sintaxis estructural.
Esta revisión presenta un análisis exhaustivo de dos paradigmas emergentes en el desarrollo de software asistido por IA: la codificación intuitiva (vibe coding) y la codificación autónoma (agentic coding). Aunque ambos aprovechan los modelos de lenguaje de gran escala (LLMs), difieren fundamentalmente en autonomía, diseño arquitectónico y el rol del desarrollador. La codificación intuitiva enfatiza la interacción humana en el bucle mediante flujos de trabajo conversacionales basados en prompts que apoyan la ideación, experimentación y exploración creativa. En contraste, la codificación autónoma permite el desarrollo de software autónomo a través de agentes orientados a objetivos, capaces de planificar, ejecutar, probar e iterar tareas con mínima intervención humana. Proponemos una taxonomía detallada que abarca fundamentos conceptuales, modelos de ejecución, bucles de retroalimentación, mecanismos de seguridad, estrategias de depuración y ecosistemas de herramientas del mundo real. Mediante un análisis comparativo de flujos de trabajo y 20 casos de uso detallados, ilustramos cómo los sistemas intuitivos prosperan en la creación de prototipos en etapas tempranas y en educación, mientras que los sistemas autónomos destacan en automatización de nivel empresarial, refactorización de bases de código e integración de CI/CD. Además, examinamos tendencias emergentes en arquitecturas híbridas, donde las interfaces de lenguaje natural se combinan con pipelines de ejecución autónoma. Finalmente, articulamos una hoja de ruta futura para la IA autónoma, delineando la infraestructura necesaria para sistemas confiables, explicables y colaborativos. Nuestros hallazgos sugieren que el éxito de la ingeniería de software con IA no dependerá de elegir un paradigma, sino de armonizar sus fortalezas dentro de un ciclo de desarrollo unificado y centrado en el ser humano.
Los modelos modernos de razonamiento a gran escala demuestran capacidades impresionantes para resolver problemas al emplear estrategias de razonamiento sofisticadas. Sin embargo, a menudo luchan por equilibrar la eficiencia y la efectividad, generando con frecuencia cadenas de razonamiento innecesariamente largas para problemas simples. En este trabajo, proponemos AdaCtrl, un marco novedoso que permite tanto la asignación adaptativa del presupuesto de razonamiento basada en la dificultad como el control explícito del usuario sobre la profundidad del razonamiento. AdaCtrl ajusta dinámicamente la longitud de su razonamiento según la dificultad autoevaluada del problema, al mismo tiempo que permite a los usuarios controlar manualmente el presupuesto para priorizar la eficiencia o la efectividad. Esto se logra mediante una canalización de entrenamiento en dos etapas: una fase inicial de ajuste fino en frío para inculcar la capacidad de autoevaluar la dificultad y ajustar el presupuesto de razonamiento, seguida de una etapa de aprendizaje por refuerzo (RL) consciente de la dificultad que refina las estrategias de razonamiento adaptativo del modelo y calibra sus evaluaciones de dificultad según sus capacidades en evolución durante el entrenamiento en línea. Para permitir una interacción intuitiva con el usuario, diseñamos etiquetas explícitas activadas por longitud que funcionan como una interfaz natural para el control del presupuesto. Los resultados empíricos muestran que AdaCtrl adapta la longitud del razonamiento según la dificultad estimada; en comparación con la línea base de entrenamiento estándar que también incorpora ajuste fino y RL, obtiene mejoras en el rendimiento y, simultáneamente, reduce la longitud de las respuestas en un 10.06% y 12.14% en los conjuntos de datos más desafiantes AIME2024 y AIME2025, que requieren un razonamiento elaborado, y en un 62.05% y 91.04% en los conjuntos de datos MATH500 y GSM8K, donde respuestas más concisas son suficientes. Además, AdaCtrl permite un control preciso del usuario sobre el presupuesto de razonamiento, lo que posibilita respuestas personalizadas para satisfacer necesidades específicas.
Los Modelos de Razonamiento de Gran Escala (LRMs, por sus siglas en inglés) son criticados por la excesiva longitud de la Cadena de Pensamiento (CoT, Chain-of-Thought) necesaria para derivar la respuesta final, lo que resulta en una alta latencia tanto en el primer token como en general. Normalmente, la CoT de los LRMs combina múltiples unidades de pensamiento; cada unidad intenta producir una respuesta candidata a la consulta original. Por lo tanto, una idea natural para mejorar la eficiencia es reducir el número de unidades. Sin embargo, el hecho de que las unidades de pensamiento en la CoT estándar no puedan gestionarse explícitamente hace que esto sea un desafío. Este artículo introduce la Descomposición Multi-Turn (MinD, Multi-Turn Decomposition) para decodificar la CoT convencional en una secuencia de interacciones explícitas, estructuradas y por turnos, con el fin de cerrar esta brecha. En MinD, el modelo proporciona una respuesta multi-turno a la consulta, donde cada turno abarca una unidad de pensamiento y produce una respuesta correspondiente. Los turnos posteriores pueden reflexionar, verificar, revisar o explorar enfoques alternativos tanto en la parte de pensamiento como en la de respuesta de los turnos anteriores. Esto no solo permite que la respuesta se entregue más rápidamente, sino que también habilita controles explícitos sobre el proceso de razonamiento iterativo (es decir, los usuarios pueden detener o continuar en cualquier turno). Seguimos un paradigma de ajuste fino supervisado (SFT, Supervised Fine-Tuning) seguido de aprendizaje por refuerzo (RL, Reinforcement Learning) para implementar MinD. Primero, reformulamos las salidas de un LRM en formatos multi-turno mediante la solicitud a otro LLM (Modelo de Lenguaje de Gran Escala), y luego ajustamos el LRM con dichos datos. Al observar que el modelo ajustado tiende a consumir incluso más tokens que el original (probablemente debido a que los formatos multi-turno introducen tokens adicionales en las respuestas), proponemos aprovechar algoritmos de RL como GRPO para priorizar salidas correctas con menos turnos. Entrenado en el conjunto de datos MATH utilizando modelos R1-Distill, MinD puede lograr una reducción de hasta ~70% tanto en el uso de tokens de salida como en el tiempo hasta el primer token (TTFT, Time to First Token), manteniendo un rendimiento competitivo en benchmarks de razonamiento como MATH-500, AIME24, AMC23 y GPQA-Diamond.
El modelado Visual Autoregresivo (VAR) ha captado una atención significativa por su enfoque innovador de predicción a múltiples escalas, que ofrece mejoras sustanciales en eficiencia, escalabilidad y generalización zero-shot. Sin embargo, la metodología de lo grueso a lo fino inherente a VAR resulta en un crecimiento exponencial de la caché KV durante la inferencia, lo que genera un consumo considerable de memoria y redundancia computacional. Para abordar estos cuellos de botella, presentamos ScaleKV, un novedoso marco de compresión de la caché KV diseñado específicamente para arquitecturas VAR. ScaleKV aprovecha dos observaciones críticas: las demandas variables de caché en las diferentes capas del transformador y los patrones de atención distintos en distintas escalas. Basándose en estas ideas, ScaleKV clasifica las capas del transformador en dos grupos funcionales: bosquejadores y refinadores. Los bosquejadores exhiben una atención dispersa a través de múltiples escalas, lo que requiere una mayor capacidad de caché. Por el contrario, los refinadores concentran la atención en el mapa de tokens actual para procesar detalles locales, lo que reduce significativamente la capacidad de caché necesaria. ScaleKV optimiza la canalización de inferencia multiescala identificando bosquejadores y refinadores específicos para cada escala, facilitando una gestión diferenciada de la caché adaptada a cada nivel. La evaluación en la familia de modelos VAR de última generación para generación de imágenes a partir de texto, Infinity, demuestra que nuestro enfoque reduce efectivamente la memoria requerida para la caché KV al 10%, manteniendo la fidelidad a nivel de píxel.
El lenguaje hablado transmite significado no solo a través de palabras, sino también mediante la entonación, la emoción y el énfasis. El acento oracional, es decir, el énfasis que se coloca en palabras específicas dentro de una oración, es crucial para transmitir la intención del hablante y ha sido ampliamente estudiado en lingüística. En este trabajo, presentamos WHISTRESS, un enfoque libre de alineación para mejorar los sistemas de transcripción con detección de acento oracional. Para respaldar esta tarea, proponemos TINYSTRESS-15K, un conjunto de datos de entrenamiento sintético y escalable para la detección de acento oracional, generado mediante un proceso de creación de datos completamente automatizado. Entrenamos WHISTRESS en TINYSTRESS-15K y lo evaluamos frente a varias líneas base competitivas. Nuestros resultados muestran que WHISTRESS supera a los métodos existentes sin requerir información previa adicional durante el entrenamiento o la inferencia. Cabe destacar que, a pesar de haber sido entrenado con datos sintéticos, WHISTRESS demuestra una fuerte generalización cero-shot en diversos puntos de referencia. Página del proyecto: https://pages.cs.huji.ac.il/adiyoss-lab/whistress.
La cadena de pensamiento extensa (CoT, por sus siglas en inglés) mejora significativamente las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLM). Sin embargo, los extensos rastros de razonamiento generan ineficiencias y un aumento en el tiempo para el primer token (TTFT). Proponemos un nuevo paradigma de entrenamiento que utiliza aprendizaje por refuerzo (RL) para guiar a los modelos de razonamiento a intercalar el pensamiento y la respuesta en preguntas de múltiples saltos. Observamos que los modelos poseen inherentemente la capacidad de realizar razonamientos intercalados, la cual puede mejorarse aún más mediante RL. Introducimos una recompensa basada en reglas simple pero efectiva para incentivar pasos intermedios correctos, lo que guía al modelo de política hacia rutas de razonamiento correctas al aprovechar señales intermedias generadas durante el razonamiento intercalado. Experimentos exhaustivos realizados en cinco conjuntos de datos diversos y tres algoritmos de RL (PPO, GRPO y REINFORCE++) demuestran mejoras consistentes sobre el razonamiento tradicional de pensar-responder, sin requerir herramientas externas. Específicamente, nuestro enfoque reduce el TTFT en más del 80% en promedio y mejora hasta un 19.3% en la precisión Pass@1. Además, nuestro método, entrenado únicamente en conjuntos de datos de respuesta a preguntas y razonamiento lógico, exhibe una fuerte capacidad de generalización a conjuntos de datos de razonamiento complejo como MATH, GPQA y MMLU. Adicionalmente, realizamos un análisis en profundidad para revelar varias ideas valiosas sobre el modelado de recompensas condicionales.
La destilación centrada en datos, que incluye aumento, selección y mezcla de datos, ofrece un camino prometedor para crear modelos de lenguaje grandes (LLMs) estudiantiles más pequeños y eficientes que conserven fuertes capacidades de razonamiento. Sin embargo, aún falta un punto de referencia integral para evaluar sistemáticamente el efecto de cada enfoque de destilación. Este artículo presenta DC-CoT, el primer punto de referencia centrado en datos que investiga la manipulación de datos en la destilación de cadena de pensamiento (CoT) desde las perspectivas de método, modelo y datos. Utilizando varios modelos maestros (por ejemplo, o4-mini, Gemini-Pro, Claude-3.5) y arquitecturas estudiantiles (por ejemplo, 3B, 7B parámetros), evaluamos rigurosamente el impacto de estas manipulaciones de datos en el rendimiento del modelo estudiantil a través de múltiples conjuntos de datos de razonamiento, con un enfoque en la generalización dentro de la distribución (IID) y fuera de la distribución (OOD), y la transferencia entre dominios. Nuestros hallazgos tienen como objetivo proporcionar ideas prácticas y establecer mejores prácticas para optimizar la destilación CoT mediante técnicas centradas en datos, facilitando finalmente el desarrollo de modelos de razonamiento más accesibles y capaces. El conjunto de datos se puede encontrar en https://huggingface.co/datasets/rana-shahroz/DC-COT, mientras que nuestro código se comparte en https://anonymous.4open.science/r/DC-COT-FF4C/.
Los Modelos de Visión-Lenguaje (VLMs) sobresalen en muchas tareas multimodales directas, pero tienen dificultades para traducir esta capacidad en una toma de decisiones efectiva dentro de entornos interactivos y visualmente ricos, como los juegos. Esta brecha entre "saber y hacer" limita significativamente su potencial como agentes autónomos, ya que los VLMs líderes a menudo tienen un rendimiento deficiente en juegos simples. Para abordar esto, presentamos VLM-Gym, un entorno de aprendizaje por refuerzo (RL) curado que incluye diversos juegos visuales con interfaces unificadas y dificultad ajustable y composicional, específicamente diseñado para un entrenamiento paralelo escalable en múltiples juegos. Utilizando VLM-Gym, entrenamos modelos G0 mediante una evolución autónoma impulsada únicamente por RL, los cuales demuestran patrones emergentes de percepción y razonamiento. Para mitigar aún más los desafíos derivados de la diversidad de juegos, desarrollamos modelos G1. G1 incorpora un inicio frío mejorado en percepción antes del ajuste fino mediante RL. Nuestros modelos G1 resultantes superan consistentemente a su maestro en todos los juegos y superan a modelos propietarios líderes como Claude-3.7-Sonnet-Thinking. Un análisis sistemático revela un hallazgo intrigante: las habilidades de percepción y razonamiento se refuerzan mutuamente durante el proceso de entrenamiento con RL. El código fuente, incluyendo VLM-Gym y el entrenamiento de RL, se ha publicado en https://github.com/chenllliang/G1 para fomentar futuras investigaciones en el avance de los VLMs como agentes interactivos capaces.
Aprovechando los codificadores visuales entrenados de manera contrastiva en imágenes a gran escala de escenas naturales, los Modelos Multimodales de Gran Escala (LMMs) han logrado un rendimiento notable en diversas tareas de percepción visual. Sin embargo, las limitaciones inherentes del aprendizaje contrastivo basado en descripciones resumidas restringen fundamentalmente las capacidades de los modelos en el razonamiento meticuloso, particularmente en escenarios cruciales de resolución de problemas geométricos. Para mejorar la comprensión geométrica, proponemos un novedoso marco de aprendizaje contrastivo con negativos difíciles para el codificador visual, que combina el aprendizaje contrastivo basado en imágenes utilizando negativos difíciles generados mediante la perturbación del código de generación de diagramas, y el aprendizaje contrastivo basado en texto utilizando negativos basados en reglas derivados de descripciones geométricas modificadas y negativos basados en recuperación seleccionados según la similitud de los subtítulos. Entrenamos CLIP utilizando nuestro método de aprendizaje con negativos fuertes, denominado MMCLIP (Multimodal Math CLIP), y posteriormente entrenamos un LMM para la resolución de problemas geométricos. Los experimentos muestran que nuestro modelo entrenado, MMGeoLM, supera significativamente a otros modelos de código abierto en tres benchmarks de razonamiento geométrico. Incluso con un tamaño de 7B, puede rivalizar con modelos potentes de código cerrado como GPT-4o. Además, estudiamos el impacto de diferentes métodos de construcción de muestras negativas y el número de muestras negativas en el rendimiento del razonamiento geométrico de los LMM, obteniendo conclusiones fructíferas. El código y el conjunto de datos están disponibles en https://github.com/THU-KEG/MMGeoLM.
Los recientes avances en los modelos de generación de video han despertado interés en los modelos de mundo capaces de simular entornos realistas. Si bien la navegación ha sido ampliamente explorada, las interacciones físicamente significativas que imitan fuerzas del mundo real siguen siendo en gran parte poco estudiadas. En este trabajo, investigamos el uso de fuerzas físicas como señal de control para la generación de video y proponemos "force prompts" (indicaciones de fuerza) que permiten a los usuarios interactuar con imágenes mediante fuerzas puntuales localizadas, como empujar una planta, y campos de fuerza globales, como el viento soplando sobre una tela. Demostramos que estas indicaciones de fuerza pueden hacer que los videos respondan de manera realista a señales de control físico aprovechando el conocimiento visual y de movimiento previo en el modelo preentrenado original, sin utilizar ningún recurso 3D o simulador de física durante la inferencia. El principal desafío de las indicaciones de fuerza es la dificultad de obtener datos de entrenamiento de alta calidad emparejados fuerza-video, tanto en el mundo real debido a la dificultad de obtener señales de fuerza, como en datos sintéticos debido a las limitaciones en la calidad visual y la diversidad de dominios de los simuladores de física. Nuestro hallazgo clave es que los modelos de generación de video pueden generalizar notablemente bien cuando se adaptan para seguir el condicionamiento de fuerzas físicas a partir de videos sintetizados con Blender, incluso con demostraciones limitadas de pocos objetos. Nuestro método puede generar videos que simulan fuerzas en diversas geometrías, entornos y materiales. También intentamos comprender la fuente de esta generalización y realizamos ablaciones que revelan dos elementos clave: la diversidad visual y el uso de palabras clave específicas durante el entrenamiento. Nuestro enfoque se entrena con solo alrededor de 15,000 ejemplos de entrenamiento durante un solo día en cuatro GPUs A100, y supera a los métodos existentes en adherencia a la fuerza y realismo físico, acercando los modelos de mundo a las interacciones físicas del mundo real. Publicamos todos los conjuntos de datos, código, pesos y demostraciones de video interactivas en nuestra página del proyecto.
Los avances recientes en agentes de inteligencia artificial han demostrado su creciente potencial para impulsar y apoyar el descubrimiento científico. En este trabajo, presentamos MLR-Bench, un punto de referencia integral para evaluar agentes de IA en investigación de aprendizaje automático de código abierto. MLR-Bench incluye tres componentes clave: (1) 201 tareas de investigación extraídas de talleres de NeurIPS, ICLR e ICML que cubren diversos temas de aprendizaje automático; (2) MLR-Judge, un marco de evaluación automatizado que combina revisores basados en LLM con rúbricas de revisión cuidadosamente diseñadas para evaluar la calidad de la investigación; y (3) MLR-Agent, un andamiaje modular de agentes capaz de completar tareas de investigación a través de cuatro etapas: generación de ideas, formulación de propuestas, experimentación y redacción de artículos. Nuestro marco permite tanto la evaluación paso a paso en estas distintas etapas de investigación como la evaluación integral del artículo de investigación final. Luego, utilizamos MLR-Bench para evaluar seis LLMs de vanguardia y un agente de codificación avanzado, encontrando que, aunque los LLMs son efectivos para generar ideas coherentes y artículos bien estructurados, los agentes de codificación actuales frecuentemente (por ejemplo, en el 80% de los casos) producen resultados experimentales fabricados o no validados, lo que representa una barrera importante para la confiabilidad científica. Validamos MLR-Judge mediante evaluación humana, mostrando un alto acuerdo con revisores expertos, lo que respalda su potencial como una herramienta escalable para la evaluación de investigación. Hacemos público MLR-Bench para ayudar a la comunidad a evaluar, diagnosticar y mejorar los agentes de investigación de IA hacia un descubrimiento científico confiable y transparente.
Este artículo presenta InfantAgent-Next, un agente generalista capaz de interactuar con computadoras de manera multimodal, abarcando texto, imágenes, audio y video. A diferencia de los enfoques existentes que construyen flujos de trabajo complejos alrededor de un único modelo grande o que solo ofrecen modularidad en los flujos de trabajo, nuestro agente integra agentes basados en herramientas y agentes de visión pura dentro de una arquitectura altamente modular, permitiendo que diferentes modelos colaboren para resolver tareas desacopladas de manera paso a paso. Nuestra generalidad se demuestra por la capacidad de evaluar no solo puntos de referencia del mundo real basados únicamente en visión (es decir, OSWorld), sino también puntos de referencia más generales o intensivos en herramientas (por ejemplo, GAIA y SWE-Bench). Específicamente, logramos un 7.27% de precisión en OSWorld, superando a Claude-Computer-Use. Los códigos y scripts de evaluación están disponibles en código abierto en https://github.com/bin123apple/InfantAgent.
Las crecientes demandas computacionales de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) hacen que las estrategias eficientes de inferencia y activación sean cada vez más críticas. Si bien enfoques recientes, como Mixture-of-Experts (MoE), aprovechan la activación selectiva pero requieren entrenamiento especializado, los métodos de activación dispersa sin entrenamiento ofrecen una aplicabilidad más amplia y una eficiencia de recursos superior gracias a su diseño plug-and-play. Sin embargo, muchos métodos existentes se basan únicamente en las magnitudes de los estados ocultos para determinar la activación, lo que resulta en errores de aproximación elevados y una precisión de inferencia subóptima. Para abordar estas limitaciones, proponemos WINA (Weight Informed Neuron Activation), un marco novedoso, simple y sin entrenamiento para la activación dispersa que considera conjuntamente las magnitudes de los estados ocultos y las normas ell_2 por columna de las matrices de pesos. Demostramos que esto conduce a una estrategia de esparsificación que obtiene límites óptimos de error de aproximación con garantías teóricas más estrictas que las técnicas existentes. Empíricamente, WINA también supera a los métodos de vanguardia (por ejemplo, TEAL) hasta en un 2.94% en el rendimiento promedio con los mismos niveles de dispersión, en una variedad de arquitecturas de LLMs y conjuntos de datos. Estos resultados posicionan a WINA como una nueva frontera de rendimiento para la activación dispersa sin entrenamiento en la inferencia de LLMs, avanzando en los métodos de activación dispersa sin entrenamiento y estableciendo una base robusta para la inferencia eficiente. El código fuente está disponible en https://github.com/microsoft/wina.
Los recientes avances en el Reconocimiento Automático del Habla (ASR, por sus siglas en inglés) han sido impulsados en gran medida por el uso de grandes corpus de voz. Sin embargo, extender la cobertura a idiomas diversos con recursos limitados sigue siendo un desafío formidable. Este artículo presenta Speech Back-Translation, una pipeline escalable que mejora los modelos multilingües de ASR al convertir grandes corpus de texto en voz sintética mediante modelos de texto a voz (TTS) disponibles comercialmente. Demostramos que solo unas decenas de horas de voz transcrita real pueden entrenar eficazmente modelos TTS para generar voz sintética a un volumen cientos de veces mayor que el original, manteniendo una alta calidad. Para evaluar la calidad de la voz sintética, desarrollamos un marco de evaluación basado en la inteligibilidad y establecemos umbrales claros para determinar cuándo los datos sintéticos benefician el entrenamiento de ASR. Utilizando Speech Back-Translation, generamos más de 500,000 horas de voz sintética en diez idiomas y continuamos el preentrenamiento de Whisper-large-v3, logrando reducciones promedio de errores de transcripción superiores al 30%. Estos resultados destacan la escalabilidad y efectividad de Speech Back-Translation para mejorar los sistemas multilingües de ASR.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades notables en diversas tareas, aunque aún se encuentran significativamente rezagados frente a los humanos en razonamiento espacial. Investigamos esta brecha a través del Razonamiento Visual Impulsado por Transformaciones (TVR, por sus siglas en inglés), una tarea desafiante que requiere la identificación de transformaciones de objetos en imágenes bajo diferentes puntos de vista. Mientras que el Ajuste Fino Supervisado (SFT, por sus siglas en inglés) tradicional no logra generar trayectorias de razonamiento coherentes en entornos de vistas cruzadas, el Aprendizaje por Refuerzo (RL, por sus siglas en inglés) con recompensas escasas sufre de exploración ineficiente y convergencia lenta. Para abordar estas limitaciones, proponemos STAR-R1, un marco novedoso que integra un paradigma de RL de una sola etapa con un mecanismo de recompensa detallado diseñado específicamente para TVR. En concreto, STAR-R1 recompensa la corrección parcial mientras penaliza la enumeración excesiva y la inacción pasiva, permitiendo una exploración eficiente y un razonamiento preciso. Evaluaciones exhaustivas demuestran que STAR-R1 alcanza un rendimiento de vanguardia en los 11 métricos evaluados, superando a SFT en un 23% en escenarios de vistas cruzadas. Un análisis adicional revela el comportamiento antropomórfico de STAR-R1 y destaca su capacidad única para comparar todos los objetos con el fin de mejorar el razonamiento espacial. Nuestro trabajo proporciona insights críticos para avanzar en la investigación de MLLMs y modelos de razonamiento. Los códigos, pesos del modelo y datos estarán disponibles públicamente en https://github.com/zongzhao23/STAR-R1.
Si bien los Modelos de Difusión Enmascarada (MDMs, por sus siglas en inglés), como LLaDA, presentan un paradigma prometedor para el modelado del lenguaje, se ha realizado relativamente poco esfuerzo en alinear estos modelos con las preferencias humanas mediante el aprendizaje por refuerzo. El desafío surge principalmente de la alta varianza en las estimaciones de probabilidad basadas en el Límite Inferior de la Evidencia (ELBO, por sus siglas en inglés) requeridas para la optimización de preferencias. Para abordar este problema, proponemos la Optimización de Preferencias con Reducción de Varianza (VRPO, por sus siglas en inglés), un marco que analiza formalmente la varianza de los estimadores ELBO y deriva límites tanto en el sesgo como en la varianza de los gradientes de optimización de preferencias. Basándonos en este fundamento teórico, introducimos estrategias de reducción de varianza sin sesgo, incluyendo la asignación óptima del presupuesto de Monte Carlo y el muestreo antitético, que mejoran significativamente el rendimiento de la alineación de los MDMs. Demostramos la efectividad de VRPO aplicándolo a LLaDA, y el modelo resultante, LLaDA 1.5, supera consistentemente y de manera significativa a su predecesor entrenado únicamente con ajuste fino supervisado (SFT) en benchmarks matemáticos (GSM8K +4.7), de código (HumanEval +3.0, MBPP +1.8) y de alineación (IFEval +4.0, Arena-Hard +4.3). Además, LLaDA 1.5 demuestra un rendimiento matemático altamente competitivo en comparación con otros MDMs y ARMs de lenguaje potentes. Página del proyecto: https://ml-gsai.github.io/LLaDA-1.5-Demo/.
Los grandes modelos de lenguaje sobresalen en la coincidencia de patrones, pero a menudo fallan en la generalización composicional sistemática. Proponemos el principio de cobertura: un marco centrado en los datos que muestra que los modelos que dependen principalmente de la coincidencia de patrones para tareas composicionales no pueden generalizar de manera confiable más allá de sustituir fragmentos que producen resultados idénticos cuando se usan en los mismos contextos. Demostramos que este marco tiene un fuerte poder predictivo para las capacidades de generalización de los Transformers. Primero, derivamos y confirmamos empíricamente que los datos de entrenamiento requeridos para la generalización de dos saltos crecen al menos cuadráticamente con el tamaño del conjunto de tokens, y que la eficiencia de los datos de entrenamiento no mejora con un escalado de parámetros de 20x. Segundo, para tareas composicionales con ambigüedad de ruta donde una variable afecta la salida a través de múltiples rutas computacionales, mostramos que los Transformers aprenden representaciones de estado dependientes del contexto que socavan tanto el rendimiento como la interoperabilidad. Tercero, la supervisión de Cadena de Pensamiento mejora la eficiencia de los datos de entrenamiento para tareas de múltiples saltos, pero aún lucha con la ambigüedad de ruta. Finalmente, esbozamos una taxonomía basada en mecanismos que distingue tres formas en que las redes neuronales pueden generalizar: basada en estructura (limitada por la cobertura), basada en propiedades (aprovechando invarianzas algebraicas) y de operador compartido (a través de la reutilización de funciones). Esta lente conceptual contextualiza nuestros resultados y destaca dónde se necesitan nuevas ideas arquitectónicas para lograr una composicionalidad sistemática. En general, el principio de cobertura proporciona una lente unificada para entender el razonamiento composicional, y subraya la necesidad de innovaciones arquitectónicas o de entrenamiento fundamentales para lograr una composicionalidad verdaderamente sistemática.
Los ataques de inferencia de membresía (MIAs, por sus siglas en inglés) más avanzados suelen requerir el entrenamiento de muchos modelos de referencia, lo que dificulta escalar estos ataques a modelos de lenguaje preentrenados (LLMs) de gran escala. Como resultado, investigaciones previas han dependido de ataques más débiles que evitan entrenar modelos de referencia (por ejemplo, ataques de ajuste fino) o de ataques más fuertes aplicados a modelos y conjuntos de datos de pequeña escala. Sin embargo, se ha demostrado que los ataques más débiles son frágiles, logrando un éxito cercano a lo arbitrario, y las conclusiones de ataques fuertes en entornos simplificados no se trasladan a los LLMs actuales. Estos desafíos han planteado una pregunta importante: ¿las limitaciones observadas en trabajos previos se deben a decisiones de diseño del ataque o los MIAs son fundamentalmente ineficaces en LLMs? Abordamos esta pregunta escalando LiRA, uno de los MIAs más fuertes, a arquitecturas GPT-2 que van desde 10M hasta 1B de parámetros, entrenando modelos de referencia con más de 20B de tokens del conjunto de datos C4. Nuestros resultados avanzan en la comprensión de los MIAs en LLMs de tres maneras clave: (1) los MIAs fuertes pueden tener éxito en LLMs preentrenados; (2) su efectividad, sin embargo, sigue siendo limitada (por ejemplo, AUC<0.7) en entornos prácticos; y (3) la relación entre el éxito del MIA y las métricas de privacidad relacionadas no es tan directa como sugerían trabajos anteriores.
Los modelos fundacionales están convirtiéndose cada vez más en programadores autónomos más competentes, lo que plantea la posibilidad de que también puedan automatizar operaciones cibernéticas ofensivas peligrosas. Las auditorías actuales de modelos de vanguardia investigan los riesgos de ciberseguridad de estos agentes, pero la mayoría no tiene en cuenta los grados de libertad disponibles para los adversarios en el mundo real. En particular, con verificadores robustos e incentivos financieros, los agentes para la ciberseguridad ofensiva son susceptibles de mejora iterativa por parte de potenciales adversarios. Argumentamos que las evaluaciones deberían considerar un modelo de amenaza ampliado en el contexto de la ciberseguridad, enfatizando los distintos grados de libertad que un adversario puede poseer en entornos con y sin estado, dentro de un presupuesto de cómputo fijo. Demostramos que, incluso con un presupuesto de cómputo relativamente pequeño (8 horas de GPU H100 en nuestro estudio), los adversarios pueden mejorar la capacidad de ciberseguridad de un agente en InterCode CTF en más de un 40 % respecto a la línea base, sin ninguna asistencia externa. Estos resultados subrayan la necesidad de evaluar el riesgo de ciberseguridad de los agentes de manera dinámica, ofreciendo una imagen más representativa del riesgo.
El Aprendizaje por Refuerzo Tradicional a partir de Retroalimentación Humana (RLHF) a menudo depende de modelos de recompensa, asumiendo frecuentemente estructuras de preferencia como el modelo de Bradley-Terry, que puede no capturar con precisión las complejidades de las preferencias humanas reales (por ejemplo, la intransitividad). El Aprendizaje de Nash a partir de Retroalimentación Humana (NLHF) ofrece una alternativa más directa al plantear el problema como la búsqueda de un equilibrio de Nash en un juego definido por estas preferencias. En este trabajo, presentamos Nash Mirror Prox (Nash-MP), un algoritmo en línea de NLHF que aprovecha el esquema de optimización Mirror Prox para lograr una convergencia rápida y estable hacia el equilibrio de Nash. Nuestro análisis teórico establece que Nash-MP exhibe una convergencia lineal de última iteración hacia el equilibrio de Nash beta-regularizado. Específicamente, demostramos que la divergencia KL hacia la política óptima disminuye a una tasa de orden (1+2beta)^{-N/2}, donde N es el número de consultas de preferencia. Además, demostramos una convergencia lineal de última iteración para la brecha de explotabilidad y de manera uniforme para la semi-norma de span de los logaritmos de probabilidades, siendo todas estas tasas independientes del tamaño del espacio de acciones. Asimismo, proponemos y analizamos una versión aproximada de Nash-MP donde los pasos proximales se estiman utilizando gradientes de política estocásticos, acercando el algoritmo a aplicaciones prácticas. Finalmente, detallamos una estrategia de implementación práctica para el ajuste fino de modelos de lenguaje grandes y presentamos experimentos que demuestran su rendimiento competitivo y compatibilidad con métodos existentes.
El aprendizaje por refuerzo muestra potencial para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes, aunque resulta difícil escalar debido a la baja eficiencia de muestreo durante la fase de ejecución. Los métodos existentes intentan mejorar la eficiencia programando problemas según su dificultad. Sin embargo, estos enfoques sufren de estimaciones inestables y sesgadas de la dificultad de los problemas y no logran captar la alineación entre la competencia del modelo y la dificultad del problema durante el entrenamiento por refuerzo, lo que conduce a resultados subóptimos. Para abordar estas limitaciones, este artículo introduce el Muestreo de Alineación Competencia-Dificultad (CDAS, por sus siglas en inglés), que permite una estimación precisa y estable de la dificultad de los problemas mediante la agregación de discrepancias históricas en el rendimiento de los problemas. Luego, la competencia del modelo se cuantifica para seleccionar de manera adaptativa problemas cuya dificultad esté alineada con la competencia actual del modelo utilizando un sistema de punto fijo. Los resultados experimentales en una variedad de desafiantes benchmarks matemáticos muestran que CDAS logra grandes mejoras tanto en precisión como en eficiencia. CDAS alcanza la mayor precisión promedio en comparación con los métodos base y exhibe ventajas significativas en velocidad frente a Muestreo Dinámico, una estrategia competitiva en DAPO, que es 2.33 veces más lenta que CDAS.
Con el creciente éxito de los modelos de razonamiento en tareas complejas de lenguaje natural, los investigadores en la comunidad de Recuperación de Información (RI) han comenzado a explorar cómo capacidades de razonamiento similares pueden integrarse en sistemas de reranking de pasajes basados en Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Estos métodos suelen emplear un LLM para generar un proceso de razonamiento explícito y paso a paso antes de llegar a una predicción final de relevancia. Pero, ¿realmente mejora el razonamiento la precisión del reranking? En este artículo, profundizamos en esta pregunta, estudiando el impacto del proceso de razonamiento al comparar sistemas de reranking puntual basados en razonamiento (ReasonRR) con sistemas de reranking puntual estándar sin razonamiento (StandardRR) bajo condiciones de entrenamiento idénticas, y observamos que StandardRR generalmente supera a ReasonRR. Basándonos en esta observación, estudiamos la importancia del razonamiento para ReasonRR al desactivar su proceso de razonamiento (ReasonRR-NoReason), y encontramos que ReasonRR-NoReason es sorprendentemente más efectivo que ReasonRR. Al examinar la causa de este resultado, nuestros hallazgos revelan que los sistemas de reranking basados en razonamiento están limitados por el proceso de razonamiento del LLM, que lo lleva hacia puntuaciones de relevancia polarizadas y, por lo tanto, no considera la relevancia parcial de los pasajes, un factor clave para la precisión de los sistemas de reranking puntual.
Los Autoencoders Dispersos (SAEs, por sus siglas en inglés) son una herramienta destacada en la interpretabilidad mecanicista (MI) para descomponer las activaciones de redes neuronales en características interpretables. Sin embargo, la aspiración de identificar un conjunto canónico de características se ve desafiada por la inconsistencia observada en las características aprendidas por los SAEs en diferentes ejecuciones de entrenamiento, lo que socava la confiabilidad y eficiencia de la investigación en MI. Este documento de posición argumenta que la interpretabilidad mecanicista debería priorizar la consistencia de características en los SAEs, es decir, la convergencia confiable hacia conjuntos de características equivalentes en ejecuciones independientes. Proponemos utilizar el Coeficiente de Correlación Media de Diccionarios por Pares (PW-MCC) como una métrica práctica para operacionalizar la consistencia y demostramos que es posible alcanzar niveles altos (0.80 para SAEs TopK en activaciones de LLM) con elecciones arquitectónicas adecuadas. Nuestras contribuciones incluyen detallar los beneficios de priorizar la consistencia; proporcionar fundamentos teóricos y validación sintética utilizando un organismo modelo, lo que verifica que el PW-MCC es un indicador confiable para la recuperación de la verdad fundamental; y extender estos hallazgos a datos reales de LLM, donde una alta consistencia de características se correlaciona fuertemente con la similitud semántica de las explicaciones de las características aprendidas. Hacemos un llamado para un cambio comunitario hacia la medición sistemática de la consistencia de características, con el fin de fomentar un progreso acumulativo robusto en MI.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades excepcionales en el campo de la respuesta a preguntas biomédicas, pero su aplicación en consultas clínicas del mundo real aún enfrenta desafíos fundamentales. Los sistemas existentes dependen de un modo de transmisión de información unidireccional, donde los pacientes deben describir completamente sus síntomas en una sola ronda, lo que lleva a recomendaciones diagnósticas poco específicas cuando las quejas son vagas. Los métodos tradicionales de diálogo multiturno basados en aprendizaje supervisado están limitados por paradigmas estáticos basados en datos, careciendo de generalización y luchando por extraer inteligentemente información clínica clave. Para abordar estas limitaciones, proponemos DoctorAgent-RL, un marco colaborativo multiagente basado en aprendizaje por refuerzo (RL, por sus siglas en inglés) que modela las consultas médicas como un proceso dinámico de toma de decisiones bajo incertidumbre. El agente médico optimiza continuamente su estrategia de preguntas dentro del marco de RL a través de interacciones multiturno con el agente paciente, ajustando dinámicamente su ruta de recopilación de información basándose en recompensas integrales del Evaluador de Consultas. Este mecanismo de ajuste fino mediante RL permite que los LLMs desarrollen autónomamente estrategias de interacción alineadas con la lógica del razonamiento clínico, en lugar de imitar superficialmente patrones en datos de diálogo existentes. Cabe destacar que construimos MTMedDialog, el primer conjunto de datos de consultas médicas multiturno en inglés capaz de simular interacciones con pacientes. Los experimentos demuestran que DoctorAgent-RL supera a los modelos existentes tanto en capacidad de razonamiento multiturno como en rendimiento diagnóstico final, demostrando un valor práctico en la asistencia de consultas clínicas. https://github.com/JarvisUSTC/DoctorAgent-RL
Los avances recientes en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han introducido el razonamiento latente como una alternativa prometedora al razonamiento autoregresivo. Al realizar cálculos internos con estados ocultos de pasos anteriores, el razonamiento latente se beneficia de características más informativas en lugar de muestrear una cadena de pensamiento (CoT, por sus siglas en inglés) discreta. Sin embargo, los enfoques de razonamiento latente suelen ser incompatibles con los LLMs, ya que su paradigma continuo entra en conflicto con la naturaleza discreta de la generación autoregresiva. Además, estos métodos dependen de trazas de CoT para el entrenamiento y, por lo tanto, no logran explotar los patrones de razonamiento inherentes de los LLMs. En este trabajo, exploramos el razonamiento latente aprovechando las capacidades intrínsecas de los LLMs mediante el aprendizaje por refuerzo (RL, por sus siglas en inglés). Para ello, introducimos la optimización de políticas de razonamiento híbrido (HRPO, por sus siglas en inglés), un enfoque de razonamiento latente híbrido basado en RL que (1) integra estados ocultos previos en tokens muestreados mediante un mecanismo de compuerta aprendible, y (2) inicializa el entrenamiento predominantemente con incrustaciones de tokens mientras incorpora progresivamente más características ocultas. Este diseño mantiene las capacidades generativas de los LLMs e incentiva el razonamiento híbrido utilizando representaciones tanto discretas como continuas. Además, el HRPO híbrido introduce estocasticidad en el razonamiento latente mediante el muestreo de tokens, lo que permite la optimización basada en RL sin requerir trayectorias de CoT. Evaluaciones exhaustivas en diversos benchmarks muestran que HRPO supera a métodos anteriores tanto en tareas intensivas en conocimiento como en razonamiento. Además, los LLMs entrenados con HRPO siguen siendo interpretables y exhiben comportamientos intrigantes, como patrones multilingües y longitudes de completado más cortas, lo que destaca el potencial de nuestro enfoque basado en RL y ofrece perspectivas para futuros trabajos en razonamiento latente.
La cartografía activa generalizable en entornos complejos y desconocidos sigue siendo un desafío crítico para los robots móviles. Los métodos existentes, limitados por datos de entrenamiento insuficientes y estrategias de exploración conservadoras, muestran una generalización limitada en escenarios con diseños diversos y conectividad compleja. Para permitir un entrenamiento escalable y una evaluación confiable, presentamos GLEAM-Bench, el primer punto de referencia a gran escala diseñado para la cartografía activa generalizable, con 1,152 escenas 3D diversas provenientes de conjuntos de datos sintéticos y de escaneos reales. Sobre esta base, proponemos GLEAM, una política de exploración generalizable unificada para la cartografía activa. Su superior generalización se debe principalmente a nuestras representaciones semánticas, objetivos navegables a largo plazo y estrategias aleatorizadas. Este método supera significativamente a los métodos más avanzados, logrando un 66.50% de cobertura (+9.49%) con trayectorias eficientes y una precisión mejorada en la cartografía de 128 escenas complejas no vistas. Página del proyecto: https://xiao-chen.tech/gleam/.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen estar alineados para cumplir con directrices de seguridad al rechazar instrucciones dañinas. Un ataque reciente, denominado abliteración, aísla y suprime la única dirección latente más responsable del comportamiento de rechazo, permitiendo que el modelo genere contenido no ético. Proponemos una defensa que modifica cómo los modelos generan rechazos. Construimos un conjunto de datos de rechazo extendido que contiene indicaciones dañinas con una respuesta completa que justifica la razón del rechazo. Luego, ajustamos mediante fine-tuning los modelos Llama-2-7B-Chat y Qwen2.5-Instruct (con 1.5B y 3B parámetros) en nuestro conjunto de datos de rechazo extendido, y evaluamos los sistemas resultantes en un conjunto de indicaciones dañinas. En nuestros experimentos, los modelos con rechazo extendido mantienen altas tasas de rechazo, disminuyendo como máximo en un 10%, mientras que las tasas de rechazo de los modelos base caen entre un 70-80% después de la abliteración. Una evaluación amplia de seguridad y utilidad muestra que el fine-tuning de rechazo extendido neutraliza el ataque de abliteración mientras preserva el rendimiento general.
El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha desempeñado un papel central en el reciente auge de las capacidades matemáticas de los Modelos de Lenguaje de Gran Escala (LLMs), permitiendo la auto-mejora a través de señales binarias de verificación. En contraste, el Aprendizaje Supervisado (SL) rara vez se considera para este tipo de entrenamiento basado en verificación, principalmente debido a su fuerte dependencia de respuestas de referencia y su incapacidad para reflexionar sobre los errores. En este trabajo, cuestionamos la noción predominante de que la auto-mejora es exclusiva del RL y proponemos el Ajuste Fino Consciente de lo Negativo (NFT, por sus siglas en inglés) — un enfoque supervisado que permite a los LLMs reflexionar sobre sus fallos y mejorar de manera autónoma sin la necesidad de maestros externos. En el entrenamiento en línea, en lugar de descartar las respuestas negativas generadas por el propio modelo, el NFT construye una política negativa implícita para modelarlas. Esta política implícita se parametriza con el mismo LLM positivo que buscamos optimizar con datos positivos, permitiendo la optimización directa de la política sobre todas las generaciones del LLM. Realizamos experimentos en modelos de 7B y 32B en tareas de razonamiento matemático. Los resultados muestran consistentemente que, al aprovechar adicionalmente la retroalimentación negativa, el NFT mejora significativamente sobre los baselines de SL como el Ajuste Fino por Muestreo de Rechazo, igualando o incluso superando a algoritmos líderes de RL como GRPO y DAPO. Además, demostramos que el NFT y el GRPO son en realidad equivalentes en un entrenamiento estrictamente en política, a pesar de originarse en fundamentos teóricos completamente diferentes. Nuestros experimentos y hallazgos teóricos cierran la brecha entre los métodos de SL y RL en sistemas de aprendizaje con retroalimentación binaria.
Los Modelos de Lenguaje de Gran Escala (LLMs) son propensos a la alucinación, especialmente durante tareas de múltiples pasos y que requieren razonamiento intensivo, como la resolución de problemas matemáticos. Mientras que los Modelos de Recompensa de Resultados verifican únicamente las respuestas finales, los Modelos de Recompensa de Proceso (PRMs) puntúan cada paso intermedio para guiar la generación hacia soluciones coherentes. Presentamos PathFinder-PRM, un PRM discriminativo novedoso, jerárquico y consciente de errores, que primero clasifica errores matemáticos y de consistencia en cada paso, luego combina estas señales detalladas para estimar la corrección del paso. Para entrenar PathFinder-PRM, construimos un conjunto de datos de 400K muestras enriqueciendo el corpus PRM800K anotado por humanos y los rastros de RLHFlow Mistral con etiquetas tridimensionales a nivel de paso. En PRMBench, PathFinder-PRM alcanza un nuevo estado del arte con un PRMScore de 67.7, superando el mejor anterior (65.5) mientras utiliza 3 veces menos datos. Cuando se aplica a la búsqueda voraz guiada por recompensas, nuestro modelo obtiene un prm@8 de 48.3, una mejora de +1.5 puntos sobre la línea base más fuerte. Estos resultados demuestran que la detección de errores desacoplada y la estimación de recompensas no solo mejoran la detección de errores detallada, sino que también mejoran sustancialmente el razonamiento matemático guiado por recompensas de extremo a extremo con mayor eficiencia de datos.
Durante casi una década, la comunidad académica ha investigado las puertas traseras en redes neuronales, centrándose principalmente en tareas de clasificación donde los adversarios manipulan la predicción del modelo. Aunque claramente maliciosos, el impacto inmediato en el mundo real de estos ataques que alteran las predicciones ha permanecido poco claro. En este artículo, presentamos una clase novedosa y significativamente más potente de puertas traseras que se basa en avances recientes en puertas traseras arquitectónicas. Demostramos cómo estas puertas traseras pueden ser diseñadas específicamente para explotar la inferencia por lotes, una técnica común para la utilización de hardware, permitiendo la manipulación y el robo de datos de usuarios a gran escala. Al apuntar al proceso de lotes, estas puertas traseras arquitectónicas facilitan la fuga de información entre solicitudes concurrentes de usuarios y permiten a los atacantes controlar completamente las respuestas del modelo dirigidas a otros usuarios dentro del mismo lote. En otras palabras, un atacante que pueda cambiar la arquitectura del modelo puede establecer y robar las entradas y salidas del modelo de otros usuarios dentro del mismo lote. Mostramos que tales ataques no solo son factibles, sino también alarmantemente efectivos, pueden inyectarse fácilmente en arquitecturas de modelos prevalentes y representan una amenaza verdaderamente maliciosa para la privacidad del usuario y la integridad del sistema. De manera crítica, para contrarrestar esta nueva clase de vulnerabilidades, proponemos una estrategia de mitigación determinista que proporciona garantías formales contra este nuevo vector de ataque, a diferencia de trabajos previos que dependían de Modelos de Lenguaje de Gran Escala para encontrar las puertas traseras. Nuestra estrategia de mitigación emplea un novedoso mecanismo de Control de Flujo de Información que analiza el gráfico del modelo y demuestra la no interferencia entre diferentes entradas de usuario dentro del mismo lote. Utilizando nuestra estrategia de mitigación, realizamos un análisis a gran escala de modelos alojados en Hugging Face y encontramos más de 200 modelos que introducen (involuntariamente) fugas de información entre entradas de lotes debido al uso de cuantización dinámica.
El post-entrenamiento ha demostrado su importancia para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Los principales métodos de post-entrenamiento pueden categorizarse en ajuste fino supervisado (SFT, por sus siglas en inglés) y ajuste fino por refuerzo (RFT, por sus siglas en inglés). El SFT es eficiente y se adapta bien a modelos de lenguaje pequeños, pero puede provocar sobreajuste y limitar las habilidades de razonamiento de modelos más grandes. En contraste, el RFT generalmente ofrece una mejor generalización, pero depende en gran medida de la fortaleza del modelo base. Para abordar las limitaciones del SFT y el RFT, proponemos el Ajuste Fino Unificado (UFT, por sus siglas en inglés), un nuevo paradigma de post-entrenamiento que unifica el SFT y el RFT en un único proceso integrado. El UFT permite que el modelo explore soluciones de manera efectiva mientras incorpora señales de supervisión informativas, cerrando la brecha entre memorizar y pensar subyacente en los métodos existentes. Cabe destacar que el UFT supera tanto al SFT como al RFT en general, independientemente del tamaño del modelo. Además, demostramos teóricamente que el UFT rompe el cuello de botella inherente de complejidad exponencial de muestras del RFT, mostrando por primera vez que el entrenamiento unificado puede acelerar exponencialmente la convergencia en tareas de razonamiento de largo horizonte.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) destacan en el razonamiento complejo mediante algoritmos de búsqueda, aunque las estrategias actuales suelen presentar un consumo masivo de tokens debido a la exploración redundante de pasos semánticamente equivalentes. Los métodos existentes de similitud semántica tienen dificultades para identificar con precisión dicha equivalencia en contextos específicos de dominio, como el razonamiento matemático. Para abordar este problema, proponemos EquivPruner, un enfoque simple pero efectivo que identifica y elimina acciones semánticamente equivalentes durante la búsqueda de razonamiento en LLMs. También presentamos MathEquiv, el primer conjunto de datos que creamos para la equivalencia de enunciados matemáticos, el cual permite entrenar un detector de equivalencia ligero. Experimentos exhaustivos en diversos modelos y tareas demuestran que EquivPruner reduce significativamente el consumo de tokens, mejorando la eficiencia de búsqueda y, en muchos casos, aumentando la precisión del razonamiento. Por ejemplo, al aplicarlo a Qwen2.5-Math-7B-Instruct en GSM8K, EquivPruner redujo el consumo de tokens en un 48.1\% y también mejoró la precisión. Nuestro código está disponible en https://github.com/Lolo1222/EquivPruner.
Un número creciente de modelos autorregresivos, como MAR, FlowAR, xAR y Harmon, adoptan el muestreo por difusión para mejorar la calidad de la generación de imágenes. Sin embargo, esta estrategia conduce a una baja eficiencia en la inferencia, ya que generalmente se requieren de 50 a 100 pasos de difusión para muestrear un token. Este artículo explora cómo abordar efectivamente este problema. Nuestra motivación clave es que, a medida que se generan más tokens durante el proceso autorregresivo, los tokens subsiguientes siguen distribuciones más restringidas y son más fáciles de muestrear. Para explicarlo de manera intuitiva, si un modelo ha generado parte de un perro, los tokens restantes deben completar el perro y, por lo tanto, están más limitados. La evidencia empírica respalda nuestra motivación: en las etapas posteriores de la generación, los siguientes tokens pueden ser bien predichos por un perceptrón multicapa, exhiben una baja varianza y siguen trayectorias de eliminación de ruido más cercanas a una línea recta, desde el ruido hasta los tokens. Basándonos en este hallazgo, introducimos el annealing de pasos de difusión (DiSA), un método que no requiere entrenamiento y que utiliza gradualmente menos pasos de difusión a medida que se generan más tokens, por ejemplo, usando 50 pasos al principio y disminuyendo gradualmente a 5 pasos en las etapas posteriores. Dado que DiSA se deriva de nuestro hallazgo específico sobre la difusión en modelos autorregresivos, es complementario a los métodos de aceleración existentes diseñados únicamente para la difusión. DiSA puede implementarse con solo unas pocas líneas de código en los modelos existentes y, aunque simple, logra una inferencia de 5 a 10 veces más rápida para MAR y Harmon, y de 1.4 a 2.5 veces más rápida para FlowAR y xAR, manteniendo la calidad de la generación.
La cuantificación de la incertidumbre es esencial para evaluar la confiabilidad y fiabilidad de los sistemas modernos de IA. Entre los enfoques existentes, la incertidumbre verbalizada, donde los modelos expresan su confianza a través del lenguaje natural, ha surgido como una solución ligera e interpretable en los modelos de lenguaje de gran escala (LLMs). Sin embargo, su efectividad en los modelos de visión y lenguaje (VLMs) sigue siendo insuficientemente estudiada. En este trabajo, realizamos una evaluación exhaustiva de la confianza verbalizada en VLMs, abarcando tres categorías de modelos, cuatro dominios de tareas y tres escenarios de evaluación. Nuestros resultados muestran que los VLMs actuales a menudo presentan una notable descalibración en diversas tareas y configuraciones. En particular, los modelos de razonamiento visual (es decir, pensar con imágenes) exhiben consistentemente una mejor calibración, lo que sugiere que el razonamiento específico de la modalidad es crucial para una estimación confiable de la incertidumbre. Para abordar aún más los desafíos de calibración, presentamos Visual Confidence-Aware Prompting, una estrategia de indicación en dos etapas que mejora la alineación de la confianza en entornos multimodales. En general, nuestro estudio destaca la descalibración inherente en los VLMs a través de las modalidades. Más ampliamente, nuestros hallazgos subrayan la importancia fundamental de la alineación de modalidades y la fidelidad del modelo para avanzar en sistemas multimodales confiables.
Los modelos de lenguaje recientes de gran escala, como Gemini-1.5, DeepSeek-V3 y Llama-4, adoptan cada vez más arquitecturas de Mezcla de Expertos (MoE, por sus siglas en inglés), las cuales ofrecen un equilibrio eficiente entre rendimiento y eficiencia al activar solo una fracción del modelo por token. Sin embargo, los investigadores académicos aún carecen de una plataforma MoE completamente abierta y de extremo a extremo para investigar la escalabilidad, el enrutamiento y el comportamiento de los expertos. Presentamos FLAME-MoE, un conjunto de investigación completamente de código abierto compuesto por siete modelos de solo decodificación, que van desde 38M hasta 1.7B de parámetros activos, cuya arquitectura—64 expertos con selección top-8 y 2 expertos compartidos—refleja de cerca los LLMs modernos de producción. Todos los pipelines de datos de entrenamiento, scripts, registros y puntos de control están disponibles públicamente para permitir experimentación reproducible. En seis tareas de evaluación, FLAME-MoE mejora la precisión promedio hasta en 3.4 puntos sobre líneas base densas entrenadas con el mismo número de operaciones de punto flotante (FLOPs). Aprovechando la transparencia completa del seguimiento del entrenamiento, presentamos análisis iniciales que muestran que (i) los expertos se especializan cada vez más en subconjuntos distintos de tokens, (ii) las matrices de coactivación permanecen dispersas, reflejando un uso diverso de los expertos, y (iii) el comportamiento de enrutamiento se estabiliza temprano en el entrenamiento. Todo el código, registros de entrenamiento y puntos de control del modelo están disponibles en https://github.com/cmu-flame/FLAME-MoE.
Los generadores de imágenes multimodales recientes, como GPT-4o, Gemini 2.0 Flash y Gemini 2.5 Pro, destacan por su capacidad para seguir instrucciones complejas, editar imágenes y mantener la consistencia conceptual. Sin embargo, aún son evaluados mediante conjuntos de herramientas desarticulados: benchmarks de texto a imagen (T2I) que carecen de condicionamiento multimodal, y benchmarks personalizados de generación de imágenes que pasan por alto la semántica composicional y el conocimiento común. Proponemos MMIG-Bench, un benchmark integral de Generación de Imágenes Multimodales que unifica estas tareas al emparejar 4,850 indicaciones de texto ricamente anotadas con 1,750 imágenes de referencia multivista en 380 temas, que abarcan humanos, animales, objetos y estilos artísticos. MMIG-Bench está equipado con un marco de evaluación de tres niveles: (1) métricas de bajo nivel para artefactos visuales y preservación de la identidad de objetos; (2) la novedosa Puntuación de Coincidencia de Aspectos (AMS, por sus siglas en inglés): una métrica de nivel medio basada en VQA que ofrece una alineación detallada entre la indicación y la imagen y muestra una fuerte correlación con los juicios humanos; y (3) métricas de alto nivel para estética y preferencia humana. Utilizando MMIG-Bench, evaluamos 17 modelos de última generación, incluyendo Gemini 2.5 Pro, FLUX, DreamBooth e IP-Adapter, y validamos nuestras métricas con 32,000 valoraciones humanas, obteniendo insights profundos sobre la arquitectura y el diseño de datos. Publicaremos el conjunto de datos y el código de evaluación para fomentar una evaluación rigurosa y unificada, y acelerar las futuras innovaciones en la generación de imágenes multimodales.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) actuales han demostrado capacidades emergentes en tareas de inteligencia social, incluyendo la resolución de implicaturas (Sravanthi et al. (2024)) y el razonamiento sobre la teoría de la mente (Shapira et al. (2024)), ambas requiriendo un entendimiento pragmático sustancial. Sin embargo, cómo los LLMs adquieren esta competencia durante el proceso de entrenamiento sigue siendo poco comprendido. En este trabajo, presentamos ALTPRAG, un conjunto de datos basado en el concepto pragmático de alternativas, diseñado para evaluar si los LLMs en diferentes etapas de entrenamiento pueden inferir con precisión las intenciones matizadas del hablante. Cada instancia empareja dos continuaciones contextualmente apropiadas pero pragmáticamente distintas, permitiendo una evaluación detallada tanto de la interpretación pragmática como del razonamiento contrastivo. Evaluamos sistemáticamente 22 LLMs en etapas clave del entrenamiento: pre-entrenamiento, ajuste fino supervisado (SFT) y optimización de preferencias, para examinar el desarrollo de la competencia pragmática. Nuestros resultados muestran que incluso los modelos base exhiben una notable sensibilidad a las señales pragmáticas, la cual mejora consistentemente con el aumento en la escala del modelo y de los datos. Además, el SFT y el RLHF contribuyen a ganancias adicionales, particularmente en el razonamiento cognitivo-pragmático. Estos hallazgos destacan la competencia pragmática como una propiedad emergente y composicional del entrenamiento de los LLMs y ofrecen nuevas perspectivas para alinear los modelos con las normas comunicativas humanas.
Los grandes modelos fundacionales multimodales, particularmente en los dominios del lenguaje y la visión, han avanzado significativamente en diversas tareas, incluyendo robótica, conducción autónoma, recuperación de información y fundamentación. Sin embargo, muchos de estos modelos perciben los objetos como indivisibles, pasando por alto los componentes que los constituyen. Comprender estos componentes y sus posibilidades asociadas proporciona valiosos insights sobre la funcionalidad de un objeto, lo cual es fundamental para realizar una amplia gama de tareas. En este trabajo, presentamos un nuevo benchmark del mundo real, InstructPart, que comprende anotaciones de segmentación de partes etiquetadas manualmente e instrucciones orientadas a tareas para evaluar el rendimiento de los modelos actuales en la comprensión y ejecución de tareas a nivel de partes en contextos cotidianos. A través de nuestros experimentos, demostramos que la segmentación de partes orientada a tareas sigue siendo un problema desafiante, incluso para los modelos de visión y lenguaje (VLMs) más avanzados. Además de nuestro benchmark, introducimos una línea base simple que logra una mejora de rendimiento de dos veces mediante el ajuste fino con nuestro conjunto de datos. Con nuestro conjunto de datos y benchmark, buscamos facilitar la investigación sobre la segmentación de partes orientada a tareas y mejorar la aplicabilidad de los VLMs en diversos dominios, incluyendo robótica, realidad virtual, recuperación de información y otros campos relacionados. Sitio web del proyecto: https://zifuwan.github.io/InstructPart/.
Los avances recientes, como el enfoque de "Chain-of-Thought prompting", han mejorado significativamente los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en el razonamiento médico de "zero-shot". Sin embargo, los métodos basados en "prompting" suelen ser superficiales e inestables, mientras que los LLMs médicos ajustados específicamente sufren de una mala generalización bajo cambios de distribución y una adaptabilidad limitada a escenarios clínicos no vistos. Para abordar estas limitaciones, presentamos TAGS, un marco de trabajo en tiempo de prueba que combina un generalista de amplias capacidades con un especialista específico del dominio para ofrecer perspectivas complementarias sin necesidad de ajustar el modelo o actualizar parámetros. Para respaldar este proceso de razonamiento generalista-especialista, introducimos dos módulos auxiliares: un mecanismo de recuperación jerárquica que proporciona ejemplos a múltiples escalas seleccionando casos basados en similitudes tanto semánticas como a nivel de razonamiento, y un evaluador de confiabilidad que mide la consistencia del razonamiento para guiar la agregación final de respuestas. TAGS logra un rendimiento sólido en nueve benchmarks de MedQA, aumentando la precisión de GPT-4o en un 13.8%, la de DeepSeek-R1 en un 16.8%, y mejorando un modelo básico de 7B desde un 14.1% hasta un 23.9%. Estos resultados superan a varios LLMs médicos ajustados específicamente, sin necesidad de actualizaciones de parámetros. El código estará disponible en https://github.com/JianghaoWu/TAGS.
Con los avances en los modelos de audio-lenguaje a gran escala (LALMs, por sus siglas en inglés), que mejoran los modelos de lenguaje a gran escala (LLMs) con capacidades auditivas, se espera que estos modelos demuestren competencia universal en diversas tareas auditivas. Si bien han surgido numerosos puntos de referencia para evaluar el rendimiento de los LALMs, estos siguen siendo fragmentados y carecen de una taxonomía estructurada. Para cerrar esta brecha, realizamos una encuesta exhaustiva y proponemos una taxonomía sistemática para las evaluaciones de LALMs, categorizándolas en cuatro dimensiones según sus objetivos: (1) Conciencia y Procesamiento Auditivo General, (2) Conocimiento y Razonamiento, (3) Habilidad Orientada al Diálogo, y (4) Equidad, Seguridad y Confiabilidad. Proporcionamos descripciones detalladas dentro de cada categoría y destacamos los desafíos en este campo, ofreciendo perspectivas sobre direcciones futuras prometedoras. Hasta donde sabemos, esta es la primera encuesta centrada específicamente en las evaluaciones de LALMs, proporcionando pautas claras para la comunidad. Publicaremos la colección de los artículos revisados y la mantendremos activamente para apoyar los avances continuos en el campo.
A pesar de los avances recientes en robótica de propósito general, las políticas de los robots aún están muy por detrás de las capacidades humanas básicas en el mundo real. Los humanos interactúan constantemente con el mundo físico, sin embargo, esta rica fuente de datos sigue siendo en gran medida desaprovechada en el aprendizaje de robots. Proponemos EgoZero, un sistema mínimo que aprende políticas de manipulación robustas a partir de demostraciones humanas capturadas con las gafas inteligentes Project Aria, y sin datos de robots. EgoZero permite: (1) la extracción de acciones completas y ejecutables por robots a partir de demostraciones humanas egocéntricas en entornos naturales, (2) la compresión de observaciones visuales humanas en representaciones de estado independientes de la morfología, y (3) el aprendizaje de políticas en bucle cerrado que generalizan morfológica, espacial y semánticamente. Implementamos las políticas de EgoZero en un robot Franka Panda con pinza y demostramos una transferencia de cero disparos con una tasa de éxito del 70% en 7 tareas de manipulación y solo 20 minutos de recopilación de datos por tarea. Nuestros resultados sugieren que los datos humanos capturados en entornos naturales pueden servir como una base escalable para el aprendizaje de robots en el mundo real, allanando el camino hacia un futuro de datos de entrenamiento abundantes, diversos y naturalistas para robots. El código y los videos están disponibles en https://egozero-robot.github.io.
La extracción de metadatos es esencial para catalogar y preservar conjuntos de datos, permitiendo una efectiva descubribilidad y reproducibilidad de la investigación, especialmente dado el crecimiento exponencial actual en la investigación científica. Si bien Masader (Alyafeai et al., 2021) sentó las bases para extraer una amplia gama de atributos de metadatos de artículos académicos de conjuntos de datos de PLN en árabe, depende en gran medida de la anotación manual. En este artículo, presentamos MOLE, un marco que aprovecha los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) para extraer automáticamente atributos de metadatos de artículos científicos que cubren conjuntos de datos de idiomas distintos al árabe. Nuestra metodología basada en esquemas procesa documentos completos en múltiples formatos de entrada e incorpora mecanismos de validación robustos para garantizar una salida consistente. Además, introducimos un nuevo punto de referencia para evaluar el progreso de la investigación en esta tarea. A través de un análisis sistemático de la longitud del contexto, el aprendizaje con pocos ejemplos y la integración de navegación web, demostramos que los LLMs modernos muestran resultados prometedores en la automatización de esta tarea, destacando la necesidad de mejoras futuras para garantizar un rendimiento consistente y confiable. Publicamos el código: https://github.com/IVUL-KAUST/MOLE y el conjunto de datos: https://huggingface.co/datasets/IVUL-KAUST/MOLE para la comunidad investigadora.
Este artículo estudia la aparición de características categóricas interpretables en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), analizando su comportamiento a lo largo de puntos de control de entrenamiento (tiempo), capas del transformador (espacio) y diferentes tamaños de modelos (escala). Utilizando autoencoders dispersos para la interpretabilidad mecanicista, identificamos cuándo y dónde emergen conceptos semánticos específicos dentro de las activaciones neuronales. Los resultados indican umbrales claros, tanto temporales como específicos de escala, para la aparición de características en múltiples dominios. Notablemente, el análisis espacial revela una reactivación semántica inesperada, donde características de capas tempranas reaparecen en capas posteriores, desafiando las suposiciones estándar sobre la dinámica representacional en los modelos de transformadores.
Los métodos de direccionamiento han surgido como herramientas efectivas y específicas para guiar el comportamiento de los modelos de lenguaje grandes (LLMs) sin modificar sus parámetros. Sin embargo, los modelos de lenguaje grandes multimodales (MLLMs) no cuentan actualmente con el mismo conjunto de técnicas, en parte debido a su reciente aparición y a la diversidad arquitectónica. Inspirados por esta brecha, investigamos si los MLLMs pueden ser direccionados utilizando vectores derivados de su componente de texto único, mediante autoencoders dispersos (SAEs), mean shift y sondeo lineal. Descubrimos que el direccionamiento basado en texto mejora consistentemente la precisión multimodal en diversas arquitecturas de MLLMs y tareas visuales. En particular, mean shift aumenta la precisión en relaciones espaciales en CV-Bench hasta un +7.3% y la precisión en conteo hasta un +3.3%, superando al prompting y mostrando una fuerte generalización a conjuntos de datos fuera de distribución. Estos resultados destacan a los vectores de direccionamiento textual como un mecanismo poderoso y eficiente para mejorar la fundamentación en MLLMs con un mínimo de recopilación adicional de datos y sobrecarga computacional.
El aprendizaje por refuerzo condicionado a objetivos (GCRL) en modo offline ofrece un paradigma de aprendizaje práctico en el que las políticas de alcance de objetivos se entrenan a partir de conjuntos de datos abundantes y sin etiquetar (libres de recompensas) sin necesidad de interacción adicional con el entorno. Sin embargo, el GCRL offline aún enfrenta dificultades en tareas de horizonte largo, incluso con avances recientes que emplean estructuras de políticas jerárquicas, como HIQL. Al identificar la causa raíz de este desafío, observamos las siguientes conclusiones: En primer lugar, los cuellos de botella en el rendimiento se deben principalmente a la incapacidad de la política de alto nivel para generar subobjetivos adecuados. En segundo lugar, al aprender la política de alto nivel en regímenes de horizonte largo, el signo de la señal de ventaja suele volverse incorrecto. Por lo tanto, argumentamos que mejorar la función de valor para producir una señal de ventaja clara para el aprendizaje de la política de alto nivel es esencial. En este artículo, proponemos una solución simple pero efectiva: el aprendizaje de valor con abstracción temporal consciente de opciones, denominado OTA, que incorpora la abstracción temporal en el proceso de aprendizaje por diferencias temporales. Al modificar la actualización del valor para que sea consciente de las opciones, el esquema de aprendizaje propuesto reduce la longitud efectiva del horizonte, permitiendo mejores estimaciones de ventaja incluso en regímenes de horizonte largo. Experimentalmente demostramos que la política de alto nivel extraída utilizando la función de valor OTA logra un rendimiento sólido en tareas complejas de OGBench, un punto de referencia recientemente propuesto para GCRL offline, que incluye entornos de navegación en laberintos y manipulación robótica visual.