Artículos de investigación en IA seleccionados diariamente con traducciones
La Inteligencia Artificial (IA) está acelerando la transformación de los paradigmas de investigación científica, no solo mejorando la eficiencia en la investigación, sino también impulsando la innovación. Presentamos NovelSeek, un marco unificado de bucle cerrado multiagente para llevar a cabo Investigación Científica Autónoma (ASR) en diversos campos de investigación científica, permitiendo a los investigadores abordar problemas complejos en estos campos con una velocidad y precisión sin precedentes. NovelSeek destaca tres ventajas clave: 1) Escalabilidad: NovelSeek ha demostrado su versatilidad en 12 tareas de investigación científica, siendo capaz de generar ideas innovadoras para mejorar el rendimiento del código base. 2) Interactividad: NovelSeek proporciona una interfaz para la retroalimentación de expertos humanos y la interacción multiagente en procesos automatizados de extremo a extremo, permitiendo la integración fluida del conocimiento de expertos en el dominio. 3) Eficiencia: NovelSeek ha logrado mejoras prometedoras en varios campos científicos con un costo de tiempo significativamente menor en comparación con los esfuerzos humanos. Por ejemplo, en la predicción del rendimiento de reacciones, aumentó del 27.6% al 35.4% en solo 12 horas; en la predicción de la actividad de potenciadores, la precisión subió de 0.52 a 0.79 con solo 4 horas de procesamiento; y en la segmentación semántica 2D, la precisión avanzó del 78.8% al 81.0% en apenas 30 horas.
La capacidad de seguir instrucciones es esencial para alinear los modelos de lenguaje de gran escala (LLMs) con la intención del usuario. Si bien los modelos recientes orientados al razonamiento muestran un rendimiento impresionante en problemas matemáticos complejos, su capacidad para adherirse a instrucciones en lenguaje natural sigue siendo poco explorada. En este trabajo, presentamos MathIF, un benchmark dedicado a evaluar el seguimiento de instrucciones en tareas de razonamiento matemático. Nuestro análisis empírico revela una tensión constante entre escalar la capacidad de razonamiento y mantener la controlabilidad, ya que los modelos que razonan de manera más efectiva a menudo tienen dificultades para cumplir con las directivas del usuario. Descubrimos que los modelos ajustados con cadenas de pensamiento largas destiladas o entrenados con aprendizaje por refuerzo orientado al razonamiento a menudo degradan su adherencia a las instrucciones, especialmente cuando aumenta la longitud de la generación. Además, demostramos que incluso intervenciones simples pueden recuperar parcialmente la obediencia, aunque a costa del rendimiento en el razonamiento. Estos hallazgos resaltan una tensión fundamental en los paradigmas actuales de entrenamiento de LLMs y motivan la necesidad de modelos de razonamiento más conscientes de las instrucciones. Publicamos el código y los datos en https://github.com/TingchenFu/MathIF.
Recientemente, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento notables mediante el aprendizaje por refuerzo a gran escala (RL, por sus siglas en inglés). Sin embargo, aprovechar el algoritmo de RL para potenciar un razonamiento colaborativo efectivo con múltiples herramientas en los LLMs sigue siendo un desafío abierto. En este artículo, presentamos Tool-Star, un marco basado en RL diseñado para capacitar a los LLMs a invocar de manera autónoma múltiples herramientas externas durante el razonamiento paso a paso. Tool-Star integra seis tipos de herramientas e incorpora diseños sistemáticos tanto en la síntesis de datos como en el entrenamiento. Para abordar la escasez de datos de uso de herramientas, proponemos una canalización general de síntesis de datos de razonamiento integrado con herramientas, que combina el prompting integrado con herramientas con un muestreo basado en pistas para generar automáticamente y de manera escalable trayectorias de uso de herramientas. Un proceso posterior de normalización de calidad y clasificación consciente de la dificultad filtra las muestras de baja calidad y organiza el conjunto de datos de fácil a difícil. Además, proponemos un marco de entrenamiento de dos etapas para mejorar el razonamiento colaborativo con múltiples herramientas mediante: (1) un ajuste fino de arranque en frío, que guía a los LLMs a explorar patrones de razonamiento a través de la retroalimentación de invocación de herramientas; y (2) un algoritmo de RL de autocrítica con múltiples herramientas y diseño de recompensas jerárquico, que refuerza la comprensión de las recompensas y promueve una colaboración efectiva de herramientas. Los análisis experimentales en más de 10 puntos de referencia desafiantes de razonamiento destacan la efectividad y eficiencia de Tool-Star. El código está disponible en https://github.com/dongguanting/Tool-Star.
El razonamiento de cadena de pensamiento ha mejorado significativamente el rendimiento de los Modelos de Lenguaje de Gran Escala (LLMs) en diversos dominios. Sin embargo, este proceso de razonamiento se ha limitado exclusivamente al espacio textual, lo que restringe su eficacia en tareas visualmente intensivas. Para abordar esta limitación, introducimos el concepto de razonamiento en el espacio de píxeles. Dentro de este novedoso marco, los Modelos de Visión y Lenguaje (VLMs) están equipados con un conjunto de operaciones de razonamiento visual, como acercar y seleccionar marco. Estas operaciones permiten a los VLMs inspeccionar, interrogar e inferir directamente a partir de evidencias visuales, mejorando así la fidelidad del razonamiento en tareas visuales. Cultivar tales capacidades de razonamiento en el espacio de píxeles en los VLMs presenta desafíos notables, incluyendo la competencia inicialmente desequilibrada del modelo y su renuencia a adoptar las nuevas operaciones en el espacio de píxeles. Abordamos estos desafíos mediante un enfoque de entrenamiento en dos fases. La primera fase emplea ajuste por instrucción en trazas de razonamiento sintetizadas para familiarizar al modelo con las nuevas operaciones visuales. Posteriormente, una fase de aprendizaje por refuerzo (RL) aprovecha un esquema de recompensa basado en la curiosidad para equilibrar la exploración entre el razonamiento en el espacio de píxeles y el razonamiento textual. Con estas operaciones visuales, los VLMs pueden interactuar con entradas visuales complejas, como imágenes o videos ricos en información, para recopilar proactivamente la información necesaria. Demostramos que este enfoque mejora significativamente el rendimiento de los VLMs en diversos benchmarks de razonamiento visual. Nuestro modelo de 7B, \model, alcanza un 84\% en V* bench, un 74\% en TallyQA-Complex y un 84\% en InfographicsVQA, marcando la mayor precisión lograda por cualquier modelo de código abierto hasta la fecha. Estos resultados resaltan la importancia del razonamiento en el espacio de píxeles y la efectividad de nuestro marco.
Los recientes avances en los modelos generativos multimodales han permitido un progreso significativo en la edición de imágenes basada en instrucciones. Sin embargo, aunque estos modelos producen resultados visualmente plausibles, su capacidad para tareas de edición basadas en razonamiento de conocimiento sigue siendo poco explorada. En este artículo, presentamos KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), un punto de referencia diagnóstico diseñado para evaluar modelos a través de una lente cognitivamente informada. Basándonos en la teoría educativa, KRIS-Bench categoriza las tareas de edición en tres tipos fundamentales de conocimiento: factual, conceptual y procedimental. A partir de esta taxonomía, diseñamos 22 tareas representativas que abarcan 7 dimensiones de razonamiento y publicamos 1,267 instancias de edición anotadas de alta calidad. Para apoyar una evaluación detallada, proponemos un protocolo integral que incorpora una nueva métrica de Plausibilidad de Conocimiento, mejorada con pistas de conocimiento y calibrada mediante estudios humanos. Los resultados empíricos en 10 modelos de última generación revelan brechas significativas en el rendimiento del razonamiento, destacando la necesidad de puntos de referencia centrados en el conocimiento para avanzar en el desarrollo de sistemas inteligentes de edición de imágenes.
La comprensión de videos largos ha surgido como una capacidad crucial en aplicaciones del mundo real, como la vigilancia por video, la resumen de reuniones, el análisis de conferencias educativas y la transmisión de eventos deportivos. Sin embargo, sigue siendo computacionalmente prohibitivo para los VideoLLM, principalmente debido a dos cuellos de botella: 1) la decodificación secuencial de video, el proceso de convertir el flujo de bits en bruto a fotogramas RGB puede tomar hasta un minuto para entradas de video de una hora de duración, y 2) el costoso prellenado de hasta varios millones de tokens para la inferencia del LLM, lo que resulta en una alta latencia y uso de memoria. Para abordar estos desafíos, proponemos QuickVideo, un co-diseño sistema-algoritmo que acelera sustancialmente la comprensión de videos largos para apoyar aplicaciones en tiempo real. Este consta de tres innovaciones clave: QuickDecoder, un decodificador de video basado en CPU y paralelizado que logra una aceleración de 2 a 3 veces al dividir los videos en intervalos alineados con fotogramas clave procesados concurrentemente; QuickPrefill, un método de prellenado eficiente en memoria que utiliza la poda de la caché KV para admitir más fotogramas con menos memoria GPU; y un esquema de superposición que combina la decodificación de video en la CPU con la inferencia en la GPU. Juntos, estos componentes reducen el tiempo de inferencia en un minuto para entradas de video largas, permitiendo una comprensión de video escalable y de alta calidad incluso en hardware limitado. Los experimentos muestran que QuickVideo generaliza a través de duraciones y tasas de muestreo, haciendo factible el procesamiento de videos largos en la práctica.
Los Transformadores de Difusión han surgido como la base para los modelos generativos de visión, pero su escalabilidad está limitada por el alto costo del ajuste de hiperparámetros (HP) a gran escala. Recientemente, se propuso la Parametrización de Actualización Máxima (muP) para los Transformadores estándar, lo que permite una transferencia estable de HP desde modelos de lenguaje pequeños a grandes y reduce drásticamente los costos de ajuste. Sin embargo, sigue sin estar claro si la muP de los Transformadores estándar se extiende a los Transformadores de Difusión, que difieren tanto arquitectónica como objetivamente. En este trabajo, generalizamos la muP estándar a los Transformadores de Difusión y validamos su efectividad mediante experimentos a gran escala. Primero, demostramos rigurosamente que la muP de los principales Transformadores de Difusión, incluyendo DiT, U-ViT, PixArt-alpha y MMDiT, se alinea con la del Transformador estándar, permitiendo la aplicación directa de las metodologías muP existentes. Aprovechando este resultado, demostramos sistemáticamente que DiT-muP disfruta de una robusta transferibilidad de HP. Notablemente, DiT-XL-2-muP con una tasa de aprendizaje transferida logra una convergencia 2.9 veces más rápida que el DiT-XL-2 original. Finalmente, validamos la efectividad de muP en la generación de texto a imagen escalando PixArt-alpha de 0.04B a 0.61B y MMDiT de 0.18B a 18B. En ambos casos, los modelos bajo muP superan a sus respectivas líneas base mientras requieren un costo de ajuste mínimo, solo el 5.5% de una ejecución de entrenamiento para PixArt-alpha y el 3% del consumo por expertos humanos para MMDiT-18B. Estos resultados establecen a muP como un marco principiado y eficiente para escalar Transformadores de Difusión.
En este trabajo, presentamos LLaDA-V, un Modelo de Lenguaje Multimodal (MLLM) basado exclusivamente en difusión que integra la sintonización de instrucciones visuales con modelos de difusión enmascarados, representando una desviación de los paradigmas autorregresivos dominantes en los enfoques multimodales actuales. Construido sobre LLaDA, un modelo representativo de difusión de lenguaje grande, LLaDA-V incorpora un codificador visual y un conector MLP que proyecta características visuales en el espacio de incrustación del lenguaje, permitiendo una alineación multimodal efectiva. Nuestra investigación empírica revela varios resultados intrigantes: En primer lugar, LLaDA-V demuestra un rendimiento multimodal prometedor a pesar de que su modelo de lenguaje es más débil en tareas puramente textuales en comparación con contrapartes como LLaMA3-8B y Qwen2-7B. Cuando se entrena con los mismos datos de instrucción, LLaDA-V es altamente competitivo con LLaMA3-V en tareas multimodales, mostrando una mejor escalabilidad de datos. También reduce la brecha de rendimiento con Qwen2-VL, sugiriendo la efectividad de su arquitectura para tareas multimodales. En segundo lugar, LLaDA-V logra un rendimiento de vanguardia en comprensión multimodal en comparación con los MLLM híbridos autorregresivos-difusión y los basados exclusivamente en difusión existentes. Nuestros hallazgos sugieren que los modelos de difusión de lenguaje grande muestran potencial en contextos multimodales y justifican una mayor investigación en futuros estudios. Página del proyecto y códigos: https://ml-gsai.github.io/LLaDA-V-demo/.
A pesar de los recientes avances en el aprendizaje por refuerzo (RL) a gran escala para el razonamiento, la receta de entrenamiento para construir modelos de razonamiento de alto rendimiento sigue siendo esquiva. Los detalles clave de implementación de modelos de vanguardia, como DeepSeek-R1, incluyendo estrategias de curación de datos y la receta de entrenamiento de RL, a menudo se omiten. Además, investigaciones recientes indican que la destilación sigue siendo más efectiva que el RL para modelos más pequeños. En este trabajo, demostramos que el RL a gran escala puede mejorar significativamente las capacidades de razonamiento de modelos pequeños y medianos fuertes, logrando resultados que superan a los de los modelos basados en destilación más avanzados. Estudiamos sistemáticamente el proceso de entrenamiento de RL a través de extensas ablaciones y proponemos un enfoque simple pero efectivo: primero entrenar con indicaciones solo de matemáticas, luego con indicaciones solo de código. Notablemente, encontramos que el RL solo de matemáticas no solo mejora significativamente el rendimiento de modelos destilados fuertes en benchmarks de matemáticas (por ejemplo, +14.6% / +17.2% en AIME 2025 para los modelos de 7B / 14B), sino también en tareas de razonamiento de código (por ejemplo, +6.8% / +5.8% en LiveCodeBench para los modelos de 7B / 14B). Además, iteraciones extendidas de RL solo de código mejoran aún más el rendimiento en benchmarks de código con una degradación mínima o nula en los resultados de matemáticas. Desarrollamos una robusta tubería de curación de datos para recopilar indicaciones desafiantes con respuestas verificables de alta calidad y casos de prueba para permitir RL basado en verificación en ambos dominios. Finalmente, identificamos insights experimentales clave, incluyendo el aprendizaje curricular con longitudes de respuesta progresivamente crecientes y el efecto estabilizador de las actualizaciones de parámetros on-policy. Encontramos que el RL no solo elicita las capacidades fundamentales de razonamiento adquiridas durante el preentrenamiento y el ajuste fino supervisado (por ejemplo, destilación), sino que también empuja los límites de la capacidad de razonamiento del modelo, permitiéndole resolver problemas que antes eran irresolubles.
Los modelos de generación visual han logrado avances notables en la creación de imágenes realistas a partir de indicaciones de texto, pero aún enfrentan dificultades con indicaciones complejas que especifican múltiples objetos con relaciones espaciales y atributos precisos. El manejo efectivo de estas indicaciones requiere un razonamiento explícito sobre el contenido semántico y la disposición espacial. Presentamos GoT-R1, un marco que aplica aprendizaje por refuerzo para mejorar el razonamiento semántico-espacial en la generación visual. Basándose en el enfoque de Cadena de Pensamiento Generativo, GoT-R1 permite que los modelos descubran de manera autónoma estrategias de razonamiento efectivas más allá de plantillas predefinidas, mediante un aprendizaje por refuerzo cuidadosamente diseñado. Para lograrlo, proponemos un marco de recompensas multidimensional de dos etapas que aprovecha los MLLM para evaluar tanto el proceso de razonamiento como el resultado final, permitiendo una supervisión efectiva en toda la pipeline de generación. El sistema de recompensas evalúa la alineación semántica, la precisión espacial y la calidad visual de manera unificada. Los resultados experimentales demuestran mejoras significativas en el benchmark T2I-CompBench, particularmente en tareas composicionales que involucran relaciones espaciales precisas y vinculación de atributos. GoT-R1 avanza el estado del arte en generación de imágenes al transferir con éxito capacidades de razonamiento sofisticadas al dominio de la generación visual. Para facilitar investigaciones futuras, hemos hecho público nuestro código y modelos preentrenados en https://github.com/gogoduan/GoT-R1.
El aprendizaje por refuerzo averso al riesgo encuentra aplicación en diversos campos de alto impacto. A diferencia del aprendizaje por refuerzo clásico, que busca maximizar los retornos esperados, los agentes aversos al riesgo eligen políticas que minimizan el riesgo, sacrificando ocasionalmente el valor esperado. Estas preferencias pueden enmarcarse a través de la teoría de la utilidad. Nos enfocamos en el caso específico de la función de utilidad exponencial, donde podemos derivar las ecuaciones de Bellman y emplear varios algoritmos de aprendizaje por refuerzo con pocas modificaciones. Sin embargo, estos métodos sufren de inestabilidad numérica debido a la necesidad de calcular exponentes durante todo el proceso. Para abordar esto, introducimos una función de pérdida numéricamente estable y matemáticamente sólida basada en la divergencia de Itakura-Saito para aprender funciones de valor de estado y de acción. Evaluamos nuestra función de pérdida propuesta frente a alternativas establecidas, tanto teórica como empíricamente. En la sección experimental, exploramos múltiples escenarios financieros, algunos con soluciones analíticas conocidas, y demostramos que nuestra función de pérdida supera a las alternativas.
El entrenamiento de modelos robustos de recuperación y reordenamiento generalmente depende de conjuntos de datos de recuperación a gran escala; por ejemplo, la colección BGE contiene 1.6 millones de pares consulta-párrafo obtenidos de diversas fuentes de datos. Sin embargo, descubrimos que ciertos conjuntos de datos pueden afectar negativamente la efectividad del modelo: eliminar 8 de los 15 conjuntos de datos de la colección BGE reduce el tamaño del conjunto de entrenamiento en 2.35 veces y aumenta el nDCG@10 en BEIR en 1.0 punto. Esto motiva un examen más profundo de la calidad de los datos de entrenamiento, con un enfoque particular en los "falsos negativos", donde pasajes relevantes se etiquetan incorrectamente como irrelevantes. Proponemos un enfoque simple y rentable utilizando cascadas de prompts de LLM para identificar y reetiquetar negativos difíciles. Los resultados experimentales muestran que reetiquetar falsos negativos con verdaderos positivos mejora tanto los modelos de recuperación E5 (base) como Qwen2.5-7B en 0.7-1.4 nDCG@10 en BEIR y en 1.7-1.8 nDCG@10 en la evaluación zero-shot de AIR-Bench. Se observan ganancias similares para los reordenadores ajustados con los datos reetiquetados, como Qwen2.5-3B en BEIR. La confiabilidad del diseño en cascada se ve respaldada adicionalmente por los resultados de anotación humana, donde encontramos que los juicios de GPT-4o muestran un acuerdo mucho mayor con los humanos que GPT-4o-mini.
La IA generativa (GenAI) tiene un gran potencial para automatizar tareas cotidianas de edición de imágenes, especialmente tras el reciente lanzamiento de GPT-4o el 25 de marzo de 2025. Sin embargo, ¿qué temas son los que la gente más desea editar? ¿Qué tipos de acciones de edición quieren realizar (por ejemplo, eliminar o estilizar el sujeto)? ¿Prefieren las personas ediciones precisas con resultados predecibles o altamente creativas? Al comprender las características de las solicitudes del mundo real y las ediciones correspondientes realizadas por expertos freelance en edición fotográfica, ¿podemos extraer lecciones para mejorar los editores basados en IA y determinar qué tipos de solicitudes pueden ser manejadas con éxito actualmente por los editores de IA? En este artículo, presentamos un estudio único que aborda estas preguntas mediante el análisis de 83k solicitudes de los últimos 12 años (2013-2025) en la comunidad de Reddit, que recopiló 305k ediciones realizadas por expertos en PSR. Según las valoraciones humanas, aproximadamente solo el 33% de las solicitudes pueden ser cumplidas por los mejores editores de IA (incluyendo GPT-4o, Gemini-2.0-Flash, SeedEdit). Curiosamente, los editores de IA tienen un peor desempeño en solicitudes de baja creatividad que requieren ediciones precisas que en tareas más abiertas. A menudo tienen dificultades para preservar la identidad de personas y animales, y con frecuencia realizan retoques no solicitados. Por otro lado, los jueces VLM (por ejemplo, o1) se comportan de manera diferente a los jueces humanos y pueden preferir las ediciones de IA más que las humanas. El código y ejemplos cualitativos están disponibles en: https://psrdataset.github.io
Los modelos de lenguaje de gran escala (LLMs) han logrado avances notables en tareas matemáticas mediante el razonamiento de Cadena de Pensamiento (CoT). Sin embargo, los conjuntos de datos matemáticos de CoT existentes a menudo presentan Saltos de Pensamiento debido a que los expertos omiten pasos intermedios, lo que afecta negativamente el aprendizaje y la generalización del modelo. Proponemos la Tarea de Puente para Saltos de Pensamiento en CoT, que tiene como objetivo detectar automáticamente los saltos y generar los pasos intermedios de razonamiento faltantes para restaurar la completitud y coherencia del CoT. Para facilitar esto, construimos un conjunto de datos de entrenamiento especializado llamado ScaleQM+, basado en el conjunto de datos estructurado ScaleQuestMath, y entrenamos CoT-Bridge para conectar los saltos de pensamiento. A través de experimentos exhaustivos en benchmarks de razonamiento matemático, demostramos que los modelos ajustados en conjuntos de datos con puentes superan consistentemente a aquellos entrenados en conjuntos de datos originales, con mejoras de hasta +5.87% en NuminaMath. Nuestro enfoque mejora efectivamente los datos destilados (+3.02%) y proporciona mejores puntos de partida para el aprendizaje por refuerzo (+3.1%), funcionando como un módulo plug-and-play compatible con técnicas de optimización existentes. Además, CoT-Bridge muestra una mejor generalización en tareas de razonamiento lógico fuera de dominio, confirmando que mejorar la completitud del razonamiento ofrece beneficios ampliamente aplicables.
Los modelos de razonamiento a gran escala (LRMs, por sus siglas en inglés), como OpenAI o1 y DeepSeek-R1, han mejorado significativamente sus capacidades de razonamiento al generar cadenas de pensamiento más largas, demostrando un rendimiento sobresaliente en una variedad de tareas. Sin embargo, esta mejora en el rendimiento conlleva un aumento sustancial en el razonamiento redundante durante el proceso de generación, lo que resulta en un alto costo computacional y agrava el problema de la sobre-reflexión. Aunque existen numerosos enfoques que buscan abordar el problema de la sobre-reflexión, estos suelen depender de intervenciones externas. En este artículo, proponemos un marco novedoso, llamado Ajuste de Autofrenado (SBT, por sus siglas en inglés), que aborda la sobre-reflexión desde la perspectiva de permitir que el modelo regule su propio proceso de razonamiento, eliminando así la dependencia de mecanismos de control externos. Construimos un conjunto de métricas de identificación de sobre-reflexión basadas en respuestas estándar y diseñamos un método sistemático para detectar el razonamiento redundante. Este método identifica con precisión los pasos innecesarios dentro de la trayectoria de razonamiento y genera señales de entrenamiento para aprender comportamientos de autorregulación. Sobre esta base, desarrollamos una estrategia completa para construir datos con longitudes de razonamiento adaptativas e introducimos un mecanismo innovador de indicación de frenado que permite al modelo aprender de manera natural cuándo terminar el razonamiento en un punto adecuado. Los experimentos realizados en benchmarks matemáticos (AIME, AMC, MATH500, GSM8K) demuestran que nuestro método reduce el consumo de tokens hasta en un 60%, manteniendo una precisión comparable a la de los modelos sin restricciones.
A pesar de la notable calidad de generación de los modelos de Transformador de Difusión de Video (DiT), su implementación práctica se ve severamente limitada por los extensos requisitos computacionales. Esta ineficiencia surge de dos desafíos clave: la complejidad cuadrática de la autoatención con respecto a la longitud de los tokens y la naturaleza de múltiples pasos de los modelos de difusión. Para abordar estas limitaciones, presentamos Jenga, una novedosa canalización de inferencia que combina el tallado dinámico de atención con la generación progresiva de resolución. Nuestro enfoque aprovecha dos ideas fundamentales: (1) los primeros pasos de eliminación de ruido no requieren latentes de alta resolución, y (2) los pasos posteriores no requieren atención densa. Jenga introduce un mecanismo de atención por bloques que selecciona dinámicamente las interacciones relevantes de los tokens utilizando curvas de llenado de espacio 3D, junto con una estrategia de resolución progresiva que aumenta gradualmente la resolución de los latentes durante la generación. Los resultados experimentales demuestran que Jenga logra aceleraciones significativas en múltiples modelos de difusión de video de última generación, manteniendo una calidad de generación comparable (8.83 veces más rápido con una caída del 0.01% en el rendimiento en VBench). Como una solución plug-and-play, Jenga permite la generación práctica y de alta calidad de videos en hardware moderno, reduciendo el tiempo de inferencia de minutos a segundos, sin requerir reentrenamiento del modelo. Código: https://github.com/dvlab-research/Jenga
En este trabajo, proponemos Dimple, el primer Modelo de Lenguaje Multimodal con Difusión Discreta (DMLLM, por sus siglas en inglés). Observamos que el entrenamiento con un enfoque puramente de difusión discreta conduce a una inestabilidad significativa durante el entrenamiento, un rendimiento subóptimo y problemas graves de sesgo en la longitud. Para abordar estos desafíos, diseñamos un paradigma de entrenamiento novedoso que combina una fase inicial autoregresiva con una fase posterior de difusión. Este enfoque da como resultado el modelo Dimple-7B, entrenado en el mismo conjunto de datos y utilizando una canalización de entrenamiento similar a la de LLaVA-NEXT. Dimple-7B finalmente supera a LLaVA-NEXT en rendimiento en un 3.9%, demostrando que los DMLLM pueden alcanzar un rendimiento comparable al de los modelos autoregresivos. Para mejorar la eficiencia en la inferencia, proponemos una estrategia de decodificación denominada decodificación confiada, que ajusta dinámicamente el número de tokens generados en cada paso, reduciendo significativamente el número de iteraciones de generación. En los modelos autoregresivos, el número de iteraciones hacia adelante durante la generación es igual a la longitud de la respuesta. Sin embargo, con la decodificación confiada, el número de iteraciones necesarias para Dimple es incluso solo text{longitud de la respuesta}{3}. También reimplementamos la técnica de prefilling en modelos autoregresivos y demostramos que no afecta significativamente el rendimiento en la mayoría de las evaluaciones de referencia, mientras ofrece una aceleración de 1.5x a 7x. Además, exploramos la capacidad de Dimple para controlar con precisión su respuesta utilizando priores de estructura. Estos priores permiten respuestas estructuradas de una manera distinta a la basada en instrucciones o en el prompting de cadena de pensamiento, y permiten un control detallado sobre el formato y la longitud de la respuesta, algo difícil de lograr en modelos autoregresivos. En general, este trabajo valida la viabilidad y las ventajas de los DMLLM y mejora su eficiencia en la inferencia y su capacidad de control. El código y los modelos están disponibles en https://github.com/yu-rp/Dimple.
Con los videojuegos generando ahora los mayores ingresos en la industria del entretenimiento, optimizar los flujos de trabajo de desarrollo de juegos se ha vuelto esencial para el crecimiento sostenido del sector. Los recientes avances en los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) ofrecen un potencial considerable para automatizar y mejorar diversos aspectos del desarrollo de juegos, particularmente en el Aseguramiento de la Calidad (QA), que sigue siendo uno de los procesos más intensivos en mano de obra de la industria, con opciones limitadas de automatización. Para evaluar con precisión el rendimiento de los VLMs en tareas de QA de videojuegos y determinar su efectividad en el manejo de escenarios del mundo real, existe una clara necesidad de puntos de referencia estandarizados, ya que los existentes son insuficientes para abordar los requisitos específicos de este dominio. Para cerrar esta brecha, presentamos VideoGameQA-Bench, un punto de referencia integral que cubre una amplia gama de actividades de QA en juegos, incluyendo pruebas unitarias visuales, pruebas de regresión visual, tareas de búsqueda de agujas en un pajar, detección de fallos y generación de informes de errores tanto para imágenes como para videos de varios juegos. El código y los datos están disponibles en: https://asgaardlab.github.io/videogameqa-bench/
Si bien el aprendizaje por refuerzo (RL) ha demostrado un éxito notable en la mejora de modelos de lenguaje grandes (LLMs), se ha centrado principalmente en tareas de un solo turno, como resolver problemas matemáticos. Entrenar agentes web efectivos para interacciones de múltiples turnos sigue siendo un desafío debido a la complejidad de la toma de decisiones a largo plazo en interfaces web dinámicas. En este trabajo, presentamos WebAgent-R1, un marco de RL de extremo a extremo simple pero efectivo para entrenar agentes web. Aprende directamente de interacciones en línea con entornos web generando trayectorias diversas de manera asíncrona, guiado completamente por recompensas binarias que dependen del éxito de la tarea. Los experimentos en el benchmark WebArena-Lite demuestran la efectividad de WebAgent-R1, aumentando la tasa de éxito de tareas de Qwen-2.5-3B del 6.1% al 33.9% y de Llama-3.1-8B del 8.5% al 44.8%, superando significativamente los métodos existentes de última generación y modelos propietarios fuertes como OpenAI o3. Análisis en profundidad revelan la efectividad de la estrategia de prompting basada en pensamiento y la escalabilidad en tiempo de prueba mediante el aumento de interacciones para tareas web. Además, investigamos diferentes políticas de inicialización de RL introduciendo dos variantes, WebAgent-R1-Zero y WebAgent-R1-CoT, que destacan la importancia de la etapa de entrenamiento de calentamiento (es decir, clonación de comportamiento) y proporcionan insights sobre la incorporación de razonamiento de cadena de pensamiento larga (CoT) en agentes web.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) se están implementando cada vez más en entornos de ajuste fino como servicio (FTaaS, por sus siglas en inglés), donde los conjuntos de datos enviados por los usuarios adaptan modelos de propósito general a tareas específicas. Sin embargo, esta flexibilidad introduce graves riesgos de seguridad, ya que el ajuste fino malicioso puede implantar puertas traseras en los MLLMs con un esfuerzo mínimo. En este artículo, observamos que los activadores de puertas traseras alteran sistemáticamente el procesamiento multimodal al causar una concentración anormal de la atención en regiones no semánticas—un fenómeno que denominamos colapso de atención. Basándonos en esta observación, proponemos Believe Your Eyes (BYE), un marco de filtrado de datos que aprovecha los patrones de entropía de atención como señales auto-supervisadas para identificar y filtrar muestras con puertas traseras. BYE opera mediante un proceso de tres etapas: (1) extracción de mapas de atención utilizando el modelo ajustado, (2) cálculo de puntuaciones de entropía y perfilado de capas sensibles mediante separación bimodal, y (3) realización de agrupamiento no supervisado para eliminar muestras sospechosas. A diferencia de defensas previas, BYE no requiere supervisión limpia, etiquetas auxiliares ni modificaciones del modelo. Experimentos exhaustivos en diversos conjuntos de datos, modelos y tipos de activadores validan la efectividad de BYE: logra tasas de éxito de ataque cercanas a cero mientras mantiene el rendimiento en tareas limpias, ofreciendo una solución robusta y generalizable contra amenazas de puertas traseras en MLLMs.
Los avances recientes han demostrado éxito en la elicitación de fuertes capacidades de razonamiento en modelos de lenguaje multimodal de gran escala (MLLMs) mediante el aprendizaje por refuerzo (RL) basado en reglas con recompensas de resultado. Sin embargo, este paradigma generalmente carece de supervisión sobre el proceso de pensamiento que conduce al resultado final. Como consecuencia, el modelo puede aprender estrategias de razonamiento subóptimas, lo que puede obstaculizar su capacidad de generalización. En vista de esto, proponemos SophiaVL-R1 como un intento de añadir señales de recompensa para el proceso de pensamiento en este paradigma. Para lograrlo, primero entrenamos un modelo de recompensa de pensamiento que evalúa la calidad de todo el proceso de pensamiento. Dado que la recompensa de pensamiento puede ser poco confiable para ciertas muestras debido al "hacking" de recompensas, proponemos el método Trust-GRPO, que asigna un peso de confiabilidad a la recompensa de pensamiento durante el entrenamiento. Este peso se calcula en función de la comparación de recompensas de pensamiento entre respuestas que conducen a respuestas correctas versus incorrectas, ayudando a mitigar el impacto de recompensas de pensamiento potencialmente poco confiables. Además, diseñamos una estrategia de entrenamiento con enfriamiento que reduce gradualmente la recompensa de pensamiento con el tiempo, permitiendo que el modelo dependa más de la recompensa de resultado basada en reglas, que es más precisa, en las etapas posteriores del entrenamiento. Los experimentos muestran que nuestro SophiaVL-R1 supera a una serie de MLLMs de razonamiento en varios benchmarks (por ejemplo, MathVisita, MMMU), demostrando fuertes capacidades de razonamiento y generalización. Notablemente, nuestro SophiaVL-R1-7B incluso supera a LLaVA-OneVision-72B en la mayoría de los benchmarks, a pesar de que este último tiene 10 veces más parámetros. Todo el código, modelos y conjuntos de datos están disponibles públicamente en https://github.com/kxfan2002/SophiaVL-R1.
El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) se ha convertido en una herramienta poderosa para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) al optimizar sus políticas mediante señales de recompensa. Sin embargo, el éxito del RL depende de la fiabilidad de las recompensas, las cuales son proporcionadas por verificadores. En este artículo, exponemos y analizamos un problema generalizado—los falsos negativos—donde los verificadores rechazan incorrectamente salidas correctas del modelo. Nuestro estudio detallado del conjunto de datos Big-Math-RL-Verified revela que más del 38% de las respuestas generadas por el modelo sufren de falsos negativos, donde el verificador no reconoce respuestas correctas. Demostramos, tanto empírica como teóricamente, que estos falsos negativos perjudican gravemente el entrenamiento de RL al privar al modelo de señales de gradiente informativas y ralentizar la convergencia. Para mitigar esto, proponemos TinyV, un verificador ligero basado en LLMs que complementa los métodos basados en reglas existentes, identificando dinámicamente posibles falsos negativos y recuperando respuestas válidas para producir estimaciones de recompensa más precisas. En múltiples benchmarks de razonamiento matemático, la integración de TinyV aumenta las tasas de acierto hasta en un 10% y acelera la convergencia en comparación con la línea base. Nuestros hallazgos resaltan la importancia crítica de abordar los falsos negativos de los verificadores y ofrecen un enfoque práctico para mejorar el ajuste fino basado en RL de los LLMs. Nuestro código está disponible en https://github.com/uw-nsl/TinyV.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado un éxito impresionante en tareas de preguntas y respuestas, aunque sus capacidades para la comprensión espacial han sido menos exploradas. Este trabajo investiga una pregunta crítica: ¿poseen los MLLMs existentes habilidades de percepción y comprensión espacial en 3D? Concretamente, realizamos las siguientes contribuciones en este artículo: (i) presentamos VGBench, un punto de referencia diseñado específicamente para evaluar MLLMs en la percepción de geometría visual, como la estimación de la pose de la cámara y el movimiento; (ii) proponemos SpatialScore, el punto de referencia más completo y diverso hasta la fecha para la comprensión espacial multimodal, integrando VGBench con datos relevantes de otros 11 conjuntos de datos existentes. Este punto de referencia incluye 28K muestras en diversas tareas de comprensión espacial, modalidades y formatos de preguntas y respuestas, junto con un subconjunto cuidadosamente seleccionado y desafiante, SpatialScore-Hard; (iii) desarrollamos SpatialAgent, un novedoso sistema multiagente que incorpora 9 herramientas especializadas para la comprensión espacial, compatible con los paradigmas de razonamiento Plan-Ejecutar y ReAct; (iv) realizamos evaluaciones exhaustivas que revelan desafíos persistentes en el razonamiento espacial, al mismo tiempo que demostramos la efectividad de SpatialAgent. Creemos que SpatialScore ofrecerá insights valiosos y servirá como un punto de referencia riguroso para la próxima evolución de los MLLMs.
Los modelos modernos de visión y lenguaje (VLMs) pueden resolver una amplia gama de tareas que requieren razonamiento visual. En escenarios del mundo real, las propiedades deseables para los VLMs incluyen inferencia rápida y generación controlable (por ejemplo, restringir las salidas para que se ajusten a un formato deseado). Sin embargo, los VLMs autorregresivos (AR) existentes, como LLaVA, tienen dificultades en estos aspectos. Los modelos de difusión discreta (DMs) ofrecen una alternativa prometedora, permitiendo decodificación paralela para una inferencia más rápida y contexto bidireccional para una generación controlable mediante el relleno de texto. Aunque son efectivos en entornos de solo lenguaje, el potencial de los DMs para tareas multimodales está poco explorado. Presentamos LaViDa, una familia de VLMs basados en DMs. Construimos LaViDa equipando a los DMs con un codificador visual y ajustando conjuntamente las partes combinadas para seguir instrucciones multimodales. Para abordar los desafíos encontrados, LaViDa incorpora técnicas novedosas como el enmascaramiento complementario para un entrenamiento efectivo, la caché de prefijo KV para una inferencia eficiente y el desplazamiento de pasos temporales para un muestreo de alta calidad. Los experimentos muestran que LaViDa logra un rendimiento competitivo o superior al de los VLMs AR en benchmarks multimodales como MMMU, mientras ofrece ventajas únicas de los DMs, incluyendo un equilibrio flexible entre velocidad y calidad, controlabilidad y razonamiento bidireccional. En la generación de subtítulos en COCO, LaViDa supera a Open-LLaVa-Next-8B con un aumento de +4.1 en CIDEr y una aceleración de 1.92x. En tareas bidireccionales, logra una mejora del +59% en la finalización de poemas con restricciones. Estos resultados demuestran que LaViDa es una alternativa sólida a los VLMs AR. El código y los modelos se publicarán en la versión final.
Estudios recientes han demostrado la eficacia del uso del Aprendizaje por Refuerzo (RL, por sus siglas en inglés) en la construcción de modelos de razonamiento que articulan cadenas de pensamiento antes de producir respuestas finales. Sin embargo, a pesar de los avances en curso que buscan habilitar el razonamiento para tareas de visión y lenguaje, los modelos de razonamiento visual de código abierto existentes suelen generar contenido de razonamiento utilizando únicamente lenguaje natural, careciendo de una integración explícita de información visual. Esto limita su capacidad para producir cadenas de razonamiento claramente articuladas y fundamentadas visualmente. Con este fin, proponemos Grounded Reasoning with Images and Texts (GRIT), un método novedoso para entrenar modelos de lenguaje multimodal (MLLMs) para pensar con imágenes. GRIT introduce un paradigma de razonamiento fundamentado, en el que los modelos generan cadenas de razonamiento que intercalan lenguaje natural y coordenadas explícitas de cuadros delimitadores. Estas coordenadas apuntan a regiones de la imagen de entrada que el modelo consulta durante su proceso de razonamiento. Además, GRIT está equipado con un enfoque de aprendizaje por refuerzo, GRPO-GR, basado en el algoritmo GRPO. GRPO-GR emplea recompensas robustas centradas en la precisión de la respuesta final y el formato de la salida de razonamiento fundamentado, lo que elimina la necesidad de datos con anotaciones de cadenas de razonamiento o etiquetas explícitas de cuadros delimitadores. Como resultado, GRIT logra una eficiencia excepcional en el uso de datos, requiriendo tan solo 20 tripletas de imagen-pregunta-respuesta de conjuntos de datos existentes. Evaluaciones exhaustivas demuestran que GRIT entrena eficazmente a los MLLMs para producir cadenas de razonamiento coherentes y fundamentadas visualmente, mostrando una unificación exitosa de las capacidades de razonamiento y fundamentación.
El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha demostrado ser una estrategia efectiva posterior al entrenamiento para mejorar el razonamiento en modelos de visión y lenguaje (VLMs). La Optimización de Política Relativa Grupal (GRPO, por sus siglas en inglés) es un método reciente destacado que fomenta que los modelos generen trazas de razonamiento completas antes de responder, lo que conlleva un mayor uso de tokens y un costo computacional más elevado. Inspirados por el proceso de pensamiento humano, donde las personas omiten el razonamiento en preguntas fáciles pero piensan con cuidado cuando es necesario, exploramos cómo permitir que los VLMs decidan primero cuándo es necesario razonar. Para lograr esto, proponemos TON, una estrategia de entrenamiento en dos etapas: (i) una etapa de ajuste fino supervisado (SFT, por sus siglas en inglés) con una operación simple pero efectiva de 'abandono de pensamiento', donde las trazas de razonamiento se reemplazan aleatoriamente con pensamientos vacíos. Esto introduce un formato de pensar-o-no que sirve como un arranque en frío para el razonamiento selectivo; (ii) una etapa GRPO que permite al modelo explorar libremente cuándo pensar o no, mientras maximiza las recompensas orientadas a la tarea. Los resultados experimentales muestran que TON puede reducir la longitud de finalización hasta en un 90% en comparación con GRPO estándar, sin sacrificar el rendimiento o incluso mejorándolo. Evaluaciones adicionales en diversas tareas de visión y lenguaje, que abarcan un rango de dificultades de razonamiento tanto en modelos de 3B como de 7B, revelan consistentemente que el modelo aprende progresivamente a omitir pasos de razonamiento innecesarios a medida que avanza el entrenamiento. Estos hallazgos arrojan luz sobre el camino hacia patrones de razonamiento similares a los humanos en enfoques de aprendizaje por refuerzo. Nuestro código está disponible en https://github.com/kokolerk/TON.
Recientemente, los modelos multimodales de lenguaje (MLLMs) basados en razonamiento han logrado cierto éxito en la generación de cadenas de razonamiento textual extensas. Sin embargo, aún enfrentan dificultades con tareas complejas que requieren un enfoque dinámico e iterativo en regiones visuales, así como su revisión, para lograr una fundamentación precisa del razonamiento textual en evidencia visual. Presentamos VLM-R^3 (Modelo de Lenguaje Visual con Reconocimiento y Razonamiento de Regiones), un marco que dota a un MLLM de la capacidad de (i) decidir cuándo se necesita evidencia visual adicional, (ii) determinar dónde fundamentarse dentro de la imagen y (iii) integrar de manera fluida el contenido relevante de la sub-imagen en una cadena de pensamiento intercalada. El núcleo de nuestro método es la Optimización de Políticas de Refuerzo Condicionada por Regiones (R-GRPO), un paradigma de entrenamiento que recompensa al modelo por seleccionar regiones informativas, formular transformaciones apropiadas (por ejemplo, recorte, zoom) e integrar el contexto visual resultante en pasos posteriores de razonamiento. Para iniciar esta política, compilamos un corpus modesto pero cuidadosamente seleccionado de Razonamiento Intercalado Visuo-Lingüístico (VLIR), que proporciona supervisión a nivel de paso en la selección de regiones y justificación textual. Experimentos extensos en MathVista, ScienceQA y otros benchmarks muestran que VLM-R^3 establece un nuevo estado del arte en configuraciones zero-shot y few-shot, con las mayores mejoras en preguntas que requieren razonamiento espacial sutil o extracción de señales visuales de grano fino.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) produce mejoras sustanciales en el rendimiento de tareas posteriores de los modelos de lenguaje grandes (LLMs) y en su alineación con los valores humanos. Sorprendentemente, estas grandes mejoras resultan de actualizar solo una pequeña subred que comprende entre el 5 y el 30 por ciento de los parámetros, mientras que el resto permanece prácticamente sin cambios. Nos referimos a este fenómeno como la esparcidad de actualización de parámetros inducida por RL. Este fenómeno se observa en los 7 algoritmos de RL ampliamente utilizados (por ejemplo, PPO, GRPO, DPO) y en los 10 LLMs de diferentes familias en nuestros experimentos. Esta esparcidad es intrínseca y ocurre sin ninguna regularización explícita que promueva la esparcidad ni restricciones arquitectónicas. El ajuste fino de la subred por sí solo recupera la precisión en las pruebas y, notablemente, produce un modelo casi idéntico al obtenido mediante el ajuste fino completo. Las subredes obtenidas a partir de diferentes semillas aleatorias, datos de entrenamiento e incluso algoritmos de RL muestran una superposición sustancialmente mayor de lo esperado por casualidad. Nuestro análisis sugiere que esta esparcidad no se debe a la actualización de solo un subconjunto de capas; en cambio, casi todas las matrices de parámetros reciben actualizaciones igualmente dispersas. Además, las actualizaciones en casi todas las matrices de parámetros son casi de rango completo, lo que sugiere que RL actualiza un pequeño subconjunto de parámetros que, sin embargo, abarcan casi todos los subespacios que las matrices de parámetros pueden representar. Conjeturamos que esta esparcidad en las actualizaciones se puede atribuir principalmente al entrenamiento con datos cercanos a la distribución de la política, mientras que técnicas que fomentan que la política permanezca cerca del modelo preentrenado, como la regularización KL y el recorte de gradientes, tienen un impacto limitado.
Los recientes avances en los modelos de lenguaje con capacidades de razonamiento (LLMs, por sus siglas en inglés), como DeepSeek-R1 y OpenAI-o1, han demostrado capacidades impresionantes de razonamiento mediante el aprendizaje por refuerzo. Sin embargo, extender estas capacidades a los modelos de lenguaje multimodal (MLLMs) se ve obstaculizado por los costos prohibitivos de reentrenamiento y la escasez de conjuntos de datos multimodales de alta calidad y verificables para el razonamiento. Este artículo presenta el modelo FRANK, un MLLM que no requiere entrenamiento (training-FRee) y se asemeja a r1, el cual dota a los MLLMs disponibles en el mercado con habilidades de razonamiento y reflexión, sin necesidad de actualizaciones de gradientes o supervisión adicional. Nuestra idea clave es desacoplar la percepción y el razonamiento a través de las capas del decodificador del MLLM. Específicamente, observamos que, en comparación con las capas más profundas del decodificador, las capas superficiales asignan más atención a los tokens visuales, mientras que las capas más profundas se concentran en la semántica textual. Esta observación motiva un enfoque de fusión jerárquica de pesos que combina un MLLM preentrenado en visión con un LLM especializado en razonamiento. Para ello, proponemos un mecanismo de fusión cerrado derivado de Taylor que integra la capacidad de razonamiento en las capas profundas del decodificador mientras preserva la conexión visual en las capas superficiales. Experimentos exhaustivos en benchmarks desafiantes de razonamiento multimodal demuestran la efectividad de nuestro enfoque. En el benchmark MMMU, nuestro modelo FRANK-38B alcanza una precisión de 69.2, superando al baseline más fuerte, InternVL2.5-38B, por +5.3, e incluso supera al modelo propietario GPT-4o. La página principal de nuestro proyecto se encuentra en: http://iip.whu.edu.cn/frank/index.html.
Los grandes modelos de visión y lenguaje (LVLMs, por sus siglas en inglés) siguen siendo vulnerables a la alucinación, generando con frecuencia contenido desalineado con las entradas visuales. Si bien enfoques recientes avanzan en la Optimización Directa de Preferencias (DPO) multimodal para mitigar la alucinación, generalmente dependen de muestras negativas predefinidas o editadas aleatoriamente que no reflejan los errores reales del modelo, limitando así la eficacia del entrenamiento. En este trabajo, proponemos un marco de Aprendizaje de Preferencias de Visión y Lenguaje en Línea (OViP) que construye dinámicamente datos de entrenamiento contrastivos basados en las salidas alucinadas del propio modelo. Al identificar diferencias semánticas entre pares de respuestas muestreadas y sintetizar imágenes negativas utilizando un modelo de difusión, OViP genera señales de supervisión más relevantes en tiempo real. Este entrenamiento basado en fallos permite una alineación adaptativa tanto de las preferencias textuales como visuales. Además, refinamos los protocolos de evaluación existentes para capturar mejor el equilibrio entre la supresión de alucinaciones y la expresividad. Los experimentos en benchmarks de alucinación y generales demuestran que OViP reduce efectivamente las alucinaciones mientras preserva las capacidades multimodales fundamentales.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han avanzado rápidamente en tareas visuales, pero su comprensión espacial sigue limitada a imágenes individuales, lo que los hace poco adecuados para la robótica y otras aplicaciones del mundo real que requieren razonamiento multiframe. En este artículo, proponemos un marco para dotar a los MLLMs de una comprensión espacial multiframe robusta mediante la integración de percepción de profundidad, correspondencia visual y percepción dinámica. El núcleo de nuestro enfoque es el conjunto de datos MultiSPA, una colección novedosa y a gran escala de más de 27 millones de muestras que abarcan diversas escenas en 3D y 4D. Junto con MultiSPA, presentamos un benchmark integral que evalúa un amplio espectro de tareas espaciales bajo métricas uniformes. Nuestro modelo resultante, Multi-SpatialMLLM, logra mejoras significativas respecto a los sistemas de referencia y propietarios, demostrando un razonamiento multiframe escalable y generalizable. Además, observamos beneficios multitarea e indicios tempranos de capacidades emergentes en escenarios desafiantes, y mostramos cómo nuestro modelo puede servir como un anotador de recompensas multiframe para robótica.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades avanzadas en aplicaciones agentivas del mundo real. Los crecientes esfuerzos de investigación buscan desarrollar agentes basados en LLMs para abordar demandas prácticas, introduciendo un nuevo desafío: los escenarios agentivos a menudo involucran instrucciones extensas con restricciones complejas, como indicaciones de sistema prolongadas y especificaciones detalladas de herramientas. Si bien el cumplimiento de dichas instrucciones es crucial para las aplicaciones agentivas, si los LLMs pueden seguirlas de manera confiable sigue siendo un tema poco explorado. En este artículo, presentamos AgentIF, el primer punto de referencia para evaluar sistemáticamente la capacidad de seguimiento de instrucciones de los LLMs en escenarios agentivos. AgentIF presenta tres características clave: (1) Realista, construido a partir de 50 aplicaciones agentivas del mundo real. (2) Extenso, con un promedio de 1,723 palabras y un máximo de 15,630 palabras. (3) Complejo, con un promedio de 11.9 restricciones por instrucción, cubriendo diversos tipos de restricciones, como especificaciones de herramientas y condiciones. Para construir AgentIF, recopilamos 707 instrucciones anotadas por humanos en 50 tareas agentivas provenientes de agentes de aplicaciones industriales y sistemas agentivos de código abierto. Para cada instrucción, anotamos las restricciones asociadas y las métricas de evaluación correspondientes, incluyendo evaluación basada en código, evaluación basada en LLMs y evaluación híbrida código-LLM. Utilizamos AgentIF para evaluar sistemáticamente los LLMs avanzados existentes. Observamos que los modelos actuales generalmente tienen un desempeño deficiente, especialmente al manejar estructuras de restricciones complejas y especificaciones de herramientas. Además, realizamos análisis de errores y experimentos analíticos sobre la longitud de las instrucciones y las meta-restricciones, proporcionando hallazgos sobre los modos de falla de los LLMs existentes. Hemos liberado el código y los datos para facilitar investigaciones futuras.
El aprendizaje por refuerzo basado en retroalimentación humana (RLHF, por sus siglas en inglés) se ha convertido en un paradigma poderoso para alinear modelos de lenguaje de gran escala con las preferencias humanas. Un desafío central en RLHF es la construcción de señales de recompensa precisas, donde los modelos de recompensa convencionales basados en Bradley-Terry (BT RMs) suelen ser sensibles al tamaño y cobertura de los datos, además de ser vulnerables a la manipulación de recompensas. Los modelos de recompensa generativos (GenRMs) ofrecen una alternativa más robusta al generar razonamientos en cadena (CoT) seguidos de una recompensa final. Sin embargo, los GenRMs existentes dependen de un razonamiento superficial y escalado vertical, lo que limita su capacidad para manejar tareas matizadas o complejas (por ejemplo, aquellas que requieren un razonamiento intensivo). Además, sus salidas de preferencias por pares son incompatibles con los algoritmos estándar de RLHF, que requieren señales de recompensa puntuales. En este trabajo, presentamos Think-RM, un marco de entrenamiento que permite un razonamiento de largo alcance en GenRMs al modelar un proceso de pensamiento interno. En lugar de producir razonamientos estructurados y proporcionados externamente, Think-RM genera trazas de razonamiento flexibles y autoguiadas que apoyan capacidades avanzadas como la autorreflexión, el razonamiento hipotético y el razonamiento divergente. Para fomentar estas habilidades de razonamiento, primero preparamos los modelos mediante ajuste fino supervisado (SFT) sobre datos de CoT extensos. Luego, mejoramos aún más las habilidades de largo alcance del modelo mediante aprendizaje por refuerzo basado en reglas (RL). Además, proponemos una nueva canalización de RLHF por pares que optimiza directamente las políticas utilizando recompensas de preferencias por pares, eliminando la necesidad de conversión de recompensas puntuales y permitiendo un uso más efectivo de las salidas de Think-RM. Los experimentos muestran que Think-RM logra resultados de vanguardia en RM-Bench, superando tanto a BT RM como a GenRM escalado verticalmente en un 8%. Cuando se combina con nuestra canalización de RLHF por pares, demuestra un rendimiento superior en políticas finales en comparación con los enfoques tradicionales.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) introducen un nuevo paradigma de generación que consiste en razonar explícitamente antes de responder, lo que conduce a mejoras notables en tareas complejas. Sin embargo, plantean grandes riesgos de seguridad frente a consultas dañinas y ataques adversarios. Si bien los esfuerzos recientes en seguridad para LRMs, como el ajuste fino supervisado (SFT), mejoran el rendimiento en seguridad, encontramos que los modelos alineados con SFT tienen dificultades para generalizar a indicaciones de jailbreak no vistas. Tras una investigación exhaustiva de la generación de LRMs, identificamos un "momento aha" de seguridad que puede activar el razonamiento de seguridad y conducir a una respuesta segura. Este momento aha suele aparecer en la "frase clave", que sigue al proceso de comprensión de la consulta por parte del modelo y puede indicar si el modelo procederá de manera segura. Basándonos en estas ideas, proponemos SafeKey, que incluye dos objetivos complementarios para activar mejor el momento aha de seguridad en la frase clave: (1) una Cabecera de Seguridad de Doble Vía para mejorar la señal de seguridad en las representaciones internas del modelo antes de la frase clave, y (2) un objetivo de Modelado de Enmascaramiento de Consultas para mejorar la atención del modelo en su comprensión de la consulta, que contiene pistas importantes de seguridad. Los experimentos en múltiples benchmarks de seguridad demuestran que nuestros métodos mejoran significativamente la generalización de seguridad frente a una amplia gama de ataques de jailbreak y consultas dañinas fuera de distribución, reduciendo la tasa promedio de daño en un 9.6\%, mientras se mantienen las habilidades generales. Nuestro análisis revela cómo SafeKey mejora la seguridad remodelando la atención interna y mejorando la calidad de las representaciones ocultas.
Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés), que proporcionan retroalimentación paso a paso sobre el razonamiento generado por los Modelos de Lenguaje a Gran Escala (LLMs), están recibiendo una atención creciente. Sin embargo, persisten dos brechas clave de investigación: la recopilación de etiquetas precisas de errores a nivel de paso para el entrenamiento generalmente requiere una costosa anotación humana, y los PRMs existentes están limitados a problemas de razonamiento matemático. En respuesta a estas brechas, este artículo tiene como objetivo abordar los desafíos de la creación automática de conjuntos de datos y la generalización de los PRMs a diversas tareas de razonamiento. Para lograr este objetivo, proponemos FoVer, un enfoque para entrenar PRMs con etiquetas de errores a nivel de paso anotadas automáticamente por herramientas de verificación formal, como Z3 para lógica formal e Isabelle para pruebas de teoremas, las cuales proporcionan verificación automática y precisa para tareas simbólicas. Utilizando este enfoque, sintetizamos un conjunto de datos de entrenamiento con etiquetas de errores en las respuestas de los LLMs para tareas de lógica formal y pruebas de teoremas sin necesidad de anotación humana. Aunque esta síntesis de datos solo es factible para tareas compatibles con la verificación formal, observamos que los PRMs basados en LLMs entrenados con nuestro conjunto de datos exhiben generalización entre tareas, mejorando la verificación en diversas tareas de razonamiento. Específicamente, los PRMs entrenados con FoVer superan significativamente a los PRMs de referencia basados en los LLMs originales y logran resultados competitivos o superiores en comparación con los PRMs más avanzados entrenados con etiquetas anotadas por humanos o modelos más potentes, según se mide por la verificación a nivel de paso en ProcessBench y el rendimiento Best-of-K en 12 puntos de referencia de razonamiento, incluyendo MATH, AIME, ANLI, MMLU y BBH. Los conjuntos de datos, modelos y código están disponibles en https://github.com/psunlpgroup/FoVer.
Los sistemas de traducción automática de alta calidad basados en modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han simplificado la producción de traducciones personalizadas que reflejan restricciones estilísticas específicas. Sin embargo, estos sistemas aún enfrentan dificultades en entornos donde los requisitos estilísticos son menos explícitos y pueden ser más difíciles de transmitir mediante indicaciones (prompting). Exploramos diversas estrategias para personalizar traducciones generadas por LLMs en entornos de bajos recursos, centrándonos en el desafiante dominio de la traducción literaria. Investigamos estrategias de indicación e intervenciones en tiempo de inferencia para guiar las generaciones del modelo hacia un estilo personalizado, y proponemos un marco contrastivo que aprovecha conceptos latentes extraídos de autoencoders dispersos para identificar propiedades destacadas de personalización. Nuestros resultados muestran que la guía logra una fuerte personalización mientras preserva la calidad de la traducción. Además, examinamos el impacto de la guía en las representaciones de los LLMs, encontrando que las capas del modelo con un impacto relevante para la personalización se ven afectadas de manera similar por el prompting de múltiples ejemplos (multi-shot) y nuestro método de guía, lo que sugiere mecanismos similares en juego.
Evaluar las capacidades de generación de texto de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es un desafío, especialmente para lenguajes de bajos recursos, donde los métodos de evaluación directa son escasos. Proponemos MUG-Eval, un marco novedoso que evalúa las capacidades de generación multilingüe de los LLMs transformando benchmarks existentes en tareas conversacionales y midiendo la precisión de los LLMs en dichas tareas. Diseñamos específicamente estas tareas conversacionales para requerir una comunicación efectiva en el idioma objetivo. Luego, simplemente utilizamos la tasa de éxito en la tarea como un indicador de la generación exitosa de conversaciones. Nuestro enfoque ofrece dos ventajas clave: es independiente de herramientas de PLN específicas del idioma o conjuntos de datos anotados, que son limitados para la mayoría de los idiomas, y no depende de LLMs como jueces, cuya calidad de evaluación se degrada fuera de unos pocos idiomas de altos recursos. Evaluamos 8 LLMs en 30 idiomas que abarcan categorías de altos, medios y bajos recursos, y encontramos que MUG-Eval se correlaciona fuertemente con benchmarks establecidos (r > 0.75) mientras permite comparaciones estandarizadas entre idiomas y modelos. Nuestro marco proporciona una solución robusta y eficiente en recursos para evaluar la generación multilingüe que puede extenderse a miles de idiomas.
Proponemos RoPECraft, un método de transferencia de movimiento en vídeo sin entrenamiento para transformadores de difusión que opera únicamente mediante la modificación de sus incrustaciones posicionales rotatorias (RoPE). Primero extraemos el flujo óptico denso de un vídeo de referencia y utilizamos los desplazamientos de movimiento resultantes para deformar los tensores complejo-exponenciales de RoPE, codificando efectivamente el movimiento en el proceso de generación. Estas incrustaciones se optimizan aún más durante los pasos de eliminación de ruido mediante la alineación de trayectorias entre las velocidades predichas y las deseadas, utilizando un objetivo de coincidencia de flujo. Para mantener la fidelidad de la salida al texto de entrada y evitar generaciones duplicadas, incorporamos un término de regularización basado en los componentes de fase de la transformada de Fourier del vídeo de referencia, proyectando los ángulos de fase en una variedad suave para suprimir artefactos de alta frecuencia. Los experimentos en puntos de referencia revelan que RoPECraft supera a todos los métodos publicados recientemente, tanto cualitativa como cuantitativamente.
La comprensión metafórica en imágenes sigue siendo un desafío crítico para los sistemas de IA, ya que los modelos existentes tienen dificultades para captar las implicaciones culturales, emocionales y contextuales matizadas presentes en el contenido visual. Aunque los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) sobresalen en tareas básicas de Respuesta a Preguntas Visuales (VQA), enfrentan una limitación fundamental en tareas de implicación visual: brechas contextuales que oscurecen las relaciones entre los diferentes elementos visuales y sus significados abstractos. Inspirados por el proceso cognitivo humano, proponemos Let Androids Dream (LAD), un marco novedoso para la comprensión y razonamiento de implicaciones visuales. LAD aborda la falta de contexto a través de un marco de tres etapas: (1) Percepción: convertir la información visual en representaciones textuales ricas y multinivel, (2) Búsqueda: buscar e integrar iterativamente conocimiento de múltiples dominios para resolver ambigüedades, y (3) Razonamiento: generar implicaciones visuales alineadas con el contexto mediante un razonamiento explícito. Nuestro marco, junto con el modelo ligero GPT-4o-mini, logra un rendimiento de vanguardia (SOTA) en comparación con más de 15 MLLMs en el benchmark de implicación visual en inglés y una mejora significativa en el benchmark en chino, obteniendo un desempeño comparable con el modelo GPT-4o en Preguntas de Opción Múltiple (MCQ) y superándolo en un 36.7% en Preguntas de Estilo Abierto (OSQ). Además, nuestro trabajo ofrece nuevas perspectivas sobre cómo la IA puede interpretar de manera más efectiva las implicaciones visuales, avanzando en el campo del razonamiento visión-lenguaje y la interacción humano-IA. Nuestro proyecto está disponible públicamente en https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.
¿Pueden los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) admitir sus errores cuando deberían saber mejor? En este trabajo, definimos el comportamiento de reconocer errores en respuestas previamente generadas como "retractación" y buscamos comprender cuándo y por qué los LLMs eligen retractarse. Primero, construimos conjuntos de datos específicos para cada modelo con el fin de evaluar si un modelo se retractará de una respuesta incorrecta que contradice su propio conocimiento paramétrico. Aunque los LLMs son capaces de retractarse, lo hacen solo de manera infrecuente. Demostramos que la retractación está estrechamente relacionada con indicadores previamente identificados de las creencias internas de los modelos: los modelos no se retractan de respuestas incorrectas que "creen" que son factualmente correctas. Experimentos de direccionamiento demuestran además que las creencias internas influyen causalmente en la retractación del modelo. En particular, cuando el modelo no cree en su respuesta, esto no solo lo alienta a intentar verificar la respuesta, sino que también altera el comportamiento de atención durante la autoverificación. Finalmente, demostramos que un simple ajuste fino supervisado mejora significativamente el rendimiento de la retractación al ayudar al modelo a aprender creencias internas más precisas. El código y los conjuntos de datos están disponibles en https://github.com/ayyyq/llm-retraction.
Los Modelos de Visión-Lenguaje (VLMs) adquieren conocimiento del mundo real y capacidad de razonamiento general a través de corpus de imágenes y texto a escala de Internet. Estos modelos pueden potenciar sistemas robóticos con comprensión de escenas y planificación de tareas, además de asistir políticas visuomotoras entrenadas con datos de trayectorias robóticas. Exploramos el paradigma inverso: utilizar datos ricos, reales y multimodales de trayectorias robóticas para mejorar y evaluar VLMs. En este artículo, presentamos Robo2VLM, un marco de generación de conjuntos de datos de Respuesta a Preguntas Visuales (VQA) para VLMs. Dada una trayectoria robótica teleoperada por humanos, Robo2VLM deriva la verdad fundamental (ground-truth) a partir de modalidades sensoriales no visuales y no descriptivas, como la pose del efector final, la apertura de la pinza y la detección de fuerzas. Basándose en estas modalidades, segmenta la trayectoria robótica en una secuencia de fases de manipulación. En cada fase, Robo2VLM utiliza la comprensión de la escena y la interacción para identificar propiedades 3D del robot, el objetivo de la tarea y el objeto objetivo. Estas propiedades se utilizan para generar consultas VQA representativas —imágenes con preguntas de opción múltiple textual— basadas en plantillas de preguntas de razonamiento espacial, condicionado por objetivos y de interacción. Creamos Robo2VLM-1, un conjunto de datos a gran escala en entornos reales con 684,710 preguntas que cubren 463 escenas distintas y 3,396 tareas de manipulación robótica derivadas de 176k trayectorias robóticas reales. Los resultados sugieren que Robo2VLM-1 puede evaluar y mejorar las capacidades de los VLMs en razonamiento espacial y de interacción.
A pesar de los avances significativos en los Modelos de Lenguaje y Visión a Gran Escala (LVLMs, por sus siglas en inglés), persiste una brecha, particularmente en cuanto a su interpretabilidad y cómo localizan e interpretan la información textual dentro de las imágenes. En este artículo, exploramos varios LVLMs para identificar las cabezas específicas responsables de reconocer texto en imágenes, a las que denominamos Cabezas de Reconocimiento Óptico de Caracteres (OCR Heads). Nuestros hallazgos sobre estas cabezas son los siguientes: (1) Menos dispersas: A diferencia de las cabezas de recuperación anteriores, se activa un gran número de cabezas para extraer información textual de las imágenes. (2) Cualitativamente distintas: Las cabezas OCR poseen propiedades que difieren significativamente de las cabezas de recuperación generales, mostrando una baja similitud en sus características. (3) Estáticamente activadas: La frecuencia de activación de estas cabezas se alinea estrechamente con sus puntuaciones OCR. Validamos nuestros hallazgos en tareas posteriores aplicando el enfoque de Cadena de Pensamiento (Chain-of-Thought, CoT) tanto a las cabezas OCR como a las cabezas de recuperación convencionales, y enmascarando estas cabezas. También demostramos que la redistribución de los valores de los tokens sumidero dentro de las cabezas OCR mejora el rendimiento. Estas ideas proporcionan una comprensión más profunda de los mecanismos internos que emplean los LVLMs para procesar la información textual incrustada en las imágenes.
A medida que los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) se integran cada vez más en la vida cotidiana, la necesidad de una comprensión precisa de la cultura visual se está volviendo crítica. Sin embargo, estos modelos a menudo no logran interpretar eficazmente los matices culturales. Trabajos previos han demostrado la efectividad de la generación aumentada por recuperación (RAG, por sus siglas en inglés) para mejorar la comprensión cultural en entornos de solo texto, mientras que su aplicación en escenarios multimodales sigue siendo poco explorada. Para cerrar esta brecha, presentamos RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), un nuevo punto de referencia diseñado para avanzar en la comprensión de la cultura visual a través de la recuperación, centrándose en dos tareas: respuesta a preguntas visuales centradas en la cultura (cVQA, por sus siglas en inglés) y generación de descripciones de imágenes informadas por la cultura (cIC, por sus siglas en inglés). RAVENEA amplía los conjuntos de datos existentes al integrar más de 10,000 documentos de Wikipedia curados y clasificados por anotadores humanos. Con RAVENEA, entrenamos y evaluamos siete recuperadores multimodales para cada consulta de imagen, y medimos el impacto descendente de las entradas aumentadas por recuperación en catorce VLMs de última generación. Nuestros resultados muestran que los VLMs ligeros, cuando se aumentan con recuperación consciente de la cultura, superan a sus contrapartes no aumentadas (al menos en un 3.2% absoluto en cVQA y un 6.2% absoluto en cIC). Esto destaca el valor de los métodos aumentados por recuperación y los puntos de referencia culturalmente inclusivos para la comprensión multimodal.
Los tokenizadores BPE modernos suelen dividir las fechas del calendario en fragmentos sin sentido, por ejemplo, 20250312 → 202, 503, 12, inflando el recuento de tokens y oscureciendo la estructura inherente necesaria para un razonamiento temporal robusto. En este trabajo, (1) introducimos una métrica simple pero interpretable, denominada relación de fragmentación de fechas, que mide cuán fielmente un tokenizador preserva los componentes de fechas de varios dígitos; (2) publicamos DateAugBench, un conjunto de 6500 ejemplos que abarcan tres tareas de razonamiento temporal: resolución de fechas basada en contexto, acertijos de invariancia de formato y aritmética de fechas en regímenes históricos, contemporáneos y futuros; y (3) mediante análisis de sondeo por capas y de saltos de atención causal, descubrimos un mecanismo emergente de abstracción de fechas mediante el cual los modelos de lenguaje grande unen los fragmentos de los componentes de mes, día y año para el razonamiento temporal. Nuestros experimentos muestran que la fragmentación excesiva se correlaciona con caídas de precisión de hasta 10 puntos en fechas poco comunes, como fechas históricas y futuristas. Además, encontramos que cuanto más grande es el modelo, más rápido se logra la abstracción emergente de fechas que repara los fragmentos de fechas. Por último, observamos una ruta de razonamiento que los LLM siguen para ensamblar fragmentos de fechas, que generalmente difiere de la interpretación humana (año → mes → día).
Presentamos un nuevo conjunto de datos diseñado para evaluar las capacidades de razonamiento físico y espacial de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) basado en la optimización topológica, un método para calcular distribuciones óptimas de material dentro de un espacio de diseño bajo cargas y soportes predefinidos. En este conjunto de datos, se proporciona a los LLM condiciones como límites 2D, fuerzas aplicadas y soportes, y deben razonar sobre la distribución óptima de material resultante. El conjunto de datos incluye una variedad de tareas, que van desde completar regiones enmascaradas dentro de estructuras parciales hasta predecir distribuciones completas de material. Resolver estas tareas requiere comprender el flujo de fuerzas y la distribución de material necesaria bajo restricciones dadas, sin acceso a herramientas de simulación o modelos físicos explícitos, desafiando a los modelos a razonar sobre la estabilidad estructural y la organización espacial. Nuestro conjunto de datos tiene como objetivo evaluar las habilidades de razonamiento espacial y físico en entornos 2D, ofreciendo una perspectiva complementaria a los benchmarks tradicionales de lenguaje y lógica.
Al preentrenarse para sintetizar imágenes coherentes a partir de entradas perturbadas, los modelos generativos aprenden inherentemente a comprender los límites de los objetos y las composiciones de las escenas. ¿Cómo podemos reutilizar estas representaciones generativas para la organización perceptual de propósito general? Ajustamos Stable Diffusion y MAE (codificador+decodificador) para la segmentación de instancias independiente de categorías, utilizando nuestra función de pérdida de coloreado de instancias exclusivamente en un conjunto reducido de tipos de objetos (mobiliario interior y coches). Sorprendentemente, nuestros modelos exhiben una fuerte generalización zero-shot, segmentando con precisión objetos de tipos y estilos no vistos durante el ajuste (y, en muchos casos, tampoco en el preentrenamiento de MAE en ImageNet-1K). Nuestros modelos de mejor rendimiento se acercan notablemente al SAM altamente supervisado cuando se evalúan en tipos y estilos de objetos no vistos, y lo superan al segmentar estructuras finas y límites ambiguos. En contraste, las arquitecturas de segmentación basadas en prompts o los modelos preentrenados de manera discriminativa no logran generalizar. Esto sugiere que los modelos generativos aprenden un mecanismo de agrupación inherente que se transfiere entre categorías y dominios, incluso sin un preentrenamiento a escala de internet. El código, los modelos preentrenados y las demostraciones están disponibles en nuestro sitio web.
Los modelos de audio-lenguaje de gran escala (LALMs, por sus siglas en inglés) amplían los modelos de lenguaje de gran escala con capacidades de comprensión multimodal en habla, audio, etc. Si bien su rendimiento en tareas de procesamiento de habla y audio ha sido ampliamente estudiado, sus habilidades de razonamiento siguen siendo poco exploradas. En particular, su razonamiento de múltiples saltos, la capacidad de recordar e integrar múltiples hechos, carece de una evaluación sistemática. Los puntos de referencia existentes se centran en tareas generales de procesamiento de habla y audio, habilidades conversacionales y equidad, pero pasan por alto este aspecto. Para cerrar esta brecha, presentamos SAKURA, un punto de referencia que evalúa el razonamiento de múltiples saltos de los LALMs basado en información de habla y audio. Los resultados muestran que los LALMs tienen dificultades para integrar representaciones de habla/audio para el razonamiento de múltiples saltos, incluso cuando extraen la información relevante correctamente, lo que resalta un desafío fundamental en el razonamiento multimodal. Nuestros hallazgos exponen una limitación crítica en los LALMs, ofreciendo perspectivas y recursos para futuras investigaciones.