Artículos de investigación en IA seleccionados diariamente con traducciones
El notable crecimiento en las capacidades de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) ha impulsado la exploración de sistemas multiagente, con marcos de debate emergiendo como una vía prometedora para la resolución de problemas mejorada. Estos enfoques de debate multiagente (MAD, por sus siglas en inglés), en los que los agentes presentan, critican y refinan argumentos de manera colaborativa, ofrecen potencialmente un razonamiento mejorado, robustez y perspectivas diversas en comparación con los modelos monolíticos. A pesar de estudios previos que han aprovechado MAD, una comprensión sistemática de su efectividad en comparación con métodos de agente único, particularmente bajo diversas condiciones, sigue siendo esquiva. Este artículo busca llenar este vacío conceptualizando MAD como una técnica de escalado computacional en tiempo de prueba, distinguida por capacidades de refinamiento colaborativo y exploración diversa. Realizamos una investigación empírica exhaustiva comparando MAD con líneas base sólidas de escalado en tiempo de prueba de agente único en tareas de razonamiento matemático y relacionadas con la seguridad. Nuestro estudio examina sistemáticamente la influencia de la dificultad de la tarea, la escala del modelo y la diversidad de agentes en el rendimiento de MAD. Los hallazgos clave revelan que, para el razonamiento matemático, MAD ofrece ventajas limitadas sobre el escalado de agente único, pero se vuelve más efectivo con el aumento de la dificultad del problema y la disminución de la capacidad del modelo, mientras que la diversidad de agentes muestra poco beneficio. Por el contrario, para tareas de seguridad, el refinamiento colaborativo de MAD puede aumentar la vulnerabilidad, pero la incorporación de configuraciones diversas de agentes facilita una reducción gradual en el éxito de los ataques a través del proceso de refinamiento colaborativo. Creemos que nuestros hallazgos proporcionan una guía crítica para el desarrollo futuro de sistemas MAD más efectivos y estratégicamente implementados.
Los enfoques existentes de segmentación por razonamiento suelen ajustar modelos de lenguaje multimodal de gran escala (MLLMs) utilizando pares de imagen-texto y etiquetas de máscara correspondientes. Sin embargo, muestran una generalización limitada a escenarios fuera de distribución sin un proceso de razonamiento explícito. Aunque esfuerzos recientes aprovechan el aprendizaje por refuerzo mediante la optimización de políticas relativas a grupos (GRPO) para mejorar la capacidad de razonamiento, a menudo sufren de "sobrepensamiento", produciendo cadenas de razonamiento uniformemente verbosas independientemente de la complejidad de la tarea. Esto resulta en costos computacionales elevados y un control limitado sobre la calidad del razonamiento. Para abordar este problema, proponemos PixelThink, un esquema simple pero efectivo que integra la dificultad de la tarea estimada externamente y la incertidumbre del modelo medida internamente para regular la generación de razonamiento dentro de un paradigma de aprendizaje por refuerzo. El modelo aprende a comprimir la longitud del razonamiento de acuerdo con la complejidad de la escena y la confianza predictiva. Para respaldar una evaluación integral, presentamos ReasonSeg-Diff, un benchmark extendido con referencias de razonamiento anotadas y puntuaciones de dificultad, junto con un conjunto de métricas diseñadas para evaluar conjuntamente la precisión de la segmentación, la calidad del razonamiento y la eficiencia. Los resultados experimentales demuestran que el enfoque propuesto mejora tanto la eficiencia del razonamiento como el rendimiento general de la segmentación. Nuestro trabajo aporta perspectivas novedosas hacia una comprensión multimodal eficiente e interpretable. El código y el modelo estarán disponibles públicamente.
En este trabajo, presentamos el primer estudio que explora el escalado en tiempo de inferencia para tareas de razonamiento sobre tablas. Desarrollamos y evaluamos dos estrategias posteriores al entrenamiento para habilitar el escalado en tiempo de inferencia: destilación a partir de trazas de razonamiento de modelos de vanguardia y aprendizaje por refuerzo con recompensas verificables (RLVR). Para la destilación, introducimos un conjunto de datos a gran escala de trazas de razonamiento generadas por DeepSeek-R1, que utilizamos para ajustar modelos de lenguaje grandes (LLMs) en el modelo Table-R1-SFT. Para RLVR, proponemos funciones de recompensa verificables específicas de la tarea y aplicamos el algoritmo GRPO para obtener el modelo Table-R1-Zero. Evaluamos nuestros modelos de la serie Table-R1 en diversas tareas de razonamiento sobre tablas, incluyendo preguntas y respuestas de formato corto, verificación de hechos y preguntas y respuestas de formato libre. Notablemente, el modelo Table-R1-Zero iguala o supera el rendimiento de GPT-4.1 y DeepSeek-R1, utilizando solo un LLM de 7B parámetros. También demuestra una fuerte generalización a conjuntos de datos fuera del dominio. Análisis exhaustivos de ablación y cualitativos revelan los beneficios del ajuste por instrucción, las elecciones de arquitectura del modelo y la generalización entre tareas, así como la emergencia de habilidades esenciales de razonamiento sobre tablas durante el entrenamiento por refuerzo.
Los recientes avances en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han mejorado significativamente el rendimiento en tareas visuales 2D. Sin embargo, mejorar su inteligencia espacial sigue siendo un desafío. Los MLLMs 3D existentes siempre dependen de datos adicionales 3D o 2.5D para incorporar conciencia espacial, lo que restringe su utilidad en escenarios con solo entradas 2D, como imágenes o videos. En este artículo, presentamos Spatial-MLLM, un marco novedoso para el razonamiento espacial basado en visuales a partir de observaciones puramente 2D. A diferencia de los MLLMs de video convencionales que dependen de codificadores visuales basados en CLIP optimizados para la comprensión semántica, nuestra idea clave es liberar el fuerte prior estructural del modelo base de geometría visual de avance. Específicamente, proponemos una arquitectura de doble codificador: un codificador visual 2D preentrenado para extraer características semánticas, y un codificador espacial inicializado a partir del núcleo del modelo de geometría visual para extraer características de estructura 3D. Un conector luego integra ambas características en tokens visuales unificados para una comprensión espacial mejorada. Además, proponemos una estrategia de muestreo de fotogramas consciente del espacio en el momento de la inferencia, que selecciona los fotogramas espacialmente informativos de una secuencia de video, asegurando que, incluso con una longitud de token limitada, el modelo se enfoque en los fotogramas críticos para el razonamiento espacial. Más allá de las mejoras en la arquitectura, construimos el conjunto de datos Spatial-MLLM-120k y entrenamos el modelo en él utilizando ajuste fino supervisado y GRPO. Experimentos extensos en varios conjuntos de datos del mundo real demuestran que nuestro Spatial-MLLM logra un rendimiento de vanguardia en una amplia gama de tareas de comprensión y razonamiento espacial basadas en visuales. Página del proyecto: https://diankun-wu.github.io/Spatial-MLLM/.
Estudios recientes sobre el entrenamiento posterior de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) para el razonamiento mediante aprendizaje por refuerzo (RL, por sus siglas en inglés) suelen centrarse en tareas que pueden verificarse y recompensarse con precisión, como la resolución de problemas matemáticos. En contraste, nuestra investigación examina el impacto del ruido en las recompensas, una consideración más práctica para escenarios del mundo real que involucran el entrenamiento posterior de LLMs utilizando modelos de recompensa. Descubrimos que los LLMs muestran una fuerte robustez ante un ruido sustancial en las recompensas. Por ejemplo, invertir manualmente el 40% de las salidas de la función de recompensa en tareas matemáticas aún permite que un modelo Qwen-2.5-7B logre una convergencia rápida, mejorando su rendimiento en tareas matemáticas del 5% al 72%, en comparación con el 75% de precisión alcanzado por un modelo entrenado con recompensas libres de ruido. Sorprendentemente, al recompensar únicamente la aparición de frases clave de razonamiento (denominadas recompensa por patrón de razonamiento, RPR), como «primero, necesito», sin verificar la corrección de las respuestas, el modelo alcanzó un rendimiento máximo en tareas posteriores (más del 70% de precisión para Qwen-2.5-7B) comparable al de modelos entrenados con verificación estricta de corrección y recompensas precisas. Reconociendo la importancia del proceso de razonamiento sobre los resultados finales, combinamos RPR con modelos de recompensa ruidosos. RPR ayudó a calibrar los modelos de recompensa ruidosos, mitigando posibles falsos negativos y mejorando el rendimiento del LLM en tareas de respuesta abierta. Estos hallazgos sugieren la importancia de mejorar las habilidades fundamentales de los modelos durante la fase de preentrenamiento, al tiempo que ofrecen ideas para avanzar en las técnicas de entrenamiento posterior. Nuestro código y scripts están disponibles en https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
Los MLLM (Modelos Multimodales de Lenguaje) han sido ampliamente estudiados recientemente para la tarea de respuesta a preguntas sobre videos. Sin embargo, la mayoría de las evaluaciones existentes se centran en videos naturales, pasando por alto los videos sintéticos, como el contenido generado por IA (AIGC). Paralelamente, algunos trabajos en generación de videos dependen de MLLM para evaluar la calidad de los videos generados, pero las capacidades de los MLLM para interpretar videos AIGC siguen siendo en gran parte inexploradas. Para abordar esto, proponemos un nuevo punto de referencia, VF-Eval, que introduce cuatro tareas—validación de coherencia, conciencia de errores, detección de tipos de errores y evaluación de razonamiento—para evaluar de manera integral las habilidades de los MLLM en videos AIGC. Evaluamos 13 MLLM de vanguardia en VF-Eval y encontramos que incluso el modelo con mejor rendimiento, GPT-4.1, tiene dificultades para lograr un desempeño consistentemente bueno en todas las tareas. Esto resalta la naturaleza desafiante de nuestro punto de referencia. Además, para investigar las aplicaciones prácticas de VF-Eval en la mejora de la generación de videos, llevamos a cabo un experimento, RePrompt, que demuestra que alinear más estrechamente los MLLM con la retroalimentación humana puede beneficiar la generación de videos.
El rápido avance de los grandes Modelos de Visión-Lenguaje (VLMs) ha impulsado el desarrollo de Agentes GUI basados únicamente en visión, capaces de percibir y operar Interfaces Gráficas de Usuario (GUI) para cumplir instrucciones de los usuarios de manera autónoma. Sin embargo, los enfoques existentes suelen adoptar un marco de aprendizaje fuera de línea, que enfrenta dos limitaciones principales: (1) una fuerte dependencia de anotaciones manuales de alta calidad para la localización de elementos y la supervisión de acciones, y (2) una adaptabilidad limitada a entornos dinámicos e interactivos. Para abordar estas limitaciones, proponemos ZeroGUI, un marco de aprendizaje en línea escalable para automatizar el entrenamiento de Agentes GUI con un costo humano Cero. Específicamente, ZeroGUI integra (i) la generación automática de tareas basada en VLM para producir objetivos de entrenamiento diversos a partir del estado actual del entorno, (ii) la estimación automática de recompensas basada en VLM para evaluar el éxito de la tarea sin funciones de evaluación manualmente diseñadas, y (iii) un aprendizaje por refuerzo en línea de dos etapas para interactuar y aprender continuamente de los entornos GUI. Los experimentos en dos Agentes GUI avanzados (UI-TARS y Aguvis) demuestran que ZeroGUI mejora significativamente el rendimiento en los entornos OSWorld y AndroidLab. El código está disponible en https://github.com/OpenGVLab/ZeroGUI.
Los modelos de lenguaje basados en difusión (Diffusion LLMs) han mostrado potencial para la generación de texto no autoregresivo con capacidades de decodificación paralela. Sin embargo, la velocidad de inferencia práctica de los Diffusion LLMs de código abierto a menudo se queda atrás en comparación con los modelos autoregresivos, debido a la falta de una caché de Clave-Valor (KV) y a la degradación de calidad al decodificar múltiples tokens simultáneamente. Para cerrar esta brecha, introducimos un novedoso mecanismo de caché KV aproximada por bloques, diseñado específicamente para modelos de difusión bidireccionales, que permite la reutilización de la caché con una caída de rendimiento insignificante. Además, identificamos que la causa principal de la degradación de la calidad en la decodificación paralela es la ruptura de las dependencias entre tokens bajo el supuesto de independencia condicional. Para abordar este problema, proponemos una estrategia de decodificación paralela consciente de la confianza, que decodifica selectivamente los tokens que superan un umbral de confianza, mitigando las violaciones de dependencia y manteniendo la calidad de la generación. Los resultados experimentales en los modelos LLaDA y Dream, evaluados en múltiples benchmarks de LLM, demuestran una mejora de hasta 27.6 veces en el rendimiento con una pérdida mínima de precisión, cerrando la brecha de rendimiento con los modelos autoregresivos y allanando el camino para la implementación práctica de los Diffusion LLMs.
Estudios recientes han demostrado que el razonamiento de cadena de pensamiento (CoT, por sus siglas en inglés) extenso puede mejorar significativamente el rendimiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) en tareas complejas. Sin embargo, este beneficio aún no se ha demostrado en el ámbito de la comprensión de videos, ya que la mayoría de los benchmarks existentes carecen de la profundidad de razonamiento necesaria para evidenciar las ventajas de las cadenas de CoT extendidas. Aunque esfuerzos recientes han propuesto benchmarks orientados al razonamiento en videos, las tareas suelen estar impulsadas por conocimiento y no dependen en gran medida del contenido visual. Para cerrar esta brecha, presentamos VideoReasonBench, un benchmark diseñado para evaluar el razonamiento complejo y centrado en la visión en videos. Para garantizar riqueza visual y alta complejidad de razonamiento, cada video en VideoReasonBench muestra una secuencia de operaciones detalladas sobre un estado latente que solo es visible en parte del video. Las preguntas evalúan tres niveles crecientes de habilidades de razonamiento en videos: recordar información visual observada, inferir el contenido de estados latentes y predecir información más allá del video. En este contexto, los modelos deben recordar con precisión múltiples operaciones en el video y realizar un razonamiento paso a paso para obtener respuestas finales correctas. Utilizando VideoReasonBench, evaluamos exhaustivamente 18 modelos de lenguaje multimodal (MLLMs) de vanguardia, encontrando que la mayoría tiene un rendimiento deficiente en el razonamiento complejo en videos; por ejemplo, GPT-4o alcanza solo un 6.9% de precisión, mientras que Gemini-2.5-Pro, mejorado con pensamiento, supera significativamente a otros con un 56.0% de precisión. Nuestras investigaciones sobre el "escalado en tiempo de prueba" revelan además que un presupuesto de pensamiento extendido, aunque ofrece beneficios nulos o mínimos en los benchmarks de video existentes, es esencial para mejorar el rendimiento en VideoReasonBench.
El diseño asistido por computadora (CAD, por sus siglas en inglés) desempeña un papel central en la ingeniería y la manufactura, permitiendo la creación de modelos 3D precisos y editables. Utilizar una variedad de datos proporcionados por sensores o usuarios como entradas para la reconstrucción CAD puede democratizar el acceso a las aplicaciones de diseño. Sin embargo, los métodos existentes suelen centrarse en una única modalidad de entrada, como nubes de puntos, imágenes o texto, lo que limita su generalización y robustez. Aprovechando los avances recientes en los modelos de visión y lenguaje (VLM, por sus siglas en inglés), proponemos un modelo de reconstrucción CAD multimodal que procesa simultáneamente las tres modalidades de entrada. Inspirados en los paradigmas de entrenamiento de los modelos de lenguaje grandes (LLM, por sus siglas en inglés), adoptamos un pipeline de dos etapas: ajuste fino supervisado (SFT, por sus siglas en inglés) en datos generados proceduralmente a gran escala, seguido de un ajuste fino mediante aprendizaje por refuerzo (RL, por sus siglas en inglés) utilizando retroalimentación en línea obtenida de manera programática. Además, somos los primeros en explorar el ajuste fino mediante RL de LLMs para tareas de CAD, demostrando que los algoritmos de RL en línea, como la Optimización de Preferencias Relativas de Grupo (GRPO, por sus siglas en inglés), superan a las alternativas fuera de línea. En el benchmark DeepCAD, nuestro modelo SFT supera a los enfoques unimodales existentes en las tres modalidades de entrada simultáneamente. Más importante aún, después del ajuste fino mediante RL, cadrille establece un nuevo estado del arte en tres conjuntos de datos desafiantes, incluyendo uno del mundo real.
Este artículo presenta Difusión mediante Modelos Autoregresivos (D-AR), un nuevo paradigma que reformula el proceso de difusión de imágenes como un procedimiento autoregresivo estándar en el estilo de predicción del siguiente token. Comenzamos diseñando el tokenizador que convierte imágenes en secuencias de tokens discretos, donde los tokens en diferentes posiciones pueden decodificarse en diferentes pasos de eliminación de ruido de difusión en el espacio de píxeles. Gracias a las propiedades de la difusión, estos tokens siguen naturalmente un orden de lo general a lo detallado, lo que se presta directamente al modelado autoregresivo. Por lo tanto, aplicamos la predicción estándar del siguiente token sobre estos tokens, sin modificar ningún diseño subyacente (ya sean máscaras causales o estrategias de entrenamiento/inferencia), y esta generación secuencial de tokens autoregresivos refleja directamente el procedimiento de difusión en el espacio de imágenes. Es decir, una vez que el modelo autoregresivo genera un incremento de tokens, podemos decodificar directamente estos tokens en el correspondiente paso de eliminación de ruido de difusión de manera continua. Nuestro pipeline revela naturalmente varias propiedades intrigantes, por ejemplo, admite vistas previas consistentes al generar solo un subconjunto de tokens y permite la síntesis controlada por diseño sin necesidad de ajuste previo. En el benchmark estándar de ImageNet, nuestro método logra un FID de 2.09 utilizando un backbone Llama de 775M con 256 tokens discretos. Esperamos que nuestro trabajo inspire futuras investigaciones sobre arquitecturas autoregresivas unificadas para la síntesis visual, especialmente con modelos de lenguaje grandes. El código y los modelos estarán disponibles en https://github.com/showlab/D-AR.
Presentamos AnySplat, una red de avance para la síntesis de nuevas vistas a partir de colecciones de imágenes no calibradas. A diferencia de las pipelines tradicionales de renderizado neuronal que requieren poses de cámara conocidas y optimización por escena, o los métodos recientes de avance que colapsan bajo el peso computacional de vistas densas, nuestro modelo predice todo en una sola pasada. Un único paso hacia adelante produce un conjunto de primitivas Gaussianas 3D que codifican tanto la geometría como la apariencia de la escena, junto con los parámetros intrínsecos y extrínsecos de la cámara para cada imagen de entrada. Este diseño unificado escala sin esfuerzo a conjuntos de datos multivista capturados casualmente, sin necesidad de anotaciones de pose. En evaluaciones extensas de cero disparo, AnySplat iguala la calidad de las líneas base con conocimiento de pose tanto en escenarios de vistas escasas como densas, superando a los enfoques existentes libres de pose. Además, reduce significativamente la latencia de renderizado en comparación con los campos neuronales basados en optimización, acercando la síntesis de nuevas vistas en tiempo real a configuraciones de captura sin restricciones. Página del proyecto: https://city-super.github.io/anysplat/
Los modelos de razonamiento de gran escala (LRMs, por sus siglas en inglés) evolucionados recientemente muestran un rendimiento poderoso en la resolución de tareas complejas con una capacidad de razonamiento de cadena de pensamiento (CoT) prolongada. Dado que estos LRMs se desarrollan principalmente mediante entrenamiento posterior en tareas de razonamiento formal, sigue siendo poco claro y debatido si generalizan su capacidad de razonamiento para ayudar a reducir la alucinación en tareas de búsqueda de hechos. Por ejemplo, DeepSeek-R1 reporta un aumento en el rendimiento en SimpleQA, un punto de referencia de búsqueda de hechos, mientras que OpenAI-o3 observa una alucinación aún más severa. Esta discrepancia plantea naturalmente la siguiente pregunta de investigación: ¿Son los modelos de razonamiento más propensos a la alucinación? Este artículo aborda la pregunta desde tres perspectivas. (1) Primero, realizamos una evaluación holística de la alucinación en los LRMs. Nuestro análisis revela que los LRMs que siguen una canalización completa de entrenamiento posterior con ajuste fino supervisado (SFT) de inicio en frío y aprendizaje por refuerzo (RL) con recompensas verificables generalmente reducen su alucinación. En contraste, tanto la destilación por sí sola como el entrenamiento RL sin ajuste fino de inicio en frío introducen alucinaciones más sutiles. (2) Para explorar por qué diferentes canalizaciones de entrenamiento posterior alteran el impacto en la alucinación de los LRMs, realizamos un análisis de comportamiento. Caracterizamos dos comportamientos cognitivos críticos que afectan directamente la factualidad de un LRM: Repetición de Errores, donde los intentos de razonamiento superficial siguen repetidamente la misma lógica subyacente defectuosa, y Desajuste Pensamiento-Respuesta, donde la respuesta final no coincide fielmente con el proceso CoT previo. (3) Además, investigamos el mecanismo detrás de la alucinación de los LRMs desde la perspectiva de la incertidumbre del modelo. Encontramos que el aumento de la alucinación en los LRMs suele estar asociado con la desalineación entre la incertidumbre del modelo y la precisión factual. Nuestro trabajo proporciona una comprensión inicial de la alucinación en los LRMs.
Los modelos de lenguaje (LM, por sus siglas en inglés) tienen un buen desempeño en benchmarks estandarizados de codificación, pero enfrentan dificultades en tareas de ingeniería de software del mundo real, como resolver problemas en GitHub en SWE-Bench, especialmente cuando los parámetros del modelo son menores a 100B. Aunque los modelos más pequeños son preferibles en la práctica debido a su menor costo computacional, mejorar su rendimiento sigue siendo un desafío. Los enfoques existentes se basan principalmente en el ajuste fino supervisado (SFT, por sus siglas en inglés) con datos de alta calidad, los cuales son costosos de curar a gran escala. Una alternativa es el escalado en tiempo de prueba: generar múltiples salidas, puntuarlas mediante un verificador y seleccionar la mejor. Aunque efectiva, esta estrategia suele requerir un muestreo excesivo y una puntuación costosa, limitando su aplicación práctica. Proponemos el Escalado Evolutivo en Tiempo de Prueba (EvoScale), un método eficiente en muestreo que trata la generación como un proceso evolutivo. Al refinar iterativamente las salidas mediante selección y mutación, EvoScale desplaza la distribución de salidas hacia regiones de mayor puntuación, reduciendo el número de muestras necesarias para encontrar soluciones correctas. Para disminuir la sobrecarga del muestreo y selección repetidos, entrenamos el modelo para auto-evolucionar utilizando aprendizaje por refuerzo (RL, por sus siglas en inglés). En lugar de depender de verificadores externos durante la inferencia, el modelo aprende a auto-mejorar las puntuaciones de sus propias generaciones a lo largo de las iteraciones. Evaluado en SWE-Bench-Verified, EvoScale permite que nuestro modelo de 32B, Satori-SWE-32B, iguale o supere el rendimiento de modelos con más de 100B parámetros utilizando pocas muestras. El código, los datos y los modelos se publicarán completamente como código abierto.
Presentamos LoRAShop, el primer marco de trabajo para la edición de imágenes con múltiples conceptos utilizando modelos LoRA. LoRAShop se basa en una observación clave sobre los patrones de interacción de características dentro de los transformadores de difusión de estilo Flux: las características específicas de cada concepto en los transformadores activan regiones espacialmente coherentes en las primeras etapas del proceso de eliminación de ruido. Aprovechamos esta observación para derivar una máscara latente desenredada para cada concepto en un pase hacia adelante previo y mezclar los pesos LoRA correspondientes solo dentro de las regiones que delimitan los conceptos a personalizar. Las ediciones resultantes integran de manera fluida múltiples sujetos o estilos en la escena original mientras preservan el contexto global, la iluminación y los detalles finos. Nuestros experimentos demuestran que LoRAShop ofrece una mejor preservación de la identidad en comparación con los métodos base. Al eliminar la necesidad de reentrenamiento y restricciones externas, LoRAShop convierte a los modelos de difusión personalizados en una herramienta práctica de "photoshop-con-LoRAs" y abre nuevas vías para la narrativa visual composicional y la iteración creativa rápida.
Los Transformers se han establecido como los modelos más populares en el modelado de secuencias, principalmente debido a su eficacia en tareas de recuperación en contexto y su capacidad para aprender a gran escala. Sin embargo, su complejidad cuadrática en memoria y tiempo limita su aplicabilidad en secuencias más largas, lo que ha motivado a los investigadores a explorar arquitecturas alternativas efectivas, como las redes neuronales recurrentes modernas (también conocidas como módulos de memoria recurrente a largo plazo). A pesar de su reciente éxito en diversas tareas posteriores, estas luchan en tareas que requieren comprensión de contexto largo y extrapolación a secuencias más extensas. Observamos que estas limitaciones provienen de tres aspectos disjuntos en su diseño: (1) capacidad de memoria limitada, restringida por la arquitectura de la memoria y el mapeo de características de la entrada; (2) naturaleza en línea de la actualización, es decir, optimizar la memoria solo con respecto a la última entrada; y (3) gestión menos expresiva de su memoria de tamaño fijo. Para mejorar estos tres aspectos, presentamos ATLAS, un módulo de memoria a largo plazo de alta capacidad que aprende a memorizar el contexto optimizando la memoria en función de los tokens actuales y pasados, superando la naturaleza en línea de los modelos de memoria a largo plazo. Basándonos en esta idea, presentamos una nueva familia de arquitecturas similares a los Transformers, llamada DeepTransformers, que son generalizaciones estrictas de la arquitectura original del Transformer. Nuestros resultados experimentales en tareas de modelado de lenguaje, razonamiento de sentido común, tareas intensivas en recuperación y comprensión de contexto largo muestran que ATLAS supera el rendimiento de los Transformers y los modelos recurrentes lineales recientes. ATLAS además mejora el rendimiento en contexto largo de los Titans, logrando un +80\% de precisión en una longitud de contexto de 10M en el benchmark BABILong.
Los modelos unificados de lenguaje multimodal de gran escala, como Show-o y Janus, han logrado un rendimiento sólido tanto en tareas de generación como de comprensión. Sin embargo, estos modelos suelen depender de conjuntos de datos a gran escala y requieren un considerable poder de cómputo durante la etapa de preentrenamiento. Además, se han propuesto varios métodos de posentrenamiento, pero a menudo dependen de datos externos o se limitan a personalizaciones específicas para tareas concretas. En este trabajo, presentamos UniRL, un enfoque de posentrenamiento de auto-mejora. Nuestro método permite que el modelo genere imágenes a partir de indicaciones y las utilice como datos de entrenamiento en cada iteración, sin depender de ningún dato de imagen externo. Además, permite que las dos tareas se refuercen mutuamente: las imágenes generadas se utilizan para la comprensión, y los resultados de la comprensión se emplean para supervisar la generación. Exploramos el ajuste fino supervisado (SFT) y la Optimización de Política Relativa de Grupo (GRPO) para optimizar los modelos. UniRL ofrece tres ventajas clave: (1) no requiere datos de imagen externos, ya que todas las muestras de entrenamiento son generadas por el propio modelo durante el entrenamiento; (2) no solo mejora el rendimiento individual de las tareas, sino que también reduce el desequilibrio entre generación y comprensión; y (3) requiere solo unos pocos pasos adicionales de entrenamiento durante la etapa de posentrenamiento. Evaluamos UniRL sobre Show-o y Janus, obteniendo una puntuación GenEval de 0.77 para Show-o y 0.65 para Janus. El código y los modelos se publicarán en https://github.com/showlab/UniRL.
La tarea de resolución de problemas, en la que un modelo genera parches para corregir errores del mundo real, ha surgido como un criterio crítico para evaluar las capacidades de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Si bien SWE-bench y sus variantes se han convertido en estándares en este dominio, presentan limitaciones clave: no se han actualizado desde sus lanzamientos iniciales, cubren un conjunto reducido de repositorios y dependen en gran medida del esfuerzo manual para la construcción de instancias y la configuración del entorno. Estos factores obstaculizan la escalabilidad e introducen riesgos de sobreajuste y contaminación de datos. En este trabajo, presentamos SWE-bench-Live, un punto de referencia actualizable en tiempo real diseñado para superar estos desafíos. Nuestra versión inicial consta de 1,319 tareas derivadas de problemas reales de GitHub creados desde 2024, abarcando 93 repositorios. Cada tarea viene acompañada de una imagen de Docker dedicada para garantizar una ejecución reproducible. El núcleo de nuestro punto de referencia es \method, una canalización de curación automatizada que optimiza todo el proceso, desde la creación de instancias hasta la configuración del entorno, eliminando cuellos de botella manuales y permitiendo escalabilidad y actualizaciones continuas. Evaluamos una gama de marcos de agentes y LLMs de vanguardia en SWE-bench-Live, revelando una brecha de rendimiento sustancial en comparación con puntos de referencia estáticos como SWE-bench, incluso bajo condiciones de evaluación controladas. Para comprender mejor esta discrepancia, realizamos análisis detallados en función del origen del repositorio, la antigüedad del problema y la dificultad de la tarea. Al proporcionar un punto de referencia fresco, diverso y ejecutable basado en la actividad en tiempo real de los repositorios, SWE-bench-Live facilita una evaluación rigurosa y resistente a la contaminación de LLMs y agentes en entornos dinámicos y reales de desarrollo de software.
Los Autoencoders Escasos (SAEs, por sus siglas en inglés) han demostrado un potencial significativo para interpretar los estados ocultos de los modelos de lenguaje al descomponerlos en direcciones latentes interpretables. Sin embargo, entrenar SAEs a gran escala sigue siendo un desafío, especialmente cuando se utilizan tamaños de diccionario grandes. Si bien los decodificadores pueden aprovechar núcleos optimizados para la escasez, los codificadores aún requieren operaciones lineales computacionalmente intensivas con dimensiones de salida grandes. Para abordar esto, proponemos KronSAE, una arquitectura novedosa que factoriza la representación latente mediante la descomposición del producto de Kronecker, reduciendo drásticamente la sobrecarga de memoria y computación. Además, introducimos mAND, una función de activación diferenciable que aproxima la operación binaria AND, lo que mejora la interpretabilidad y el rendimiento en nuestro marco factorizado.
Los mecanismos de preferencia, como las preferencias humanas, los LLM-como-Juez (LaaJ) y los modelos de recompensa, son fundamentales para alinear y evaluar los modelos de lenguaje de gran escala (LLMs). Sin embargo, los conceptos subyacentes que impulsan estas preferencias siguen siendo poco comprendidos. En este trabajo, proponemos un método completamente automatizado para generar explicaciones basadas en conceptos locales y globales de preferencias en múltiples dominios. Nuestro método utiliza un LLM para identificar conceptos que distinguen entre respuestas elegidas y rechazadas, y para representarlos mediante vectores basados en conceptos. Para modelar las relaciones entre conceptos y preferencias, proponemos un modelo de Regresión Jerárquica Multi-Dominio de caja blanca que captura tanto efectos generales como específicos del dominio. Para evaluar nuestro método, recopilamos un conjunto de datos que abarca ocho dominios desafiantes y diversos, y explicamos doce mecanismos. Nuestro método logra un fuerte rendimiento en la predicción de preferencias, superando a los baselines mientras también es explicable. Además, evaluamos las explicaciones en dos escenarios impulsados por aplicaciones. Primero, guiar las salidas de los LLM con conceptos de las explicaciones de LaaJ produce respuestas que esos jueces prefieren consistentemente. Segundo, incitar a los LaaJ con conceptos que explican las preferencias humanas mejora sus predicciones de preferencia. En conjunto, nuestro trabajo establece un nuevo paradigma para la explicabilidad en la era de los LLMs.
Los textos visuales incrustados en videos contienen una rica información semántica, la cual es crucial tanto para la comprensión holística de videos como para el razonamiento detallado sobre acciones humanas locales. Sin embargo, los puntos de referencia existentes para la comprensión de videos en gran medida pasan por alto la información textual, mientras que los benchmarks específicos para OCR se limitan a imágenes estáticas, lo que restringe su capacidad para capturar la interacción entre el texto y los contextos visuales dinámicos. Para abordar esta brecha, proponemos VidText, un nuevo benchmark diseñado para la evaluación integral y profunda de la comprensión de texto en videos. VidText ofrece las siguientes características clave: 1) Abarca una amplia gama de escenarios del mundo real y admite contenido multilingüe, incluyendo diversos entornos donde el texto en video aparece naturalmente. 2) Introduce un marco de evaluación jerárquico con tareas a nivel de video, clip e instancia, permitiendo la evaluación tanto de capacidades de resumen global como de recuperación local. 3) El benchmark también presenta un conjunto de tareas emparejadas de percepción y razonamiento, que van desde la percepción de texto visual hasta el razonamiento multimodal entre información textual y visual. Experimentos extensos en 18 Modelos Multimodales de Gran Escala (LMMs) de última generación revelan que los modelos actuales tienen dificultades en la mayoría de las tareas, con un margen significativo de mejora. Un análisis adicional destaca el impacto tanto de factores intrínsecos del modelo, como la resolución de entrada y la capacidad de OCR, como de factores externos, incluyendo el uso de información auxiliar y estrategias de razonamiento de Cadena de Pensamiento (Chain-of-Thought). Esperamos que VidText llene la brecha actual en los benchmarks de comprensión de videos y sirva como base para futuras investigaciones sobre razonamiento multimodal con texto en videos en entornos dinámicos.
El desarrollo de modelos fundamentales de habla (SFMs, por sus siglas en inglés) como Whisper y SeamlessM4T ha avanzado significativamente el campo del procesamiento del habla. Sin embargo, su naturaleza cerrada—con datos y código de entrenamiento inaccesibles—plantea importantes desafíos de reproducibilidad y evaluación justa. Mientras que otros dominios han logrado un progreso sustancial hacia la ciencia abierta mediante el desarrollo de modelos completamente transparentes entrenados con código y datos de código abierto (OS, por sus siglas en inglés), esfuerzos similares en el ámbito del habla siguen siendo limitados. Para llenar este vacío, presentamos FAMA, la primera familia de SFMs de ciencia abierta para inglés e italiano, entrenada con más de 150 mil horas de datos de habla de código abierto. Además, presentamos un nuevo conjunto de datos que contiene 16 mil horas de habla limpiada y pseudoetiquetada para ambos idiomas. Los resultados muestran que FAMA logra un rendimiento competitivo en comparación con los SFMs existentes, siendo hasta 8 veces más rápido. Todos los artefactos, incluyendo código, conjuntos de datos y modelos, se publican bajo licencias compatibles con OS, promoviendo la apertura en la investigación de tecnología del habla.
El énfasis oracional se refiere a la importancia que se otorga a palabras específicas dentro de una expresión hablada para resaltar o contrastar una idea, o para introducir información nueva. A menudo se utiliza para implicar una intención subyacente que no se expresa explícitamente. Los avances recientes en los modelos de lenguaje conscientes del habla (SLMs, por sus siglas en inglés) han permitido el procesamiento directo de audio, lo que posibilita que los modelos eviten la transcripción y accedan a la riqueza completa de la señal de voz, realizando tareas de razonamiento auditivo como la respuesta a preguntas habladas. A pesar del papel crucial del énfasis oracional en la configuración del significado y la intención del hablante, este sigue siendo ampliamente ignorado en la evaluación y el desarrollo de dichos modelos. En este trabajo, abordamos esta brecha presentando StressTest, un punto de referencia diseñado específicamente para evaluar la capacidad de un modelo para distinguir entre interpretaciones de oraciones habladas basadas en el patrón de énfasis. Evaluamos el rendimiento de varios SLMs líderes y encontramos que, a pesar de sus capacidades generales, su desempeño es deficiente en tales tareas. Para superar esta limitación, proponemos una novedosa tubería de generación de datos sintéticos y creamos Stress17k, un conjunto de entrenamiento que simula el cambio de significado implícito en la variación del énfasis. Luego, demostramos empíricamente que la optimización de modelos con este conjunto de datos sintéticos se alinea bien con grabaciones del mundo real y permite un ajuste fino efectivo de los SLMs. Los resultados sugieren que nuestro modelo ajustado, StresSLM, supera significativamente a los modelos existentes tanto en tareas de razonamiento como de detección del énfasis oracional. Código, modelos, datos y muestras de audio disponibles en: pages.cs.huji.ac.il/adiyoss-lab/stresstest.
El razonamiento de seguridad es un paradigma reciente en el que los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) razonan sobre políticas de seguridad antes de generar respuestas, mitigando así las limitaciones de las medidas de seguridad existentes, como la sobrenegación y las vulnerabilidades de jailbreak. Sin embargo, implementar este paradigma es un desafío debido al proceso intensivo en recursos de crear conjuntos de datos de cadena de pensamiento (CoT, por sus siglas en inglés) de alta calidad integrados con políticas, asegurando que el razonamiento sea preciso y esté libre de alucinaciones o conflictos de políticas. Para abordar esto, proponemos AIDSAFE: Deliberación Iterativa Agéntica para el Razonamiento de Seguridad, una novedosa receta de generación de datos que aprovecha la deliberación multiagente para expandir iterativamente el razonamiento sobre políticas de seguridad. Una etapa de refinamiento de datos en AIDSAFE asegura salidas de alta calidad al eliminar pensamientos repetitivos, redundantes y engañosos. Los CoTs generados por AIDSAFE proporcionan una base sólida para el entrenamiento de seguridad basado en ajuste fino supervisado (SFT, por sus siglas en inglés). Además, para abordar la necesidad de datos de preferencia en las etapas de alineación, como el entrenamiento DPO, introducimos una receta complementaria que utiliza la ampliación de creencias para crear muestras distintas de CoTs seleccionados y rechazados. Nuestras evaluaciones demuestran que los CoTs generados por AIDSAFE logran una adherencia a políticas y una calidad de razonamiento superiores. En consecuencia, mostramos que el ajuste fino de LLMs de código abierto en estos CoTs puede mejorar significativamente la generalización de seguridad y la robustez frente a jailbreaks, manteniendo una utilidad aceptable y precisión en la sobrenegación. Los conjuntos de datos de CoT generados por AIDSAFE se pueden encontrar aquí: https://huggingface.co/datasets/AmazonScience/AIDSAFE.
Los modelos de secuencia como los transformadores requieren que las entradas se representen como secuencias unidimensionales. En visión, esto generalmente implica aplanar las imágenes utilizando un orden fijo de fila principal (raster-scan). Si bien la autoatención completa es permutación-equivariante, los transformadores modernos para secuencias largas dependen cada vez más de aproximaciones arquitectónicas que rompen esta invariancia e introducen sensibilidad al orden de los parches. Demostramos que el orden de los parches afecta significativamente el rendimiento del modelo en tales configuraciones, con alternativas simples como el orden de columna principal o las curvas de Hilbert produciendo cambios notables en la precisión. Motivados por esto, proponemos REOrder, un marco de dos etapas para descubrir ordenaciones óptimas de parches para una tarea. Primero, derivamos un previo teórico de la información evaluando la compresibilidad de varias secuencias de parches. Luego, aprendemos una política sobre permutaciones optimizando una política de Plackett-Luce utilizando REINFORCE. Este enfoque permite un aprendizaje eficiente en un espacio combinatorio de permutaciones. REOrder mejora la precisión top-1 sobre el orden de fila principal en ImageNet-1K hasta en un 3.01% y en Functional Map of the World en un 13.35%.
La demostración de teoremas sirve como un banco de pruebas principal para evaluar las habilidades de razonamiento complejo en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Sin embargo, los enfoques tradicionales de demostración automática de teoremas (ATP) dependen en gran medida de sistemas formales de demostración que no se alinean bien con las fortalezas de los LLMs, derivadas del conocimiento informal en lenguaje natural adquirido durante el preentrenamiento. En este trabajo, proponemos DeepTheorem, un marco integral de demostración informal de teoremas que aprovecha el lenguaje natural para mejorar el razonamiento matemático de los LLMs. DeepTheorem incluye un conjunto de datos de referencia a gran escala que consta de 121K teoremas y demostraciones informales de nivel IMO, abarcando diversos dominios matemáticos, rigurosamente anotados en cuanto a corrección, dificultad y categorías temáticas, junto con variantes de teoremas verificables construidas sistemáticamente. Diseñamos una novedosa estrategia de aprendizaje por refuerzo (RL-Zero) específicamente adaptada para la demostración informal de teoremas, aprovechando las variantes verificadas de teoremas para incentivar una inferencia matemática robusta. Además, proponemos métricas integrales de evaluación de resultados y procesos que examinan la corrección de las demostraciones y la calidad de los pasos de razonamiento. Análisis experimentales exhaustivos demuestran que DeepTheorem mejora significativamente el rendimiento de los LLMs en la demostración de teoremas en comparación con conjuntos de datos existentes y protocolos de ajuste fino supervisado, logrando una precisión y calidad de razonamiento de vanguardia. Nuestros hallazgos resaltan el potencial de DeepTheorem para avanzar fundamentalmente la demostración automática informal de teoremas y la exploración matemática.
Los modelos de generación unificada buscan manejar diversas tareas a través de múltiples modalidades -- como la generación de texto, la generación de imágenes y el razonamiento visión-lenguaje -- dentro de una única arquitectura y paradigma de decodificación. Los modelos unificados autorregresivos sufren de inferencia lenta debido a la decodificación secuencial, mientras que los modelos unificados no autorregresivos presentan una generalización débil debido a backbones preentrenados limitados. Presentamos Muddit, un transformador de difusión discreta unificado que permite una generación rápida y paralela tanto en modalidades de texto como de imagen. A diferencia de los modelos de difusión unificados anteriores entrenados desde cero, Muddit integra fuertes prior visuales de un backbone preentrenado de texto a imagen con un decodificador de texto ligero, permitiendo una generación multimodal flexible y de alta calidad bajo una arquitectura unificada. Los resultados empíricos muestran que Muddit logra un rendimiento competitivo o superior en comparación con modelos autorregresivos significativamente más grandes, tanto en calidad como en eficiencia. Este trabajo destaca el potencial de la difusión puramente discreta, cuando está equipada con fuertes prior visuales, como un backbone escalable y efectivo para la generación unificada.
Los algoritmos de aprendizaje por refuerzo son fundamentales para alinear los modelos de lenguaje de gran escala con las preferencias humanas y mejorar sus capacidades de razonamiento. Sin embargo, los algoritmos actuales de aprendizaje por refuerzo suelen presentar inestabilidad en el entrenamiento debido a restricciones laxas en la política actual y a ineficiencias computacionales causadas por modelos auxiliares. En este trabajo, proponemos "On-Policy RL with Optimal reward baseline" (OPO), un algoritmo novedoso y simplificado de aprendizaje por refuerzo diseñado para abordar estos desafíos. OPO enfatiza la importancia del entrenamiento exacto en la política actual, lo cual empíricamente estabiliza el proceso de entrenamiento y mejora la exploración. Además, OPO introduce la línea base de recompensa óptima que teóricamente minimiza la varianza del gradiente. Evaluamos OPO en benchmarks de razonamiento matemático. Los resultados demuestran su rendimiento superior y estabilidad en el entrenamiento sin necesidad de modelos adicionales o términos de regularización. Además, OPO logra menores cambios en la política y una mayor entropía en las salidas, fomentando respuestas más diversas y menos repetitivas. Estos resultados destacan a OPO como una dirección prometedora para un aprendizaje por refuerzo estable y efectivo en tareas de alineación y razonamiento de modelos de lenguaje de gran escala. La implementación está disponible en https://github.com/microsoft/LMOps/tree/main/opo.
Los recientes avances en los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han acelerado significativamente la automatización del descubrimiento científico, pero al mismo tiempo han planteado preocupaciones críticas en materia de ética y seguridad. Para abordar sistemáticamente estos desafíos, presentamos SafeScientist, un marco innovador de científico IA diseñado explícitamente para mejorar la seguridad y la responsabilidad ética en la exploración científica impulsada por IA. SafeScientist rechaza proactivamente tareas éticamente inapropiadas o de alto riesgo y enfatiza rigurosamente la seguridad durante todo el proceso de investigación. Para lograr una supervisión integral de la seguridad, integramos múltiples mecanismos defensivos, incluyendo monitoreo de indicaciones, monitoreo de colaboración entre agentes, monitoreo del uso de herramientas y un componente de revisión ética. Complementando a SafeScientist, proponemos SciSafetyBench, un nuevo punto de referencia diseñado específicamente para evaluar la seguridad de la IA en contextos científicos, que comprende 240 tareas científicas de alto riesgo en 6 dominios, junto con 30 herramientas científicas especialmente diseñadas y 120 tareas de riesgo relacionadas con herramientas. Experimentos extensos demuestran que SafeScientist mejora significativamente el desempeño en seguridad en un 35\% en comparación con los marcos tradicionales de científicos IA, sin comprometer la calidad de los resultados científicos. Además, validamos rigurosamente la robustez de nuestra cadena de seguridad contra diversos métodos de ataques adversarios, confirmando aún más la efectividad de nuestro enfoque integrado. El código y los datos estarán disponibles en https://github.com/ulab-uiuc/SafeScientist. \red{Advertencia: este artículo contiene datos de ejemplo que pueden ser ofensivos o dañinos.}
Los recientes avances en modelos del mundo han revolucionado la simulación de entornos dinámicos, permitiendo a los sistemas prever estados futuros y evaluar acciones potenciales. En la conducción autónoma, estas capacidades ayudan a los vehículos a anticipar el comportamiento de otros usuarios de la vía, realizar planificación consciente del riesgo, acelerar el entrenamiento en simulación y adaptarse a escenarios novedosos, mejorando así la seguridad y la fiabilidad. Los enfoques actuales presentan deficiencias en el mantenimiento de una consistencia geométrica 3D robusta o en la acumulación de artefactos durante el manejo de oclusiones, ambos aspectos críticos para una evaluación de seguridad confiable en tareas de navegación autónoma. Para abordar esto, presentamos GeoDrive, que integra explícitamente condiciones geométricas 3D robustas en los modelos del mundo de conducción para mejorar la comprensión espacial y la controlabilidad de las acciones. Específicamente, primero extraemos una representación 3D del fotograma de entrada y luego obtenemos su representación 2D basada en la trayectoria del vehículo ego especificada por el usuario. Para habilitar el modelado dinámico, proponemos un módulo de edición dinámica durante el entrenamiento para mejorar las representaciones editando las posiciones de los vehículos. Experimentos extensivos demuestran que nuestro método supera significativamente a los modelos existentes tanto en precisión de acciones como en conciencia espacial 3D, lo que conduce a un modelado de escenas más realista, adaptable y confiable para una conducción autónoma más segura. Además, nuestro modelo puede generalizar a trayectorias novedosas y ofrece capacidades interactivas de edición de escenas, como la edición de objetos y el control de trayectorias de objetos.
El razonamiento de cadena de pensamiento (CoT, por sus siglas en inglés) permite a los modelos de lenguaje de gran escala (LLMs) ir más allá de las respuestas rápidas del Sistema 1 y participar en un razonamiento deliberativo del Sistema 2. Sin embargo, esto conlleva una ineficiencia significativa debido a la salida intermedia verbosa. Los métodos recientes de razonamiento en el espacio latente mejoran la eficiencia al operar sobre estados ocultos sin decodificarlos en lenguaje, pero tratan todos los pasos de manera uniforme, sin distinguir deducciones críticas de pasos auxiliares, lo que resulta en un uso subóptimo de los recursos computacionales. En este artículo, proponemos el Razonamiento del Sistema 1.5, un marco de razonamiento adaptativo que asigna dinámicamente el cómputo a través de los pasos de razonamiento mediante rutas directas en el espacio latente. Específicamente, el Razonamiento del Sistema 1.5 introduce dos tipos de rutas directas dinámicas. La ruta directa de profundidad del modelo (DS) razona de manera adaptativa a lo largo de la profundidad vertical al salir tempranamente de tokens no críticos mediante ramas adaptadoras ligeras, mientras permite que los tokens críticos continúen a través de capas más profundas del Transformer. La ruta directa de paso (SS) reutiliza estados ocultos a través de los pasos de decodificación para omitir pasos triviales y razonar horizontalmente en el espacio latente. El entrenamiento del Razonamiento del Sistema 1.5 implica un proceso de auto-distilación en dos etapas: primero, distilar el CoT en lenguaje natural en pensamiento continuo en el espacio latente, y luego distilar el razonamiento latente del Sistema 2 de ruta completa en rutas directas adaptativas (Razonamiento del Sistema 1.5). Los experimentos en tareas de razonamiento demuestran el rendimiento superior de nuestro método. Por ejemplo, en GSM8K, el Razonamiento del Sistema 1.5 logra un rendimiento de razonamiento comparable a los métodos tradicionales de ajuste fino de CoT, mientras acelera la inferencia en más de 20 veces y reduce la generación de tokens en un 92.31% en promedio.
Las consultas médico-paciente requieren una comunicación de múltiples turnos y consciente del contexto, adaptada a diversas personalidades de pacientes. Entrenar o evaluar modelos de lenguaje (LLMs) médicos en estos escenarios requiere sistemas de interacción con pacientes realistas. Sin embargo, los simuladores existentes a menudo no reflejan la gama completa de personalidades observadas en la práctica clínica. Para abordar esto, presentamos PatientSim, un simulador de pacientes que genera personalidades realistas y diversas para escenarios clínicos, basado en experiencia médica. PatientSim opera utilizando: 1) perfiles clínicos, incluyendo síntomas e historial médico, derivados de datos del mundo real en los conjuntos MIMIC-ED y MIMIC-IV, y 2) personalidades definidas por cuatro ejes: personalidad, competencia lingüística, nivel de recuerdo del historial médico y nivel de confusión cognitiva, resultando en 37 combinaciones únicas. Evaluamos ocho LLMs en precisión factual y consistencia de personalidad. El modelo de código abierto con mejor rendimiento, Llama 3.3, fue validado por cuatro clínicos para confirmar la solidez de nuestro marco. Como una plataforma de código abierto y personalizable, PatientSim ofrece una solución reproducible y escalable que puede adaptarse a necesidades específicas de entrenamiento. Al proporcionar un entorno compatible con la privacidad, sirve como un banco de pruebas robusto para evaluar sistemas de diálogo médico en diversas presentaciones de pacientes y muestra potencial como herramienta educativa en el ámbito de la salud.
Los grandes modelos de lenguaje (LLMs) basados en Transformers almacenan el contexto como pares clave-valor (KV) durante la inferencia. A medida que la longitud del contexto aumenta, los tamaños de la caché KV se expanden, lo que genera un sobrecosto significativo de memoria y una mayor latencia en la atención. Este artículo presenta KVzip, un método de expulsión de caché KV independiente de la consulta que permite la reutilización efectiva de cachés KV comprimidas en diversas consultas. KVzip cuantifica la importancia de un par KV utilizando el LLM subyacente para reconstruir contextos originales a partir de pares KV almacenados, eliminando posteriormente los pares con menor importancia. Evaluaciones empíricas exhaustivas demuestran que KVzip reduce el tamaño de la caché KV entre 3 y 4 veces y la latencia de decodificación de FlashAttention aproximadamente 2 veces, con una pérdida de rendimiento insignificante en tareas de respuesta a preguntas, recuperación, razonamiento y comprensión de código. Las evaluaciones incluyen varios modelos como LLaMA3.1-8B, Qwen2.5-14B y Gemma3-12B, con longitudes de contexto que alcanzan hasta 170K tokens. KVzip supera significativamente a los métodos de expulsión de KV dependientes de la consulta existentes, que sufren degradación de rendimiento incluso con un 90% de presupuesto de caché en escenarios de múltiples consultas.
Los modelos de difusión han demostrado una calidad de generación notable, pero a costa de numerosas evaluaciones de funciones. Recientemente, se han desarrollado solucionadores avanzados basados en ODE para mitigar las demandas computacionales sustanciales de la resolución de difusión inversa con un número limitado de pasos de muestreo. Sin embargo, estos solucionadores, fuertemente inspirados en métodos de múltiples pasos tipo Adams, dependen únicamente de la interpolación de Lagrange relacionada con t. Mostramos que la interpolación de Lagrange relacionada con t es subóptima para los modelos de difusión y revelamos un espacio de búsqueda compacto compuesto por pasos de tiempo y coeficientes del solucionador. Basándonos en nuestro análisis, proponemos un novedoso algoritmo de búsqueda de solucionadores diferenciables para identificar solucionadores más óptimos. Equipados con el solucionador buscado, los modelos de flujo rectificado, por ejemplo, SiT-XL/2 y FlowDCN-XL/2, alcanzan puntuaciones FID de 2.40 y 2.35, respectivamente, en ImageNet256 con solo 10 pasos. Mientras tanto, el modelo DDPM, DiT-XL/2, alcanza una puntuación FID de 2.33 con solo 10 pasos. Notablemente, nuestro solucionador buscado supera a los solucionadores tradicionales por un margen significativo. Además, nuestro solucionador buscado demuestra generalidad en varias arquitecturas de modelos, resoluciones y tamaños de modelos.
Los puntos de referencia existentes para la comprensión de videos a menudo combinan preguntas basadas en conocimiento con aquellas puramente basadas en imágenes, en lugar de aislar claramente la capacidad de razonamiento temporal de un modelo, que es el aspecto clave que distingue la comprensión de videos de otras modalidades. Identificamos dos limitaciones principales que oscurecen si puntuaciones más altas indican verdaderamente una mejor comprensión del contenido dinámico en los videos: (1) fuertes sesgos lingüísticos, donde los modelos pueden responder preguntas sin ver el video; y (2) invariancia al reordenamiento, donde los modelos mantienen un rendimiento similar en ciertas preguntas incluso cuando los fotogramas del video se reorganizan temporalmente. Para mitigar estos problemas, proponemos VBenchComp, una canalización automatizada que clasifica las preguntas en diferentes dominios: Preguntas Respondibles por LLM, Semánticas y Temporales. Específicamente, las preguntas Respondibles por LLM pueden responderse sin ver el video; las preguntas Semánticas siguen siendo respondibles incluso cuando los fotogramas del video se reorganizan; y las preguntas Temporales requieren comprender el orden temporal correcto de los fotogramas. El resto de las preguntas se etiquetan como Otras. Esto permite una evaluación detallada de las diferentes capacidades de un LLM de video. Nuestro análisis revela debilidades sutiles de los modelos que quedan ocultas por las puntuaciones generales tradicionales, y ofrecemos ideas y recomendaciones para diseñar futuros puntos de referencia que evalúen con mayor precisión los LLM de video.
La generación de videos ha experimentado avances significativos con la aparición de modelos generativos profundos, especialmente los enfoques basados en difusión. Sin embargo, la generación de videos a partir de múltiples sujetos de referencia aún enfrenta desafíos importantes para mantener la consistencia entre múltiples sujetos y garantizar una alta calidad de generación. En este artículo, proponemos MAGREF, un marco unificado para la generación de videos con cualquier referencia, que introduce guía enmascarada para permitir la síntesis coherente de videos con múltiples sujetos condicionada por diversas imágenes de referencia y un texto descriptivo. Específicamente, proponemos (1) un mecanismo de enmascaramiento dinámico consciente de la región que permite a un único modelo manejar flexiblemente la inferencia de diversos sujetos, incluyendo humanos, objetos y fondos, sin cambios arquitectónicos, y (2) un mecanismo de concatenación de canales a nivel de píxel que opera en la dimensión del canal para preservar mejor las características de apariencia. Nuestro modelo ofrece una calidad de generación de videos de vanguardia, generalizando desde el entrenamiento con un solo sujeto hasta escenarios complejos con múltiples sujetos, logrando una síntesis coherente y un control preciso sobre cada sujeto, superando a las líneas base de código abierto y comerciales existentes. Para facilitar la evaluación, también introducimos un benchmark integral de videos con múltiples sujetos. Experimentos extensos demuestran la efectividad de nuestro enfoque, allanando el camino para una síntesis de videos con múltiples sujetos escalable, controlable y de alta fidelidad. El código y el modelo están disponibles en: https://github.com/MAGREF-Video/MAGREF.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un potencial prometedor en la persuasión, pero los trabajos existentes sobre el entrenamiento de persuasores basados en LLMs siguen siendo preliminares. En particular, aunque los seres humanos son hábiles para modelar de manera proactiva y dinámica los pensamientos y opiniones de su oponente, los LLMs actuales tienen dificultades con este tipo de razonamiento de Teoría de la Mente (ToM, por sus siglas en inglés), lo que resulta en una diversidad limitada y una escasa conciencia del oponente. Para abordar esta limitación, presentamos Theory of Mind Augmented Persuader (ToMAP), un enfoque novedoso para construir agentes persuasores más flexibles mediante la incorporación de dos módulos de teoría de la mente que mejoran la conciencia y el análisis del estado mental del oponente. Específicamente, comenzamos pidiendo al persuasor que considere posibles objeciones a la afirmación central objetivo, y luego utilizamos un codificador de texto junto con un clasificador MLP entrenado para predecir la postura actual del oponente sobre estos contraargumentos. Nuestro esquema de aprendizaje por refuerzo cuidadosamente diseñado permite que el persuasor aprenda a analizar la información relacionada con el oponente y la utilice para generar argumentos más efectivos. Los experimentos muestran que el persuasor ToMAP, aunque contiene solo 3 mil millones de parámetros, supera a líneas base mucho más grandes, como GPT-4o, con una ganancia relativa del 39.4% en múltiples modelos de persuadidos y diversos corpus. En particular, ToMAP exhibe cadenas de razonamiento complejas y una reducción de la repetición durante el entrenamiento, lo que conduce a argumentos más diversos y efectivos. La característica de conciencia del oponente de ToMAP también lo hace adecuado para conversaciones largas y le permite emplear estrategias más lógicas y conscientes del oponente. Estos resultados subrayan la efectividad de nuestro método y destacan su potencial para desarrollar agentes de lenguaje más persuasivos. El código está disponible en: https://github.com/ulab-uiuc/ToMAP.
En este artículo, unificamos más de 10 enfoques existentes de destilación de difusión en un solo paso, como Diff-Instruct, DMD, SIM, SiD, f-distill, etc., dentro de un marco teórico que denominamos \emph{Uni-Instruct}. Uni-Instruct está motivado por nuestra teoría propuesta de expansión de difusión de la familia de divergencias f. Luego, presentamos teorías clave que superan el problema de intratabilidad de la divergencia f expandida original, resultando en una pérdida equivalente pero tratable que entrena eficazmente modelos de difusión en un solo paso al minimizar la familia de divergencias f expandida. La novedosa unificación introducida por Uni-Instruct no solo ofrece nuevas contribuciones teóricas que ayudan a comprender los enfoques existentes desde una perspectiva de alto nivel, sino que también conduce a rendimientos de generación de difusión en un solo paso de vanguardia. En el benchmark de generación CIFAR10, Uni-Instruct logra valores récord de Distancia de Incepción de Fréchet (FID) de \emph{1.46} para generación incondicional y \emph{1.38} para generación condicional. En el benchmark de generación ImageNet-64x64, Uni-Instruct alcanza un nuevo FID de generación en un solo paso de \emph{1.02}, superando a su modelo de difusión maestro de 79 pasos con un margen de mejora significativo de 1.33 (1.02 vs 2.35). También aplicamos Uni-Instruct en tareas más amplias, como la generación de texto a 3D. Para la generación de texto a 3D, Uni-Instruct ofrece resultados decentes, superando ligeramente métodos anteriores, como SDS y VSD, tanto en calidad como en diversidad de generación. Tanto las sólidas contribuciones teóricas como empíricas de Uni-Instruct podrían ayudar potencialmente a futuros estudios sobre destilación de difusión en un solo paso y transferencia de conocimiento en modelos de difusión.
La separación de fuentes de audio es fundamental para que las máquinas comprendan entornos acústicos complejos y sustenta numerosas aplicaciones de audio. Los enfoques actuales de aprendizaje profundo supervisado, aunque potentes, están limitados por la necesidad de datos etiquetados extensos y específicos de la tarea, y tienen dificultades para generalizar a la inmensa variabilidad y naturaleza de conjunto abierto de las escenas acústicas del mundo real. Inspirados por el éxito de los modelos fundacionales generativos, investigamos si los modelos de difusión de audio guiados por texto preentrenados pueden superar estas limitaciones. Hacemos un descubrimiento sorprendente: la separación de fuentes en modo cero-shot puede lograrse únicamente a través de un modelo de difusión de audio guiado por texto preentrenado bajo la configuración adecuada. Nuestro método, denominado ZeroSep, funciona invirtiendo el audio mezclado en el espacio latente del modelo de difusión y luego utilizando el condicionamiento textual para guiar el proceso de eliminación de ruido y recuperar las fuentes individuales. Sin ningún entrenamiento o ajuste específico de la tarea, ZeroSep reutiliza el modelo de difusión generativo para una tarea de separación discriminativa y admite inherentemente escenarios de conjunto abierto a través de sus ricos conocimientos previos textuales. ZeroSep es compatible con una variedad de arquitecturas preentrenadas de difusión de audio guiadas por texto y ofrece un fuerte rendimiento de separación en múltiples benchmarks de separación, superando incluso a métodos supervisados.
Los Modelos de Lenguaje de Gran Escala (LLMs) generan soluciones funcionalmente correctas, pero a menudo no alcanzan la eficiencia en el código, un cuello de botella crítico para su implementación en el mundo real. En este artículo, presentamos un novedoso marco de optimización iterativa en tiempo de prueba para abordar este problema, empleando un sistema de bucle cerrado donde los LLMs refinan iterativamente el código basándose en retroalimentación empírica de rendimiento proveniente de un entorno de ejecución controlado. Exploramos tres estrategias de entrenamiento: Ajuste Fino Supervisado (SFT), Optimización Directa de Preferencias (DPO) y Optimización de Política Relativa de Grupo (GRPO). Los experimentos en nuestro conjunto de datos Venus y el benchmark APPS muestran que SFT y DPO alcanzan rápidamente un límite en las mejoras de eficiencia. En contraste, GRPO, utilizando aprendizaje por refuerzo (RL) con retroalimentación de ejecución, optimiza continuamente el rendimiento del código, mejorando significativamente tanto el pass@1 (del 47% al 62%) como la probabilidad de superar las soluciones humanas en eficiencia (del 31% al 45%). Nuestro trabajo demuestra una mejora efectiva en la eficiencia del código durante las pruebas y revela críticamente el poder del RL para enseñar a los LLMs a automejorar verdaderamente la eficiencia del código.
Proponemos un marco unificado para el control de movimiento en la generación de videos que integra de manera fluida el movimiento de la cámara, la traslación a nivel de objetos y el movimiento local detallado mediante entradas basadas en trayectorias. A diferencia de métodos anteriores que abordan estos tipos de movimiento a través de módulos separados o diseños específicos para tareas, nuestro enfoque ofrece una solución cohesiva al proyectar trayectorias definidas por el usuario en el espacio latente de modelos preentrenados de generación de imagen a video mediante un inyector de movimiento ligero. Los usuarios pueden especificar puntos clave y sus rutas de movimiento para controlar deformaciones localizadas, el movimiento completo de objetos, dinámicas de cámara virtual o combinaciones de estos. Las señales de trayectoria inyectadas guían el proceso generativo para producir secuencias de movimiento temporalmente consistentes y semánticamente alineadas. Nuestro marco demuestra un rendimiento superior en múltiples tareas de control de movimiento en videos, incluyendo efectos de movimiento estilizados (por ejemplo, pinceles de movimiento), cambios dinámicos de perspectiva y manipulación precisa de movimiento local. Los experimentos muestran que nuestro método ofrece una controlabilidad y calidad visual significativamente mejores en comparación con enfoques anteriores y soluciones comerciales, manteniendo una amplia compatibilidad con varios modelos de generación de video de última generación. Página del proyecto: https://anytraj.github.io/.
Los Transformadores de Difusión (DiT) se han convertido en el modelo de facto para generar contenido visual de alta calidad, como videos e imágenes. Un gran cuello de botella es el mecanismo de atención, cuya complejidad escala cuadráticamente con la resolución y la duración del video. Una forma lógica de aliviar esta carga es mediante la atención dispersa, donde solo un subconjunto de tokens o parches se incluye en el cálculo. Sin embargo, las técnicas existentes no logran preservar la calidad visual en niveles de dispersión extremadamente altos e incluso pueden incurrir en sobrecargas computacionales no despreciables. Para abordar este problema, proponemos Re-ttention, que implementa una atención muy dispersa para modelos de generación visual aprovechando la redundancia temporal de los Modelos de Difusión para superar el cambio de normalización probabilística dentro del mecanismo de atención. Específicamente, Re-ttention remodela los puntajes de atención basándose en el historial de distribución softmax previo para preservar la calidad visual de la atención cuadrática completa en niveles de dispersión muy altos. Los resultados experimentales en modelos T2V/T2I como CogVideoX y los DiT de PixArt demuestran que Re-ttention requiere tan solo el 3.1\% de los tokens durante la inferencia, superando métodos contemporáneos como FastDiTAttn, Sparse VideoGen y MInference. Además, medimos la latencia para mostrar que nuestro método puede lograr una reducción de más del 45\% en la latencia de extremo a extremo y más del 92\% en la latencia de auto-atención en una GPU H100 con un costo de sobrecarga insignificante. Código disponible en línea aquí: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
Entrenamos 13.440 modelos de lenguaje grandes y descubrimos que la minimización de entropía requiere solo un único dato no etiquetado y 10 pasos de optimización para lograr mejoras en el rendimiento comparables o incluso superiores a las obtenidas utilizando miles de datos y recompensas cuidadosamente diseñadas en el aprendizaje por refuerzo basado en reglas. Este resultado sorprendente podría impulsar un replanteamiento de los paradigmas de post-entrenamiento para modelos de lenguaje grandes. Nuestro código está disponible en https://github.com/zitian-gao/one-shot-em.
Los acertijos rebus, enigmas visuales que codifican lenguaje a través de imágenes, disposición espacial y sustitución simbólica, representan un desafío único para los modelos actuales de visión y lenguaje (VLMs). A diferencia de tareas tradicionales como la generación de descripciones de imágenes o la respuesta a preguntas, resolver rebus requiere abstracción multimodal, razonamiento simbólico y comprensión de juegos de palabras culturales, fonéticos y lingüísticos. En este artículo, investigamos la capacidad de los VLMs contemporáneos para interpretar y resolver acertijos rebus mediante la construcción de un conjunto de datos generado y anotado manualmente, que incluye una variedad de rebus en inglés, desde sustituciones pictográficas simples hasta pistas dependientes de la disposición espacial (como "head" sobre "heels"). Analizamos el rendimiento de diferentes VLMs, y nuestros hallazgos revelan que, aunque estos modelos muestran capacidades sorprendentes para decodificar pistas visuales simples, enfrentan dificultades significativas en tareas que requieren razonamiento abstracto, pensamiento lateral y comprensión de metáforas visuales.
Los recientes Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) con trazas de pensamiento han demostrado un fuerte rendimiento en tareas de razonamiento en inglés. Sin embargo, su capacidad para pensar en otros idiomas ha sido menos estudiada. Esta capacidad es tan importante como la precisión de las respuestas para aplicaciones del mundo real, ya que los usuarios pueden encontrar útil la traza de razonamiento para supervisión solo cuando está expresada en su propio idioma. Evaluamos exhaustivamente dos familias líderes de LRMs en nuestro benchmark XReasoning y encontramos que incluso los modelos más avanzados a menudo recurren al inglés o producen razonamientos fragmentados en otros idiomas, revelando una brecha sustancial en el razonamiento multilingüe. Las intervenciones basadas en prompts que obligan a los modelos a razonar en el idioma del usuario mejoran la legibilidad y la supervisión, pero reducen la precisión de las respuestas, exponiendo un importante compromiso. Además, demostramos que un entrenamiento posterior específico con solo 100 ejemplos mitiga este desajuste, aunque persiste cierta pérdida de precisión. Nuestros resultados destacan las limitadas capacidades de razonamiento multilingüe de los LRMs actuales y esbozan direcciones para trabajos futuros. El código y los datos están disponibles en https://github.com/Betswish/mCoT-XReasoning.
Los recientes avances en los Modelos de Gran Escala de Visión y Lenguaje (LVLMs, por sus siglas en inglés) han permitido aplicaciones prometedoras en tareas médicas, como la generación de informes y la respuesta a preguntas visuales. Sin embargo, los puntos de referencia existentes se centran principalmente en la respuesta diagnóstica final, ofreciendo una visión limitada sobre si los modelos realizan un razonamiento clínicamente significativo. Para abordar esto, presentamos CheXStruct y CXReasonBench, una pipeline estructurada y un punto de referencia construidos sobre el conjunto de datos MIMIC-CXR-JPG, disponible públicamente. CheXStruct deriva automáticamente una secuencia de pasos intermedios de razonamiento directamente a partir de radiografías de tórax, como la segmentación de regiones anatómicas, la derivación de puntos de referencia anatómicos y mediciones diagnósticas, el cálculo de índices diagnósticos y la aplicación de umbrales clínicos. CXReasonBench aprovecha esta pipeline para evaluar si los modelos pueden realizar pasos de razonamiento clínicamente válidos y hasta qué punto pueden aprender de una guía estructurada, permitiendo una evaluación detallada y transparente del razonamiento diagnóstico. El punto de referencia comprende 18,988 pares de preguntas y respuestas en 12 tareas diagnósticas y 1,200 casos, cada uno emparejado con hasta 4 entradas visuales, y admite una evaluación de múltiples rutas y etapas, incluyendo la localización visual mediante la selección de regiones anatómicas y mediciones diagnósticas. Incluso el más fuerte de los 10 LVLMs evaluados tiene dificultades con el razonamiento estructurado y la generalización, a menudo fallando en vincular el conocimiento abstracto con la interpretación visual basada en la anatomía. El código está disponible en https://github.com/ttumyche/CXReasonBench.
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han demostrado capacidades sólidas para alinear las modalidades visuales y textuales, lo que permite una amplia gama de aplicaciones en comprensión y generación multimodal. Aunque destacan en escenarios de aprendizaje zero-shot y transferencia, los VLMs siguen siendo susceptibles a errores de clasificación, a menudo generando predicciones confiadas pero incorrectas. Esta limitación representa un riesgo significativo en dominios críticos para la seguridad, donde predicciones erróneas pueden tener consecuencias graves. En este trabajo, presentamos TrustVLM, un marco de trabajo que no requiere entrenamiento y está diseñado para abordar el desafío crítico de estimar cuándo se pueden confiar en las predicciones de un VLM. Motivados por la brecha de modalidad observada en los VLMs y la idea de que ciertos conceptos están más claramente representados en el espacio de incrustaciones de imágenes, proponemos una novedosa función de puntuación de confianza que aprovecha este espacio para mejorar la detección de errores de clasificación. Evaluamos rigurosamente nuestro enfoque en 17 conjuntos de datos diversos, empleando 4 arquitecturas y 2 VLMs, y demostramos un rendimiento de vanguardia, con mejoras de hasta el 51.87% en AURC, el 9.14% en AUROC y el 32.42% en FPR95 en comparación con los baselines existentes. Al mejorar la confiabilidad del modelo sin requerir reentrenamiento, TrustVLM allana el camino para un despliegue más seguro de los VLMs en aplicaciones del mundo real. El código estará disponible en https://github.com/EPFL-IMOS/TrustVLM.
Presentamos UniTEX, un novedoso marco de generación de texturas 3D en dos etapas para crear texturas de alta calidad y consistentes para activos 3D. Los enfoques existentes se basan principalmente en la restauración basada en UV para refinar las texturas después de reproyectar las imágenes generadas desde múltiples vistas sobre las formas 3D, lo que introduce desafíos relacionados con la ambigüedad topológica. Para abordar esto, proponemos evitar las limitaciones del mapeo UV operando directamente en un espacio funcional 3D unificado. Específicamente, primero proponemos elevar la generación de texturas al espacio 3D mediante Funciones de Textura (TFs, por sus siglas en inglés): una representación volumétrica continua que mapea cualquier punto 3D a un valor de textura basado únicamente en la proximidad de la superficie, independiente de la topología de la malla. Luego, proponemos predecir estas TFs directamente a partir de imágenes y entradas de geometría utilizando un Modelo de Texturizado a Gran Escala (LTM, por sus siglas en inglés) basado en transformadores. Para mejorar aún más la calidad de las texturas y aprovechar potentes conocimientos previos en 2D, desarrollamos una estrategia avanzada basada en LoRA para adaptar eficientemente Transformadores de Difusión a Gran Escala (DiTs, por sus siglas en inglés) para la síntesis de texturas de múltiples vistas de alta calidad como nuestra primera etapa. Experimentos extensivos demuestran que UniTEX logra una calidad visual y una integridad de textura superiores en comparación con los enfoques existentes, ofreciendo una solución generalizable y escalable para la generación automatizada de texturas 3D. El código estará disponible en: https://github.com/YixunLiang/UniTEX.
El método de representación conocido como Gaussian Splatting (GS) ha surgido recientemente como una técnica eficiente para renderizar escenas 3D a partir de imágenes 2D, y se ha extendido a imágenes, videos y contenido dinámico 4D. Sin embargo, aplicar transferencia de estilo a representaciones basadas en GS, especialmente más allá de simples cambios de color, sigue siendo un desafío. En este trabajo, presentamos CLIPGaussians, el primer marco unificado de transferencia de estilo que admite la estilización guiada por texto e imágenes en múltiples modalidades: imágenes 2D, videos, objetos 3D y escenas 4D. Nuestro método opera directamente sobre primitivas gaussianas y se integra en las tuberías existentes de GS como un módulo complementario, sin requerir modelos generativos grandes ni reentrenamiento desde cero. El enfoque de CLIPGaussians permite la optimización conjunta de color y geometría en entornos 3D y 4D, logra coherencia temporal en videos y mantiene un tamaño de modelo reducido. Demostramos una fidelidad y consistencia de estilo superiores en todas las tareas, validando CLIPGaussians como una solución universal y eficiente para la transferencia de estilo multimodal.
Los métodos existentes de destilación de cadena de pensamiento (CoT, por sus siglas en inglés) pueden transferir eficazmente habilidades de razonamiento a modelos base, pero presentan dos limitaciones principales: la excesiva verbosidad de las trazas de razonamiento y la insuficiente adaptabilidad a la dificultad del problema. Las trazas de razonamiento largas aumentan significativamente los costos de inferencia, y las soluciones de longitud uniforme impiden que los modelos base aprendan estrategias de razonamiento adaptativas. Para abordar estos problemas, proponemos un método de indicación consciente de la dificultad (DAP, por sus siglas en inglés) que acorta dinámicamente las trazas de razonamiento sin pérdida de rendimiento. En nuestro enfoque, un modelo maestro grande primero juzga la dificultad de cada problema y luego reescribe sus trazas de razonamiento a una longitud más corta y apropiada, produciendo trazas de razonamiento concisas pero completas. Aprovechando la tubería DAP, hemos creado un conjunto de datos destilado llamado LiteCoT, que consta de 100K ejemplos de razonamiento concisos, con soluciones que promedian solo 720 tokens (un orden de magnitud más cortas que las CoT típicas). Utilizando LiteCoT, hemos destilado una nueva familia de modelos de razonamiento llamada Liter (1.5B, 7B y 32B) basada en la arquitectura Qwen2.5. Los experimentos muestran que un modelo estudiante ajustado con solo 100K de estas muestras CoT podadas por dificultad supera a un modelo destilado con 800K muestras originales de CoT largas, mientras reduce significativamente los costos de entrenamiento e inferencia. Nuestro método también generaliza bien: en 11 puntos de referencia diversos, las CoT más cortas conscientes de la dificultad logran una precisión igual o mejor que las cadenas largas, utilizando muchos menos tokens. Por ejemplo, en el desafiante examen AIME24, nuestro enfoque alcanza un 74.2% de Pass@1 utilizando solo alrededor de 5K tokens de inferencia, superando a otros métodos que consumen muchos más tokens. Nuestro código y datos están disponibles en https://github.com/Evanwu1125/LiteCoT.
Presentamos un marco basado en fotogramas clave para generar videos de baile de animales sincronizados con la música y conscientes de la coreografía. Partiendo de unos pocos fotogramas clave que representan poses distintivas de animales —generados mediante indicaciones de texto a imagen o GPT-4o— formulamos la síntesis de baile como un problema de optimización de grafos: encontrar la estructura óptima de fotogramas clave que satisfaga un patrón coreográfico específico de beats, el cual puede estimarse automáticamente a partir de un video de baile de referencia. También introducimos un enfoque para la generación de imágenes de poses reflejadas, esencial para capturar la simetría en el baile. Los fotogramas intermedios se sintetizan utilizando un modelo de difusión de video. Con tan solo seis fotogramas clave de entrada, nuestro método puede producir videos de baile de hasta 30 segundos para una amplia gama de animales y pistas musicales.
Los modelos de *Feed-forward 3D Gaussian Splatting* (3DGS) han surgido recientemente como una solución prometedora para la síntesis de nuevas vistas, permitiendo inferencia en un solo paso sin la necesidad de optimización de 3DGS por escena. Sin embargo, su escalabilidad está fundamentalmente limitada por la capacidad reducida de sus codificadores, lo que lleva a un rendimiento degradado o a un consumo excesivo de memoria a medida que aumenta el número de vistas de entrada. En este trabajo, analizamos los marcos de *feed-forward* 3DGS a través del principio del *Information Bottleneck* e introducimos ZPressor, un módulo ligero independiente de la arquitectura que permite la compresión eficiente de entradas multivista en un estado latente compacto Z que retiene la información esencial de la escena mientras descarta la redundancia. Concretamente, ZPressor permite que los modelos existentes de *feed-forward* 3DGS escalen a más de 100 vistas de entrada en resolución 480P en una GPU de 80 GB, dividiendo las vistas en conjuntos de anclaje y soporte y utilizando atención cruzada para comprimir la información de las vistas de soporte en las vistas de anclaje, formando el estado latente comprimido Z. Demostramos que la integración de ZPressor en varios modelos de *feed-forward* 3DGS de última generación mejora consistentemente el rendimiento con un número moderado de vistas de entrada y aumenta la robustez en configuraciones de vistas densas en dos grandes conjuntos de referencia: DL3DV-10K y RealEstate10K. Los resultados en video, el código y los modelos entrenados están disponibles en nuestra página del proyecto: https://lhmd.top/zpressor.
Desarrollar software de alto rendimiento es una tarea compleja que requiere experiencia especializada. Presentamos GSO, un punto de referencia para evaluar las capacidades de los modelos de lenguaje en el desarrollo de software de alto rendimiento. Desarrollamos una canalización automatizada que genera y ejecuta pruebas de rendimiento para analizar historiales de commits en repositorios, identificando 102 tareas de optimización desafiantes en 10 bases de código, abarcando diversos dominios y lenguajes de programación. Se proporciona a un agente una base de código y una prueba de rendimiento como especificación precisa, y se le asigna la tarea de mejorar la eficiencia en tiempo de ejecución, la cual se mide en comparación con la optimización realizada por desarrolladores expertos. Nuestra evaluación cuantitativa revela que los principales SWE-Agents enfrentan dificultades significativas, logrando una tasa de éxito inferior al 5%, con mejoras limitadas incluso al escalar en tiempo de inferencia. Nuestro análisis cualitativo identifica modos clave de fallo, incluyendo dificultades con lenguajes de bajo nivel, la práctica de estrategias de optimización perezosa y desafíos en la localización precisa de cuellos de botella. Publicamos el código y los artefactos de nuestro punto de referencia junto con las trayectorias de los agentes para facilitar investigaciones futuras.
Si bien las representaciones multimodales preentrenadas (por ejemplo, CLIP) han mostrado capacidades impresionantes, exhiben vulnerabilidades composicionales significativas que conducen a juicios contraintuitivos. Introducimos Composición Adversarial Multimodal (MAC, por sus siglas en inglés), un punto de referencia que aprovecha los modelos de lenguaje de gran escala (LLMs) para generar muestras de texto engañosas que explotan estas vulnerabilidades en diferentes modalidades y las evalúa tanto mediante la tasa de éxito del ataque por muestra como mediante la diversidad basada en entropía a nivel de grupo. Para mejorar los métodos de cero disparos, proponemos un enfoque de autoentrenamiento que utiliza un ajuste fino por muestreo de rechazo con filtrado que promueve la diversidad, lo que mejora tanto la tasa de éxito del ataque como la diversidad de las muestras. Utilizando modelos de lenguaje más pequeños como Llama-3.1-8B, nuestro enfoque demuestra un rendimiento superior al revelar vulnerabilidades composicionales en diversas representaciones multimodales, incluyendo imágenes, videos y audios.
En los últimos años, se han observado avances rápidos en la generación de imágenes impulsada por IA. Los primeros modelos de difusión se centraban en la calidad perceptual, mientras que modelos multimodales más recientes como GPT-4o-image integran razonamiento de alto nivel, mejorando la comprensión semántica y la composición estructural. La generación de ilustraciones científicas ejemplifica esta evolución: a diferencia de la síntesis general de imágenes, requiere una interpretación precisa de contenido técnico y la transformación de ideas abstractas en visuales claros y estandarizados. Esta tarea es significativamente más intensiva en conocimiento y laboriosa, a menudo requiriendo horas de trabajo manual y herramientas especializadas. Automatizarla de manera controlada e inteligente proporcionaría un valor práctico sustancial. Sin embargo, actualmente no existe un punto de referencia para evaluar la IA en este aspecto. Para llenar este vacío, presentamos SridBench, el primer punto de referencia para la generación de figuras científicas. Este comprende 1,120 instancias seleccionadas de artículos científicos líderes en 13 disciplinas de ciencias naturales y computación, recopiladas mediante expertos humanos y MLLMs. Cada muestra se evalúa en seis dimensiones, incluyendo fidelidad semántica y precisión estructural. Los resultados experimentales revelan que incluso modelos de primer nivel como GPT-4o-image están por detrás del rendimiento humano, con problemas comunes en la claridad texto/visual y la corrección científica. Estos hallazgos resaltan la necesidad de capacidades más avanzadas de generación visual impulsada por razonamiento.
Los informes de radiología transmiten observaciones clínicas detalladas y capturan el razonamiento diagnóstico que evoluciona con el tiempo. Sin embargo, los métodos de evaluación existentes se limitan a entornos de informes individuales y dependen de métricas generales que no logran capturar la semántica clínica detallada ni las dependencias temporales. Presentamos LUNGUAGE, un conjunto de datos de referencia para la generación estructurada de informes de radiología que admite tanto la evaluación de informes individuales como la evaluación longitudinal a nivel de paciente en múltiples estudios. Contiene 1,473 informes de rayos X de tórax anotados, cada uno revisado por expertos, y 80 de ellos incluyen anotaciones longitudinales para capturar la progresión de la enfermedad y los intervalos entre estudios, también revisados por expertos. Utilizando este conjunto de referencia, desarrollamos un marco de trabajo de dos etapas que transforma los informes generados en representaciones estructuradas detalladas y alineadas con un esquema, permitiendo una interpretación longitudinal. También proponemos LUNGUAGESCORE, una métrica interpretable que compara las salidas estructuradas a nivel de entidad, relación y atributo, mientras modela la consistencia temporal a lo largo de las líneas de tiempo del paciente. Estas contribuciones establecen el primer conjunto de datos de referencia, marco de estructuración y métrica de evaluación para la generación secuencial de informes de radiología, con resultados empíricos que demuestran que LUNGUAGESCORE respalda efectivamente la evaluación de informes estructurados. El código está disponible en: https://github.com/SuperSupermoon/Lunguage
Las capacidades crecientes de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han impulsado tareas como la comprensión de gráficos. Sin embargo, estos modelos a menudo sufren de alucinaciones, donde las secuencias de texto generadas entran en conflicto con los datos visuales proporcionados. Para abordar este problema, presentamos la Atribución Visual Post-Hoc para Gráficos, que identifica elementos detallados del gráfico que validan una respuesta asociada al mismo. Proponemos ChartLens, un novedoso algoritmo de atribución de gráficos que utiliza técnicas basadas en segmentación para identificar objetos del gráfico y emplea el enfoque de "conjunto de marcas" con MLLMs para una atribución visual detallada. Además, presentamos ChartVA-Eval, un punto de referencia con gráficos sintéticos y del mundo real de diversos dominios como finanzas, políticas y economía, que incluye anotaciones detalladas de atribución. Nuestras evaluaciones muestran que ChartLens mejora las atribuciones detalladas en un 26-66%.
Los grandes modelos de lenguaje han sido ampliamente estudiados como bases de conocimiento neuronal por su capacidad de acceso, edición, razonamiento y explicabilidad del conocimiento. Sin embargo, pocos trabajos se centran en los patrones estructurales de su conocimiento. Motivados por esta brecha, investigamos estos patrones estructurales desde una perspectiva de grafos. Cuantificamos el conocimiento de los LLM tanto a nivel de tripletas como de entidades, y analizamos cómo se relaciona con propiedades estructurales de grafos como el grado de los nodos. Además, descubrimos la homofilia del conocimiento, donde entidades topológicamente cercanas exhiben niveles similares de conocimiento, lo que nos motiva a desarrollar modelos de aprendizaje automático basados en grafos para estimar el conocimiento de una entidad en función de sus vecinos locales. Este modelo permite una valiosa verificación del conocimiento al seleccionar tripletas menos conocidas por los LLM. Los resultados empíricos muestran que el uso de tripletas seleccionadas para el ajuste fino conduce a un rendimiento superior.
La inteligencia espacial es esencial para los modelos de lenguaje multimodal de gran escala (MLLMs) que operan en el complejo mundo físico. Sin embargo, los puntos de referencia existentes solo evalúan relaciones de una sola imagen y, por lo tanto, no logran evaluar el razonamiento espacial multi-imagen que exigen los despliegues en el mundo real. Presentamos MMSI-Bench, un punto de referencia de preguntas y respuestas visuales (VQA) dedicado a la inteligencia espacial multi-imagen. Seis investigadores en visión 3D dedicaron más de 300 horas a elaborar meticulosamente 1,000 preguntas desafiantes y no ambiguas de opción múltiple a partir de más de 120,000 imágenes, cada una acompañada de distractores cuidadosamente diseñados y un proceso de razonamiento paso a paso. Realizamos experimentos extensos y evaluamos exhaustivamente 34 MLLMs de código abierto y propietarios, observando una brecha significativa: el modelo de código abierto más fuerte alcanza aproximadamente un 30% de precisión y el modelo de razonamiento o3 de OpenAI llega al 40%, mientras que los humanos obtienen un 97%. Estos resultados subrayan la naturaleza desafiante de MMSI-Bench y el amplio margen de mejora para futuras investigaciones. Aprovechando los procesos de razonamiento anotados, también proporcionamos una canalización automatizada de análisis de errores que diagnostica cuatro modos de fallo dominantes, incluyendo (1) errores de fundamentación, (2) errores de coincidencia de superposición y reconstrucción de escenas, (3) errores de razonamiento en la transformación de situaciones y (4) errores de lógica espacial, ofreciendo valiosas perspectivas para avanzar en la inteligencia espacial multi-imagen. Página del proyecto: https://runsenxu.com/projects/MMSI_Bench.
La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) se ha convertido en una técnica estándar para alinear modelos de lenguaje con preferencias humanas de manera supervisada. A pesar de su éxito empírico, la justificación teórica detrás de su parametrización de recompensa basada en el logaritmo de la razón sigue siendo incompleta. En este trabajo, abordamos esta brecha utilizando la Distribución de Información Diferencial (DID, por sus siglas en inglés): una distribución sobre secuencias de tokens que captura la información obtenida durante las actualizaciones de la política. Primero, demostramos que cuando las etiquetas de preferencia codifican la información diferencial necesaria para transformar una política de referencia en una política objetivo, la recompensa basada en el logaritmo de la razón en DPO surge como la forma óptima única para aprender la política objetivo mediante la optimización de preferencias. Este resultado conduce naturalmente a una expresión de forma cerrada para la distribución óptima de muestreo sobre las respuestas rechazadas. Segundo, encontramos que la condición para que las preferencias codifiquen información diferencial está fundamentalmente ligada a una suposición implícita respecto a políticas ordenadas por el logaritmo del margen, un sesgo inductivo ampliamente utilizado en la optimización de preferencias pero previamente no reconocido. Finalmente, al analizar la entropía de la DID, caracterizamos cómo el aprendizaje de información diferencial de baja entropía refuerza la distribución de la política, mientras que la información diferencial de alta entropía induce un efecto de suavizado, lo que explica el fenómeno de desplazamiento de la verosimilitud logarítmica. Validamos nuestros hallazgos teóricos en experimentos sintéticos y los extendemos a conjuntos de datos del mundo real para el seguimiento de instrucciones. Nuestros resultados sugieren que el aprendizaje de información diferencial de alta entropía es crucial para el seguimiento general de instrucciones, mientras que el aprendizaje de información diferencial de baja entropía beneficia la respuesta a preguntas intensivas en conocimiento. En general, nuestro trabajo presenta una perspectiva unificadora sobre el objetivo de DPO, la estructura de los datos de preferencia y los comportamientos resultantes de la política a través del lente de la información diferencial.
Si bien el aprendizaje por refuerzo (RL, por sus siglas en inglés) sobre cadenas de pensamiento ha avanzado significativamente los modelos de lenguaje en tareas como matemáticas y programación, el razonamiento visual introduce una complejidad adicional al requerir que los modelos dirijan la atención visual, interpreten entradas perceptuales y fundamenten el razonamiento abstracto en evidencia espacial. Presentamos ViGoRL (Visually Grounded Reinforcement Learning), un modelo de visión y lenguaje entrenado con RL para anclar explícitamente cada paso de razonamiento a coordenadas visuales específicas. Inspirado en la toma de decisiones visuales humanas, ViGoRL aprende a producir trazas de razonamiento espacialmente fundamentadas, guiando la atención visual hacia regiones relevantes para la tarea en cada paso. Cuando se requiere una exploración detallada, nuestro novedoso marco de RL de múltiples turnos permite que el modelo haga zoom dinámicamente en las coordenadas predichas a medida que se desarrolla el razonamiento. En un conjunto diverso de benchmarks de razonamiento visual—incluyendo SAT-2 y BLINK para razonamiento espacial, V*bench para búsqueda visual, y ScreenSpot y VisualWebArena para fundamentación basada en la web—ViGoRL supera consistentemente tanto el ajuste fino supervisado como los baselines convencionales de RL que carecen de mecanismos explícitos de fundamentación. La incorporación de RL de múltiples turnos con retroalimentación visual ampliada mejora significativamente el rendimiento de ViGoRL en la localización de pequeños elementos de GUI y en la búsqueda visual, alcanzando un 86.4% en V*Bench. Además, encontramos que la fundamentación amplifica otros comportamientos visuales, como la exploración de regiones, la configuración de subobjetivos fundamentados y la verificación visual. Finalmente, las evaluaciones humanas muestran que las referencias visuales del modelo no solo son espacialmente precisas, sino también útiles para comprender los pasos de razonamiento del modelo. Nuestros resultados demuestran que el RL visualmente fundamentado es un paradigma sólido para dotar a los modelos de razonamiento visual de propósito general.
El objetivo principal de la cuantización post-entrenamiento (PTQ, por sus siglas en inglés) es producir un modelo comprimido cuya distribución de salida sea lo más cercana posible a la del modelo original. Para lograrlo de manera factible, casi todos los algoritmos de PTQ para modelos de lenguaje grandes (LLM) cuantizan las capas lineales minimizando de forma independiente el error de activación inmediato. Sin embargo, este objetivo localizado ignora el efecto de las capas subsiguientes, por lo que reducirlo no necesariamente resulta en un modelo más cercano. En este trabajo, presentamos Yet Another Quantization Algorithm (YAQA), un algoritmo de redondeo adaptativo que utiliza aproximaciones factorizadas de Kronecker del hessiano de cada capa lineal con respecto a la divergencia KL del modelo completo. YAQA consta de dos componentes: bosquejos factorizados de Kronecker del hessiano completo por capas que pueden calcularse de manera factible para LLM con cientos de miles de millones de parámetros, y un algoritmo de redondeo independiente del cuantizador que utiliza estos bosquejos y cuenta con garantías teóricas. En una amplia gama de modelos y cuantizadores, YAQA reduce empíricamente la divergencia KL con respecto al modelo original en aproximadamente un 30%, al mismo tiempo que logra un rendimiento de vanguardia en tareas posteriores.
La evaluación de la creatividad sigue siendo una frontera desafiante para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Las evaluaciones actuales dependen en gran medida de juicios humanos ineficientes y costosos, lo que obstaculiza el progreso en la mejora de la creatividad de las máquinas. Aunque existen métodos automatizados, que van desde pruebas psicológicas hasta enfoques basados en heurísticas o en indicaciones (prompts), a menudo carecen de generalización o alineación con el juicio humano. Para abordar estos problemas, en este artículo proponemos un marco novedoso de comparación por pares para evaluar la creatividad textual, aprovechando instrucciones contextuales compartidas para mejorar la consistencia de la evaluación. Presentamos CreataSet, un conjunto de datos a gran escala con más de 100K pares de instrucción-respuesta creativos generados por humanos y más de 1M pares sintéticos, que abarcan diversas tareas de dominio abierto. Al entrenar con CreataSet, desarrollamos un evaluador basado en LLM llamado CrEval. CrEval demuestra una superioridad notable sobre los métodos existentes en términos de alineación con los juicios humanos. Los resultados experimentales subrayan la importancia indispensable de integrar tanto datos generados por humanos como sintéticos para entrenar evaluadores altamente robustos, y muestran la utilidad práctica de CrEval para impulsar la creatividad de los LLMs. Pronto liberaremos todos los datos, códigos y modelos de manera pública para apoyar investigaciones futuras.
En este trabajo, revelamos las limitaciones de los tokenizadores visuales y los VAEs (Variational Autoencoders) para preservar características de grano fino, y proponemos un punto de referencia para evaluar el rendimiento de reconstrucción en dos contenidos visuales desafiantes: texto y rostros. Los tokenizadores visuales y los VAEs han avanzado significativamente en la generación visual y el modelado multimodal al proporcionar representaciones de imágenes más eficientes, ya sea comprimidas o cuantificadas. Sin embargo, aunque ayudan a los modelos de producción a reducir la carga computacional, la pérdida de información derivada de la compresión de imágenes limita fundamentalmente el límite superior de la calidad en la generación visual. Para evaluar este límite superior, nos enfocamos en evaluar las características reconstruidas de texto y rostros, ya que estas suelen: 1) existir a escalas más pequeñas, 2) contener texturas densas y ricas, 3) ser propensas a colapsar, y 4) ser altamente sensibles para la visión humana. Primero, recopilamos y seleccionamos un conjunto diverso de imágenes claras de texto y rostros de conjuntos de datos existentes. A diferencia de los enfoques que utilizan modelos VLM (Vision-Language Models), empleamos modelos establecidos de OCR (Reconocimiento Óptico de Caracteres) y reconocimiento facial para la evaluación, asegurando precisión mientras mantenemos un proceso de evaluación excepcionalmente ligero <span style="font-weight: bold; color: rgb(214, 21, 21);">que requiere solo 2GB de memoria y 4 minutos</span> para completarse. Utilizando nuestro punto de referencia, analizamos la calidad de la reconstrucción de texto y rostros en varias escalas para diferentes tokenizadores de imágenes y VAEs. Nuestros resultados muestran que los tokenizadores visuales modernos aún tienen dificultades para preservar características de grano fino, especialmente en escalas más pequeñas. Además, extendemos este marco de evaluación a video, realizando un análisis exhaustivo de los tokenizadores de video. Adicionalmente, demostramos que las métricas tradicionales no logran reflejar con precisión el rendimiento de reconstrucción para rostros y texto, mientras que nuestras métricas propuestas sirven como un complemento efectivo.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un potencial significativo en disciplinas científicas como la biomedicina, particularmente en la generación de hipótesis, donde pueden analizar vastas literaturas, identificar patrones y sugerir direcciones de investigación. Sin embargo, un desafío clave radica en evaluar la veracidad de las hipótesis generadas, ya que verificar su precisión a menudo requiere un tiempo y recursos considerables. Además, el problema de las alucinaciones en los LLMs puede llevar a la generación de hipótesis que parecen plausibles pero que, en última instancia, son incorrectas, lo que socava su fiabilidad. Para facilitar el estudio sistemático de estos desafíos, presentamos TruthHypo, un punto de referencia para evaluar las capacidades de los LLMs en la generación de hipótesis biomédicas veraces, y KnowHD, un detector de alucinaciones basado en conocimiento para evaluar qué tan bien están fundamentadas las hipótesis en el conocimiento existente. Nuestros resultados muestran que los LLMs tienen dificultades para generar hipótesis veraces. Al analizar las alucinaciones en los pasos de razonamiento, demostramos que las puntuaciones de fundamentación proporcionadas por KnowHD sirven como una métrica efectiva para filtrar hipótesis veraces de las diversas salidas de los LLMs. Las evaluaciones humanas validan aún más la utilidad de KnowHD en la identificación de hipótesis veraces y la aceleración del descubrimiento científico. Nuestros datos y código fuente están disponibles en https://github.com/Teddy-XiongGZ/TruthHypo.
La estimación de calidad a nivel de palabra (WQE, por sus siglas en inglés) tiene como objetivo identificar automáticamente errores detallados en las salidas de traducción automática y ha encontrado numerosas aplicaciones, incluyendo la asistencia a traductores durante la post-edición. Las técnicas modernas de WQE suelen ser costosas, implicando el uso de modelos de lenguaje grandes mediante prompts o el entrenamiento específico con grandes cantidades de datos etiquetados por humanos. En este trabajo, investigamos alternativas eficientes que aprovechan los avances recientes en la interpretabilidad de modelos de lenguaje y la cuantificación de incertidumbre para identificar errores de traducción a partir del funcionamiento interno de los modelos de traducción. En nuestra evaluación, que abarca 14 métricas en 12 direcciones de traducción, cuantificamos el impacto de la variación en las etiquetas humanas sobre el rendimiento de las métricas utilizando múltiples conjuntos de etiquetas humanas. Nuestros resultados destacan el potencial no explotado de las métricas no supervisadas, las limitaciones de los métodos supervisados frente a la incertidumbre en las etiquetas y la fragilidad de las prácticas de evaluación basadas en un único anotador.
La Guía Libre de Clasificadores (Classifier-Free Guidance, CFG) mejora significativamente la controlabilidad en modelos generativos al interpolar predicciones condicionales e incondicionales. Sin embargo, la CFG estándar suele emplear una entrada incondicional estática, lo cual puede ser subóptimo para procesos de generación iterativa donde la incertidumbre del modelo varía dinámicamente. Introducimos la Guía Libre de Clasificadores Adaptativa (Adaptive Classifier-Free Guidance, A-CFG), un método novedoso que personaliza la entrada incondicional aprovechando la confianza predictiva instantánea del modelo. En cada paso de un modelo de lenguaje de difusión enmascarado iterativo, A-CFG identifica los tokens en la secuencia generada actualmente para los cuales el modelo muestra baja confianza. Estos tokens se vuelven a enmascarar temporalmente para crear una entrada incondicional dinámica y localizada. Esto enfoca la influencia correctiva de CFG precisamente en áreas de ambigüedad, lo que resulta en una guía más efectiva. Integramos A-CFG en un modelo de lenguaje de difusión enmascarado de última generación y demostramos su eficacia. Los experimentos en diversos benchmarks de generación de lenguaje muestran que A-CFG produce mejoras sustanciales sobre la CFG estándar, logrando, por ejemplo, una ganancia de 3.9 puntos en GPQA. Nuestro trabajo destaca el beneficio de adaptar dinámicamente los mecanismos de guía a la incertidumbre del modelo en la generación iterativa.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable en tareas de respuesta a preguntas (QA, por sus siglas en inglés) debido a sus capacidades superiores en comprensión y generación de lenguaje natural. Sin embargo, los sistemas de QA basados en LLMs enfrentan dificultades en tareas de QA complejas debido a una capacidad de razonamiento limitada, conocimiento desactualizado y alucinaciones. Varios trabajos recientes combinan LLMs y grafos de conocimiento (KGs, por sus siglas en inglés) para abordar estos desafíos en QA. En este estudio, proponemos una nueva taxonomía estructurada que categoriza la metodología de síntesis de LLMs y KGs para QA según los tipos de QA y el papel del KG al integrarse con los LLMs. Revisamos sistemáticamente los avances más recientes en la síntesis de LLMs y KGs para QA, y comparamos y analizamos estos enfoques en términos de fortalezas, limitaciones y requisitos de los KGs. Luego, alineamos los enfoques con las tareas de QA y discutimos cómo estos abordan los principales desafíos de diferentes tipos de QA compleja. Finalmente, resumimos los avances, las métricas de evaluación y los conjuntos de datos de referencia, y destacamos desafíos abiertos y oportunidades futuras.