Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en modelos de lenguaje centrados en razonamiento han destacado el aprendizaje por refuerzo (RL, por sus siglas en inglés) como un método prometedor para alinear modelos con recompensas verificables. Sin embargo, sigue siendo controvertido si el RL realmente expande las capacidades de razonamiento de un modelo o simplemente amplifica las salidas de alta recompensa que ya están latentes en la distribución del modelo base, y si el escalamiento continuo del cómputo de RL conduce de manera confiable a un mejor desempeño en el razonamiento. En este trabajo, desafiamos las suposiciones predominantes al demostrar que el entrenamiento prolongado de RL (ProRL) puede descubrir estrategias de razonamiento novedosas que son inaccesibles para los modelos base, incluso bajo un muestreo extensivo. Introducimos ProRL, una metodología de entrenamiento novedosa que incorpora control de divergencia KL, reinicio de políticas de referencia y un conjunto diverso de tareas. Nuestro análisis empírico revela que los modelos entrenados con RL superan consistentemente a los modelos base en una amplia gama de evaluaciones pass@k, incluyendo escenarios en los que los modelos base fallan por completo, independientemente del número de intentos. Además, mostramos que las mejoras en los límites de razonamiento se correlacionan fuertemente con la competencia en tareas del modelo base y la duración del entrenamiento, lo que sugiere que el RL puede explorar y poblar nuevas regiones del espacio de soluciones con el tiempo. Estos hallazgos ofrecen nuevas perspectivas sobre las condiciones bajo las cuales el RL expande significativamente los límites de razonamiento en los modelos de lenguaje y establecen una base para trabajos futuros sobre RL de horizonte largo para el razonamiento. Liberamos los pesos del modelo para apoyar investigaciones adicionales: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B.
Este artículo presenta AlphaOne (alpha1), un marco universal para modular el progreso del razonamiento en modelos de razonamiento de gran escala (LRMs, por sus siglas en inglés) durante la fase de prueba. Alpha1 introduce primero el concepto de momento alfa, que representa la fase de pensamiento escalada con un parámetro universal alfa. Dentro de esta fase pre-alfa escalada, programa dinámicamente las transiciones de pensamiento lento modelando la inserción de tokens de transición de razonamiento como un proceso estocástico de Bernoulli. Después del momento alfa, Alpha1 termina de manera determinista el pensamiento lento con el token de fin-de-pensamiento, fomentando así un razonamiento rápido y una generación eficiente de respuestas. Este enfoque unifica y generaliza los métodos de escalado monótono existentes al permitir una modulación flexible y densa del razonamiento de lento a rápido. Estudios empíricos exhaustivos en diversos puntos de referencia desafiantes en dominios matemáticos, de programación y científicos demuestran la capacidad superior de razonamiento y eficiencia de Alpha1. Página del proyecto: https://alphaone-project.github.io/
Los recientes avances en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han logrado progresos impresionantes en la comprensión de relaciones espacio-temporales en videos. Sin embargo, cuando la información espacial está oscurecida, estos modelos tienen dificultades para capturar patrones puramente temporales. Presentamos SpookyBench, un punto de referencia donde la información está codificada únicamente en secuencias temporales de fotogramas similares a ruido, imitando fenómenos naturales que van desde la señalización biológica hasta la comunicación encubierta. Curiosamente, mientras que los humanos pueden reconocer formas, texto y patrones en estas secuencias con una precisión superior al 98%, los VLMs más avanzados logran un 0% de precisión. Esta brecha de rendimiento resalta una limitación crítica: una dependencia excesiva en las características espaciales a nivel de fotograma y una incapacidad para extraer significado a partir de señales temporales. Además, cuando se entrenan en conjuntos de datos con bajas relaciones señal-ruido (SNR) espaciales, la comprensión temporal de los modelos se degrada más rápidamente que la percepción humana, especialmente en tareas que requieren un razonamiento temporal de grano fino. Superar esta limitación requerirá arquitecturas novedosas o paradigmas de entrenamiento que desacoplen las dependencias espaciales del procesamiento temporal. Nuestro análisis sistemático muestra que este problema persiste en diferentes escalas y arquitecturas de modelos. Publicamos SpookyBench para catalizar la investigación en el reconocimiento de patrones temporales y cerrar la brecha entre la comprensión humana y la de las máquinas en videos. El conjunto de datos y el código están disponibles en nuestro sitio web del proyecto: https://timeblindness.github.io/.
Generar datos sintéticos que capturen fielmente la estructura estadística de las distribuciones del mundo real es un desafío fundamental en el modelado de datos. Los enfoques clásicos suelen depender de fuertes suposiciones paramétricas o de un diseño estructural manual, y tienen dificultades en dominios de alta dimensionalidad o heterogéneos. Los avances recientes en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) revelan su potencial como priors flexibles y de alta dimensionalidad sobre distribuciones del mundo real. Sin embargo, cuando se aplican a la síntesis de datos, el muestreo estándar basado en LLMs es ineficiente, está limitado por contextos fijos y no garantiza una alineación estadística. Ante esto, presentamos LLMSynthor, un marco general para la síntesis de datos que transforma los LLMs en simuladores conscientes de la estructura guiados por retroalimentación distribucional. LLMSynthor trata al LLM como un simulador de cópula no paramétrica para modelar dependencias de alto orden e introduce el Muestreo de Propuestas con LLM para generar distribuciones de propuestas fundamentadas que mejoran la eficiencia del muestreo sin necesidad de rechazo. Al minimizar las discrepancias en el espacio de estadísticas resumidas, el ciclo iterativo de síntesis alinea los datos reales y sintéticos mientras descubre y refina gradualmente la estructura generativa latente. Evaluamos LLMSynthor en entornos controlados y del mundo real utilizando conjuntos de datos heterogéneos en dominios sensibles a la privacidad (por ejemplo, comercio electrónico, población y movilidad) que abarcan formatos estructurados y no estructurados. Los datos sintéticos producidos por LLMSynthor muestran una alta fidelidad estadística, utilidad práctica y adaptabilidad cruzada, posicionándolo como una herramienta valiosa en economía, ciencias sociales, estudios urbanos y más allá.
Los verificadores desempeñan un papel crucial en el razonamiento de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés), siendo necesarios para técnicas posteriores al entrenamiento, como el aprendizaje por refuerzo. Sin embargo, obtener verificadores confiables para problemas de codificación difíciles es complicado, ya que una solución incorrecta bien disfrazada solo puede detectarse mediante casos extremos cuidadosamente escritos por humanos que son difíciles de sintetizar. Para abordar este problema, proponemos HARDTESTGEN, una canalización para la síntesis de pruebas de alta calidad utilizando LLM. Con esta canalización, hemos creado un conjunto de datos exhaustivo de programación competitiva llamado HARDTESTS, que incluye 47k problemas y pruebas sintéticas de alta calidad. En comparación con las pruebas existentes, las pruebas de HARDTESTGEN muestran una precisión 11.3 puntos porcentuales mayor y una recuperación 17.5 puntos porcentuales mayor al evaluar código generado por LLM. Para problemas más difíciles, la mejora en la precisión puede llegar a ser de hasta 40 puntos. HARDTESTS también demuestra ser más efectivo para el entrenamiento de modelos, medido por el rendimiento en la generación de código en tareas posteriores. Publicaremos nuestro conjunto de datos y la canalización de síntesis en https://leililab.github.io/HardTests/.
Presentamos v1, una extensión ligera para los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) que permite la revisión visual selectiva durante la inferencia. Mientras que los MLLMs actuales suelen consumir la entrada visual solo una vez y razonan únicamente sobre la memoria interna, v1 introduce un mecanismo simple de apuntar y copiar que permite al modelo recuperar dinámicamente regiones relevantes de la imagen a lo largo del proceso de razonamiento. Este mecanismo aumenta las arquitecturas existentes con modificaciones mínimas, permitiendo el acceso contextual a los tokens visuales basado en las hipótesis en evolución del modelo. Para entrenar esta capacidad, construimos v1g, un conjunto de datos de 300K trazas de razonamiento multimodal con anotaciones intercaladas de anclaje visual. Los experimentos en tres benchmarks de razonamiento matemático multimodal -- MathVista, MathVision y MathVerse -- demuestran que v1 mejora consistentemente el rendimiento en comparación con líneas base similares, particularmente en tareas que requieren referencia visual detallada y razonamiento de múltiples pasos. Nuestros resultados sugieren que el acceso visual dinámico es una dirección prometedora para mejorar el razonamiento multimodal fundamentado. El código, modelos y datos serán liberados para apoyar futuras investigaciones.
La visualización de historias, que tiene como objetivo generar una secuencia de imágenes visualmente coherentes que se alineen con una narrativa dada y con imágenes de referencia, ha experimentado avances significativos gracias a los recientes progresos en modelos generativos. Para mejorar aún más el rendimiento de los marcos de visualización de historias en escenarios del mundo real, presentamos un punto de referencia de evaluación integral, ViStoryBench. Recopilamos un conjunto de datos diverso que abarca varios tipos de historias y estilos artísticos, asegurando que los modelos sean evaluados en múltiples dimensiones, como diferentes tramas (por ejemplo, comedia, terror) y estéticas visuales (por ejemplo, anime, renderizados en 3D). ViStoryBench está cuidadosamente diseñado para equilibrar estructuras narrativas y elementos visuales, incluyendo historias con uno o varios protagonistas para probar la capacidad de los modelos de mantener la consistencia de los personajes. Además, incorpora tramas complejas y construcciones de mundos intrincadas para desafiar a los modelos en la generación de imágenes precisas. Para garantizar comparaciones exhaustivas, nuestro punto de referencia incluye una amplia gama de métricas de evaluación que analizan aspectos críticos. Este marco estructurado y multifacético permite a los investigadores identificar a fondo tanto las fortalezas como las debilidades de diferentes modelos, fomentando mejoras específicas.
El reciente y explosivo interés en las capacidades de razonamiento de los modelos de lenguaje grandes, como DeepSeek-R1, ha demostrado un éxito notable a través de marcos de ajuste fino basados en aprendizaje por refuerzo, ejemplificados por métodos como Group Relative Policy Optimization (GRPO). Sin embargo, tales habilidades de razonamiento siguen siendo poco exploradas y notablemente ausentes en los modelos fundamentales de visión, incluyendo modelos de representación como la serie DINO. En este trabajo, proponemos DINO-R1, el primer intento de incentivar las capacidades de razonamiento visual en contexto de los modelos fundamentales de visión utilizando aprendizaje por refuerzo. Específicamente, DINO-R1 introduce Group Relative Query Optimization (GRQO), una novedosa estrategia de entrenamiento de estilo refuerzo diseñada explícitamente para modelos de representación basados en consultas, que calcula recompensas a nivel de consulta basadas en la calidad de alineación normalizada por grupo. También aplicamos regularización KL para estabilizar la distribución de objetividad y reducir la inestabilidad del entrenamiento. Esta optimización conjunta permite una supervisión densa y expresiva a través de las consultas mientras mitiga el sobreajuste y la deriva distribucional. Basándonos en Grounding-DINO, entrenamos una serie de modelos de la familia DINO-R1 que integran un codificador de indicaciones visuales y un mecanismo de selección de consultas guiado visualmente. Experimentos extensivos en COCO, LVIS y ODinW demuestran que DINO-R1 supera significativamente los baselines de ajuste fino supervisado, logrando una fuerte generalización tanto en escenarios de indicación visual de vocabulario abierto como de conjunto cerrado.
La automatización de la investigación en IA tiene un inmenso potencial para acelerar el progreso científico, aunque los agentes de IA actuales enfrentan dificultades con las complejidades de la experimentación rigurosa de principio a fin. Presentamos EXP-Bench, un nuevo punto de referencia diseñado para evaluar sistemáticamente a los agentes de IA en experimentos de investigación completos extraídos de publicaciones influyentes en IA. Dada una pregunta de investigación y un código inicial incompleto, EXP-Bench desafía a los agentes de IA a formular hipótesis, diseñar e implementar procedimientos experimentales, ejecutarlos y analizar los resultados. Para permitir la creación de tareas tan intrincadas y auténticas con alta fidelidad, diseñamos una pipeline semi-autónoma para extraer y estructurar detalles cruciales de los experimentos a partir de estos artículos de investigación y su código fuente asociado. Con esta pipeline, EXP-Bench ha curado 461 tareas de investigación en IA provenientes de 51 artículos de investigación de IA de primer nivel. Las evaluaciones de agentes líderes basados en modelos de lenguaje, como OpenHands e IterativeAgent, en EXP-Bench demuestran capacidades parciales: aunque las puntuaciones en aspectos individuales del experimento, como el diseño o la corrección de la implementación, ocasionalmente alcanzan el 20-35%, la tasa de éxito para experimentos completos y ejecutables fue de apenas un 0.5%. Al identificar estos cuellos de botella y proporcionar procedimientos experimentales realistas paso a paso, EXP-Bench sirve como una herramienta vital para que los futuros agentes de IA mejoren su capacidad para llevar a cabo experimentos de investigación en IA. EXP-Bench es de código abierto en https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
Los CAPTCHAs han sido un cuello de botella crítico para implementar agentes web en aplicaciones del mundo real, a menudo impidiéndoles completar tareas de automatización de extremo a extremo. Si bien los agentes modernos de modelos de lenguaje multimodal (MLLM) han demostrado un rendimiento impresionante en tareas de percepción estática, su capacidad para manejar desafíos interactivos de razonamiento de múltiples pasos, como los CAPTCHAs, está en gran medida sin probar. Para abordar esta brecha, presentamos Open CaptchaWorld, el primer benchmark y plataforma basados en la web diseñados específicamente para evaluar las capacidades de razonamiento visual e interacción de agentes impulsados por MLLM a través de diversos y dinámicos rompecabezas CAPTCHA. Nuestro benchmark abarca 20 tipos modernos de CAPTCHA, totalizando 225 CAPTCHAs, anotados con una nueva métrica que proponemos: Profundidad de Razonamiento CAPTCHA, que cuantifica el número de pasos cognitivos y motores necesarios para resolver cada rompecabezas. Los resultados experimentales muestran que los humanos logran consistentemente puntuaciones casi perfectas, mientras que los agentes MLLM de vanguardia tienen dificultades significativas, con tasas de éxito de como máximo 40.0% por Browser-Use Openai-o3, muy por debajo del rendimiento humano, 93.3%. Esto destaca a Open CaptchaWorld como un benchmark vital para diagnosticar los límites de los agentes multimodales actuales y guiar el desarrollo de sistemas de razonamiento multimodal más robustos. El código y los datos están disponibles en este enlace https.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido recientemente como un paradigma poderoso para el ajuste posterior de modelos de lenguaje grandes (LLMs), logrando un rendimiento de vanguardia en tareas con respuestas estructuradas y verificables. Aplicar RLVR a Modelos de Lenguaje Multimodales (MLLMs) presenta oportunidades significativas, pero se complica debido a la naturaleza más amplia y heterogénea de las tareas de visión-lenguaje, que requieren capacidades visuales, lógicas y espaciales matizadas. Por ello, entrenar MLLMs utilizando RLVR en múltiples conjuntos de datos podría ser beneficioso, pero genera desafíos con objetivos conflictivos derivados de la interacción entre diversos conjuntos de datos, destacando la necesidad de estrategias óptimas de mezcla de datos para mejorar la generalización y el razonamiento. Introducimos un marco sistemático de ajuste posterior para RLVR en MLLMs, que incluye una formulación rigurosa del problema de mezcla de datos y una implementación de referencia. Específicamente, (1) desarrollamos un marco de RLVR multimodal para el ajuste posterior en múltiples conjuntos de datos, curando un conjunto de datos que contiene diversos problemas verificables de visión-lenguaje y permitiendo el aprendizaje de RL en línea en múltiples dominios con diferentes recompensas verificables; (2) propusimos una estrategia de mezcla de datos que aprende a predecir el resultado del ajuste fino de RL a partir de la distribución de la mezcla de datos y, en consecuencia, optimiza la mejor mezcla. Experimentos exhaustivos demuestran que el entrenamiento de RLVR en múltiples dominios, combinado con estrategias de predicción de mezcla, puede mejorar significativamente las capacidades de razonamiento general de los MLLMs. Nuestra mejor mezcla aumenta la precisión del modelo ajustado posteriormente en benchmarks fuera de distribución en un promedio de 5.24% en comparación con el mismo modelo ajustado con una mezcla uniforme de datos, y en un total de 20.74% en comparación con la línea base previa al ajuste fino.
La síntesis de la manipulación de objetos articulados con todo el cuerpo, incluyendo el movimiento corporal, el movimiento de las manos y el movimiento del objeto, es una tarea crucial pero desafiante con amplias aplicaciones en humanos virtuales y robótica. Los desafíos principales son dos. Primero, lograr un movimiento realista de todo el cuerpo requiere una coordinación estrecha entre las manos y el resto del cuerpo, ya que sus movimientos son interdependientes durante la manipulación. Segundo, la manipulación de objetos articulados generalmente implica un alto grado de libertad y exige mayor precisión, a menudo requiriendo que los dedos se coloquen en regiones específicas para accionar las partes móviles. Para abordar estos desafíos, proponemos un novedoso marco de optimización de ruido de difusión coordinado. Específicamente, realizamos una optimización en el espacio de ruido sobre tres modelos de difusión especializados para el cuerpo, la mano izquierda y la mano derecha, cada uno entrenado en su propio conjunto de datos de movimiento para mejorar la generalización. La coordinación emerge naturalmente a través del flujo de gradiente a lo largo de la cadena cinemática humana, permitiendo que la postura global del cuerpo se adapte en respuesta a los objetivos de movimiento de las manos con alta fidelidad. Para mejorar aún más la precisión en la interacción mano-objeto, adoptamos una representación unificada basada en conjuntos de puntos base (BPS), donde las posiciones de los efectores finales se codifican como distancias al mismo BPS utilizado para la geometría del objeto. Esta representación unificada captura relaciones espaciales detalladas entre la mano y las partes articuladas del objeto, y las trayectorias resultantes sirven como objetivos para guiar la optimización del ruido de difusión, produciendo un movimiento de interacción altamente preciso. Realizamos extensos experimentos que demuestran que nuestro método supera a los enfoques existentes en calidad de movimiento y plausibilidad física, y permite diversas capacidades como el control de la pose del objeto, la manipulación simultánea mientras se camina, y la generación de todo el cuerpo a partir de datos únicamente de las manos.
Los modelos de lenguaje de gran escala (LLMs) memorizan una gran cantidad de conocimiento previo de Internet que les ayuda en tareas posteriores, pero también pueden notoriamente sesgar sus resultados hacia respuestas incorrectas o parcializadas. En este trabajo, evaluamos cómo el conocimiento sobre temas populares afecta la precisión de los modelos de lenguaje visual (VLMs) en tareas visuales estándar y objetivas de conteo e identificación. Descubrimos que los VLMs de última generación están fuertemente sesgados (por ejemplo, incapaces de reconocer que se ha añadido una cuarta franja al logo de tres franjas de Adidas), obteniendo una precisión promedio del 17.05% en tareas de conteo (por ejemplo, contar franjas en un logo similar al de Adidas) en 7 dominios diversos que incluyen animales, logos, ajedrez, juegos de mesa, ilusiones ópticas y cuadrículas con patrones. Insertar texto (por ejemplo, "Adidas") que describe el nombre del tema en la imagen contrafactual disminuye aún más la precisión de los VLMs. Los sesgos en los VLMs son tan fuertes que instruirlos para que verifiquen sus resultados o se basen exclusivamente en los detalles de la imagen para responder solo mejora la precisión del conteo en +2 puntos, en promedio. Nuestro trabajo presenta un modo de fallo interesante en los VLMs y un marco automatizado para probar los sesgos en estos modelos. El código y los datos están disponibles en: vlmsarebiased.github.io.
Un componente crítico en la confiabilidad de los LLM (Modelos de Lenguaje de Gran Escala) es la comunicación fiable de la incertidumbre, sin embargo, los LLM suelen utilizar un lenguaje asertivo al transmitir afirmaciones falsas, lo que lleva a una dependencia excesiva y a la erosión de la confianza. Presentamos el primer estudio sistemático sobre la calibración fiel de la confianza en los LLM, evaluando la capacidad de los modelos para utilizar expresiones lingüísticas de incertidumbre que reflejen fielmente su incertidumbre intrínseca, a través de una amplia gama de modelos, conjuntos de datos y estrategias de _prompting_. Nuestros resultados demuestran que los LLM fracasan en gran medida en esta tarea y que las intervenciones existentes son insuficientes: los enfoques estándar de _prompting_ ofrecen solo mejoras marginales, y las técnicas de calibración basadas en la factualidad existentes pueden incluso perjudicar la calibración fiel. Para abordar esta brecha crítica, introducimos MetaFaith, un novedoso enfoque de calibración basado en _prompting_ inspirado en la metacognición humana. Demostramos que MetaFaith mejora de manera robusta la calibración fiel en diversos modelos y dominios de tareas, permitiendo una mejora de hasta el 61% en la fidelidad y logrando una tasa de éxito del 83% sobre las generaciones originales, según la evaluación humana.
Los puntos de referencia de Text-to-Speech (TTS) a menudo no logran capturar qué tan bien los modelos manejan textos matizados y semánticamente complejos. Basándonos en EmergentTTS, presentamos EmergentTTS-Eval, un punto de referencia integral que cubre seis escenarios desafiantes de TTS: emociones, paralingüística, palabras extranjeras, complejidad sintáctica, pronunciación compleja (por ejemplo, URLs, fórmulas) y preguntas. Es crucial destacar que nuestro marco automatiza tanto la generación de casos de prueba como la evaluación, lo que hace que el punto de referencia sea fácilmente extensible. Partiendo de un pequeño conjunto de indicaciones escritas por humanos, las extendemos iterativamente utilizando LLMs para abordar desafíos específicos estructurales, fonéticos y prosódicos, resultando en 1,645 casos de prueba diversos. Además, empleamos un enfoque de modelo-como-juez, utilizando un Large Audio Language Model (LALM) para evaluar el habla en múltiples dimensiones, como la emoción expresada, la prosodia, la entonación y la precisión en la pronunciación. Evaluamos sistemas TTS de última generación, tanto de código abierto como propietarios, como 11Labs, Deepgram y el 4o-mini-TTS de OpenAI, en EmergentTTS-Eval, demostrando su capacidad para revelar diferencias de rendimiento detalladas. Los resultados muestran que el enfoque de modelo-como-juez ofrece una evaluación robusta de TTS y una alta correlación con las preferencias humanas. Hacemos público el código de evaluación en https://github.com/boson-ai/EmergentTTS-Eval-public y el conjunto de datos en https://huggingface.co/datasets/bosonai/EmergentTTS-Eval.
Recientemente, los métodos que aprovechan los priores de los modelos de difusión para asistir en la estimación geométrica monocular (por ejemplo, profundidad y normales) han ganado una atención significativa debido a su fuerte capacidad de generalización. Sin embargo, la mayoría de los trabajos existentes se centran en estimar propiedades geométricas dentro del sistema de coordenadas de la cámara de fotogramas individuales de video, descuidando la capacidad inherente de los modelos de difusión para determinar la correspondencia entre fotogramas. En este trabajo, demostramos que, mediante un diseño y ajuste adecuados, la consistencia intrínseca de los modelos de generación de video puede aprovecharse eficazmente para una estimación geométrica consistente. Específicamente, 1) seleccionamos atributos geométricos en el sistema de coordenadas global que comparten la misma correspondencia con los fotogramas de video como objetivos de predicción, 2) introducimos un método novedoso y eficiente de condicionamiento mediante la reutilización de codificaciones posicionales, y 3) mejoramos el rendimiento mediante el entrenamiento conjunto en múltiples atributos geométricos que comparten la misma correspondencia. Nuestros resultados logran un rendimiento superior en la predicción de atributos geométricos globales en videos y pueden aplicarse directamente a tareas de reconstrucción. Incluso cuando se entrena únicamente con datos de video estáticos, nuestro enfoque exhibe el potencial de generalizarse a escenas de video dinámicas.
El cómputo en tiempo de prueba ha potenciado a los modelos de lenguaje multimodal de gran escala para generar cadenas de razonamiento extendidas, logrando un rendimiento sólido en tareas como el razonamiento matemático multimodal. Sin embargo, esta mejora en la capacidad de razonamiento a menudo viene acompañada de un aumento en las alucinaciones: a medida que las generaciones se vuelven más largas, los modelos tienden a alejarse del contenido basado en imágenes y a depender más de los conocimientos previos del lenguaje. El análisis de atención muestra que las cadenas de razonamiento más largas reducen el enfoque en las entradas visuales, lo que contribuye a las alucinaciones. Para estudiar sistemáticamente este fenómeno, introducimos RH-AUC, una métrica que cuantifica cómo cambia la precisión perceptiva de un modelo con la longitud del razonamiento, permitiéndonos evaluar si el modelo preserva el anclaje visual durante el razonamiento. También lanzamos RH-Bench, un banco de pruebas diagnóstico que abarca una variedad de tareas multimodales, diseñado para evaluar el equilibrio entre la capacidad de razonamiento y las alucinaciones. Nuestro análisis revela que (i) los modelos más grandes suelen lograr un mejor equilibrio entre razonamiento y percepción, y (ii) este equilibrio está más influenciado por los tipos y dominios de los datos de entrenamiento que por su volumen total. Estos hallazgos subrayan la importancia de los marcos de evaluación que consideran conjuntamente tanto la calidad del razonamiento como la fidelidad perceptiva.
Generar texto multilingüe preciso con modelos de difusión ha sido un objetivo deseado durante mucho tiempo, pero sigue siendo un desafío. Los métodos recientes han logrado avances en la representación de texto en un solo idioma, pero la representación de idiomas arbitrarios sigue siendo un área inexplorada. Este artículo presenta EasyText, un marco de representación de texto basado en DiT (Diffusion Transformer), que conecta latentes de eliminación de ruido con tokens de caracteres multilingües codificados como tokens de caracteres. Proponemos técnicas de codificación de posicionamiento de caracteres e interpolación de codificación de posición para lograr una representación de texto controlable y precisa. Además, construimos un conjunto de datos sintéticos de imágenes de texto a gran escala con 1 millón de anotaciones de texto-imagen multilingüe, así como un conjunto de datos de alta calidad de 20,000 imágenes anotadas, que se utilizan para el preentrenamiento y el ajuste fino, respectivamente. Experimentos y evaluaciones exhaustivas demuestran la efectividad y el avance de nuestro enfoque en la representación de texto multilingüe, la calidad visual y la integración de texto consciente del diseño.
Demostramos que las operaciones de inferencia de varios modelos de lenguaje grandes (LLMs) de pesos abiertos pueden mapearse a un sistema lineal exactamente equivalente para una secuencia de entrada sin modificar los pesos del modelo o alterar las predicciones de salida. Extendiendo técnicas de modelos de difusión de imágenes que exhiben linealidad local o por partes, alteramos estratégicamente el cálculo del gradiente con respecto a una secuencia de entrada dada para una predicción del siguiente token, de modo que el Jacobiano del modelo reproduce casi exactamente la predicción hacia adelante con un sistema lineal. Demostramos este enfoque en varios modelos (Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral y OLMo 2, hasta Llama 3.3 70B Q4) y mostramos, a través de la descomposición en valores singulares del Jacobiano desacoplado, que estos LLMs operan en subespacios de dimensión extremadamente baja, donde muchos de los vectores singulares más grandes decodifican conceptos relacionados con el token de salida más probable. Este enfoque también nos permite examinar el funcionamiento de cada capa sucesiva (y sus componentes de atención y MLP) como sistemas lineales casi exactos y observar la emergencia de conceptos semánticos. A pesar de su poder expresivo y no linealidad global, los LLMs modernos pueden interpretarse a través de descomposiciones localmente lineales casi exactas que proporcionan información sobre sus representaciones internas y revelan estructuras semánticas interpretables en el proceso de predicción del siguiente token.
La decodificación especulativa (SD, por sus siglas en inglés) es un método prometedor para acelerar el proceso de decodificación de los Modelos de Lenguaje de Gran Escala (LLMs). La eficiencia de SD depende principalmente de la consistencia entre el modelo de borrador y el modelo de verificación. Sin embargo, los enfoques de borrador existentes generalmente requieren módulos adicionales que deben ser entrenados, lo que puede ser difícil de implementar y garantizar su compatibilidad en diversos LLMs. En este artículo, proponemos CLaSp, una estrategia de omisión de capas en contexto para la decodificación especulativa autónoma. A diferencia de métodos anteriores, CLaSp no requiere módulos de borrador adicionales ni entrenamiento extra. En su lugar, emplea un mecanismo plug-and-play al omitir capas intermedias del modelo de verificación para construir un modelo de borrador comprimido. Específicamente, desarrollamos un algoritmo de programación dinámica que optimiza el proceso de omisión de capas aprovechando los estados ocultos completos de la última etapa de verificación como objetivo. Esto permite que CLaSp ajuste dinámicamente su estrategia de omisión de capas después de cada etapa de verificación, sin depender de conjuntos preoptimizados de capas omitidas. Los resultados experimentales en diversas tareas posteriores demuestran que CLaSp logra una aceleración de 1.3x ~ 1.7x en los modelos de la serie LLaMA3 sin alterar la distribución original del texto generado.
Aunque el razonamiento en cadena de pensamiento y el aprendizaje por refuerzo (RL) han impulsado avances significativos en el procesamiento del lenguaje natural (NLP), su integración en modelos generativos de visión sigue siendo poco explorada. Presentamos ReasonGen-R1, un marco de trabajo de dos etapas que primero dota a un generador de imágenes autoregresivo de habilidades explícitas de "pensamiento" basadas en texto mediante un ajuste fino supervisado en un nuevo conjunto de datos de razonamiento que incluye justificaciones escritas, y luego refina sus salidas utilizando la Optimización de Política Relativa de Grupo (GRPO). Para permitir que el modelo razone a través del texto antes de generar imágenes, generamos automáticamente y publicamos un corpus de justificaciones elaboradas por el modelo, emparejadas con indicaciones visuales, lo que permite una planificación controlada de disposiciones de objetos, estilos y composiciones de escenas. Nuestro algoritmo GRPO utiliza señales de recompensa de un modelo de lenguaje visual preentrenado para evaluar la calidad visual general, optimizando la política en cada actualización. Las evaluaciones en GenEval, DPG y el benchmark T2I demuestran que ReasonGen-R1 supera consistentemente a los modelos de referencia sólidos y a los modelos de última generación anteriores. Más información: aka.ms/reasongen.
El objetivo de este trabajo es mejorar la comprensión multimodal equilibrada en modelos de lenguaje de gran escala audiovisuales (AV-LLMs, por sus siglas en inglés) abordando el sesgo de modalidad sin requerir entrenamiento adicional. En los AV-LLMs actuales, las características de audio y video generalmente se procesan conjuntamente en el decodificador. Si bien esta estrategia facilita una comprensión multimodal unificada, puede introducir un sesgo de modalidad, donde el modelo tiende a depender excesivamente de una modalidad debido a señales de entrenamiento desequilibradas. Para mitigar esto, proponemos Decodificación de Bifurcación-Fusión (FMD, por sus siglas en inglés), una estrategia simple pero efectiva en tiempo de inferencia que no requiere entrenamiento adicional ni modificaciones arquitectónicas. FMD primero realiza un razonamiento específico por modalidad procesando entradas de solo audio y solo video a través de las primeras capas del decodificador (fase de bifurcación), y luego fusiona los estados ocultos resultantes para un razonamiento conjunto en las capas restantes (fase de fusión). Este enfoque promueve contribuciones equilibradas de las modalidades y aprovecha la información complementaria entre ellas. Evaluamos nuestro método en dos AV-LLMs representativos, VideoLLaMA2 y video-SALMONN, utilizando tres conjuntos de datos de referencia. Los resultados experimentales demuestran mejoras consistentes en el rendimiento en tareas centradas en razonamiento de audio, video y combinado audiovisual, lo que evidencia la efectividad de las intervenciones en tiempo de inferencia para una comprensión multimodal robusta.
Los avances recientes en la destilación de modelos demuestran que los datos provenientes de modelos avanzados de razonamiento (por ejemplo, DeepSeek-R1, o1 de OpenAI) pueden transferir efectivamente habilidades de razonamiento complejo a modelos estudiantiles más pequeños y eficientes. Sin embargo, las prácticas estándar emplean muestreo por rechazo, descartando ejemplos de razonamiento incorrecto, que son datos valiosos pero a menudo subutilizados. Este artículo aborda la pregunta crítica: ¿Cómo se pueden aprovechar de manera efectiva tanto las trazas de razonamiento destiladas positivas como las negativas para maximizar el rendimiento de razonamiento de los LLM en un entorno fuera de línea? Con este fin, proponemos Destilación por Refuerzo (REDI), un marco de trabajo de dos etapas. La Etapa 1 aprende de las trazas positivas mediante Ajuste Fino Supervisado (SFT). La Etapa 2 refina aún más el modelo utilizando tanto trazas positivas como negativas a través de nuestro objetivo REDI propuesto. Este objetivo novedoso es una función de pérdida simple y sin referencia que supera a métodos establecidos como DPO y SimPO en este contexto de destilación. Nuestras evaluaciones empíricas demuestran la superioridad de REDI sobre las líneas base de SFT con muestreo por rechazo o SFT combinado con DPO/SimPO en tareas de razonamiento matemático. Notablemente, el modelo Qwen-REDI-1.5B, post-entrenado con solo 131k ejemplos positivos y negativos del conjunto de datos abierto Open-R1, alcanza un puntaje del 83.1% en MATH-500 (pass@1). Su rendimiento iguala o supera al de DeepSeek-R1-Distill-Qwen-1.5B (un modelo post-entrenado con 800k datos propietarios) en varios puntos de referencia de razonamiento matemático, estableciendo un nuevo estado del arte para modelos de 1.5B post-entrenados fuera de línea con datos disponibles públicamente.
Presentamos DexUMI, un marco de recopilación de datos y aprendizaje de políticas que utiliza la mano humana como interfaz natural para transferir habilidades de manipulación diestra a diversas manos robóticas. DexUMI incluye adaptaciones de hardware y software para minimizar la brecha de encarnación entre la mano humana y varias manos robóticas. La adaptación de hardware reduce la brecha cinemática mediante un exoesqueleto de mano portátil. Este permite retroalimentación háptica directa en la recopilación de datos de manipulación y adapta el movimiento humano a movimientos factibles de la mano robótica. La adaptación de software reduce la brecha visual al reemplazar la mano humana en los datos de video con una reconstrucción de alta fidelidad de la mano robótica. Demostramos las capacidades de DexUMI a través de experimentos exhaustivos en el mundo real en dos plataformas de hardware diferentes de manos robóticas diestras, logrando una tasa promedio de éxito en tareas del 86%.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han logrado un rendimiento notable en tareas complejas con contexto multimodal. Sin embargo, aún se desconoce si muestran preferencia de modalidad al procesar contextos multimodales. Para estudiar esta cuestión, primero construimos un punto de referencia MC\textsuperscript{2} bajo escenarios controlados de conflicto de evidencia, con el fin de evaluar sistemáticamente la preferencia de modalidad, que es la tendencia a favorecer una modalidad sobre otra al tomar decisiones basadas en evidencia multimodal conflictiva. Nuestra evaluación exhaustiva revela que los 18 MLLMs probados generalmente demuestran un sesgo de modalidad claro, y que la preferencia de modalidad puede verse influenciada por intervenciones externas. Un análisis en profundidad muestra que la dirección de la preferencia puede capturarse dentro de las representaciones latentes de los MLLMs. Basándonos en esto, proponemos un método de sondeo y direccionamiento basado en la ingeniería de representaciones para controlar explícitamente la preferencia de modalidad sin necesidad de ajustes adicionales o indicaciones cuidadosamente elaboradas. Nuestro método amplifica efectivamente la preferencia de modalidad hacia una dirección deseada y se aplica a tareas posteriores, como la mitigación de alucinaciones y la traducción automática multimodal, obteniendo mejoras prometedoras.
Los Agentes de Lenguaje Basados en Roles (RPLAs, por sus siglas en inglés) tienen como objetivo simular personajes para interacciones humano-computadora realistas y atractivas. Sin embargo, los modelos de recompensa tradicionales a menudo enfrentan dificultades en cuanto a escalabilidad y adaptación a preferencias conversacionales subjetivas. Proponemos ChARM, un Modelo de Recompensa Adaptativo Basado en Actos de Personajes, que aborda estos desafíos a través de dos innovaciones: (1) un margen adaptativo a los actos que mejora significativamente la eficiencia de aprendizaje y la generalización, y (2) un mecanismo de auto-evolución que aprovecha datos no etiquetados a gran escala para mejorar la cobertura del entrenamiento. Además, presentamos RoleplayPref, el primer conjunto de datos de preferencias a gran escala específicamente diseñado para RPLAs, que incluye 1,108 personajes, 13 subcategorías y 16,888 diálogos bilingües, junto con RoleplayEval, un punto de referencia de evaluación dedicado. Los resultados experimentales muestran una mejora del 13% sobre el modelo convencional de Bradley-Terry en la clasificación de preferencias. Además, la aplicación de recompensas generadas por ChARM a técnicas de aprendizaje de preferencias (por ejemplo, optimización directa de preferencias) logra resultados de vanguardia en CharacterEval y RoleplayEval. El código y el conjunto de datos están disponibles en https://github.com/calubkk/ChARM.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) demuestran una capacidad notable para adoptar personajes y participar en juegos de roles. Sin embargo, evaluar esta habilidad presenta desafíos significativos, ya que las evaluaciones humanas requieren muchos recursos y las evaluaciones automatizadas pueden estar sesgadas. Para abordar esto, presentamos Role-Playing Eval (RPEval), un nuevo punto de referencia diseñado para evaluar las capacidades de los LLMs en juegos de roles a través de cuatro dimensiones clave: comprensión emocional, toma de decisiones, alineación moral y consistencia en el personaje. Este artículo detalla la construcción de RPEval y presenta evaluaciones de referencia. Nuestro código y conjunto de datos están disponibles en https://github.com/yelboudouri/RPEval.
Si bien las leyes de escalado han transformado el procesamiento del lenguaje natural y la visión por computadora, la comprensión de nubes de puntos 3D aún no ha alcanzado esa etapa. Esto puede atribuirse tanto a la escala comparativamente menor de los conjuntos de datos 3D como a las fuentes dispares de los propios datos. Las nubes de puntos son capturadas por diversos sensores (por ejemplo, cámaras de profundidad, LiDAR) en distintos dominios (por ejemplo, interiores, exteriores), cada uno introduciendo patrones de escaneo únicos, densidades de muestreo y sesgos semánticos. Tal heterogeneidad de dominios representa una barrera importante para entrenar modelos unificados a gran escala, especialmente bajo la restricción realista de que las etiquetas de dominio suelen ser inaccesibles en el momento de la inferencia. En este trabajo, proponemos Point-MoE, una arquitectura de Mezcla de Expertos diseñada para permitir la generalización a gran escala y entre dominios en la percepción 3D. Mostramos que los modelos estándar de nubes de puntos degradan significativamente su rendimiento cuando se entrenan con datos de dominios mixtos, mientras que Point-MoE con una simple estrategia de enrutamiento top-k puede especializar automáticamente a los expertos, incluso sin acceso a las etiquetas de dominio. Nuestros experimentos demuestran que Point-MoE no solo supera a las líneas base multi-dominio sólidas, sino que también generaliza mejor a dominios no vistos. Este trabajo destaca un camino escalable hacia adelante para la comprensión 3D: permitir que el modelo descubra la estructura en datos 3D diversos, en lugar de imponerla mediante curación manual o supervisión de dominio.
Los recientes avances en la optimización en tiempo de prueba han llevado a capacidades de razonamiento notables en los Modelos de Lenguaje de Gran Escala (LLMs), permitiéndoles resolver problemas altamente complejos en matemáticas y programación. Sin embargo, las capacidades de razonamiento de los LLMs multimodales (MLLMs) aún están significativamente rezagadas, especialmente para tareas complejas de video y lenguaje. Para abordar este problema, presentamos SiLVR, un marco Simple de Razonamiento en Video basado en Lenguaje que descompone la comprensión compleja de video en dos etapas. En la primera etapa, SiLVR transforma el video crudo en representaciones basadas en lenguaje utilizando entradas multisensoriales, como subtítulos de clips cortos y subtítulos de audio/habla. En la segunda etapa, las descripciones en lenguaje se alimentan a un potente LLM de razonamiento para resolver tareas complejas de comprensión de video y lenguaje. Para manejar entradas multisensoriales de contexto largo, utilizamos un esquema de reducción adaptativa de tokens, que determina dinámicamente la granularidad temporal con la que se muestrean los tokens. Nuestro marco simple, modular y sin entrenamiento para el razonamiento en video logra los mejores resultados reportados en Video-MME (largo), Video-MMMU (comprensión), Video-MMLU, CGBench y EgoLife. Además, nuestro estudio empírico centrado en las capacidades de razonamiento en video muestra que, a pesar de no estar explícitamente entrenados en video, los LLMs fuertes de razonamiento pueden agregar efectivamente información de entrada multisensorial de video, habla y audio para tareas complejas de razonamiento temporal, causal, de contexto largo y de adquisición de conocimiento en video. El código está disponible en https://github.com/CeeZh/SILVR.
En una era de crecimiento científico exponencial, identificar ideas de investigación novedosas es crucial y desafiante en el ámbito académico. A pesar de su potencial, la falta de un conjunto de datos de referencia adecuado dificulta la investigación en detección de novedad. Más importante aún, simplemente adoptar tecnologías existentes de procesamiento del lenguaje natural (PLN), como la recuperación y posterior verificación cruzada, no es una solución universal debido a la brecha entre la similitud textual y la concepción de ideas. En este artículo, proponemos aprovechar los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para la detección de novedad científica (ND, por sus siglas en inglés), asociada con dos nuevos conjuntos de datos en los dominios de marketing y PLN. Para construir conjuntos de datos considerados para ND, proponemos extraer conjuntos de cierre de artículos basados en su relación y luego resumir sus ideas principales utilizando LLMs. Para capturar la concepción de ideas, proponemos entrenar un recuperador ligero mediante la destilación del conocimiento a nivel de ideas de los LLMs, alineando ideas con concepciones similares, lo que permite una recuperación de ideas eficiente y precisa para la detección de novedad con LLMs. Los experimentos muestran que nuestro método supera consistentemente a otros en los conjuntos de datos de referencia propuestos para las tareas de recuperación de ideas y ND. Los códigos y datos están disponibles en https://anonymous.4open.science/r/NoveltyDetection-10FB/.
El preentrenamiento de lenguaje-imagen contrastivo (CLIP, por sus siglas en inglés) se ha convertido en un modelo fundamental y ha sido aplicado a diversas tareas de visión y multimodales. Sin embargo, trabajos recientes indican que CLIP tiene dificultades para distinguir diferencias detalladas en las imágenes y muestra un rendimiento subóptimo en tareas de predicción densa y multimodales centradas en la visión. Por lo tanto, este trabajo se enfoca en mejorar los modelos CLIP existentes, con el objetivo de capturar tantos detalles visuales en las imágenes como sea posible. Descubrimos que un tipo específico de modelos generativos, unCLIP, proporciona un marco adecuado para alcanzar nuestro objetivo. En concreto, unCLIP entrena un generador de imágenes condicionado en la incrustación de imágenes de CLIP. En otras palabras, invierte el codificador de imágenes de CLIP. En comparación con los modelos discriminativos como CLIP, los modelos generativos son mejores para capturar detalles de las imágenes porque están entrenados para aprender la distribución de datos de las imágenes. Además, el espacio de entrada condicional de unCLIP se alinea con el espacio original de incrustación texto-imagen de CLIP. Por lo tanto, proponemos invertir unCLIP (denominado un^2CLIP) para mejorar el modelo CLIP. De esta manera, el codificador de imágenes mejorado puede adquirir la capacidad de captura de detalles visuales de unCLIP mientras mantiene su alineación con el codificador de texto original simultáneamente. Evaluamos nuestro CLIP mejorado en diversas tareas en las que se ha aplicado CLIP, incluyendo el desafiante benchmark MMVP-VLM, la tarea de segmentación de vocabulario abierto de predicción densa y las tareas de modelos de lenguaje multimodal de gran escala. Los experimentos muestran que un^2CLIP mejora significativamente el CLIP original y los métodos previos de mejora de CLIP. El código y los modelos estarán disponibles en https://github.com/LiYinqi/un2CLIP.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) como GPT-4o pueden manejar una amplia gama de tareas complejas con el estímulo adecuado. A medida que se reducen los costos por token, las ventajas de ajustar finamente Modelos de Lenguaje Pequeños (SLMs, por sus siglas en inglés) para aplicaciones del mundo real —inferencia más rápida, costos más bajos— pueden dejar de ser evidentes. En este trabajo, presentamos evidencia de que, para tareas específicas de un dominio que requieren salidas estructuradas, los SLMs aún mantienen una ventaja en calidad. Comparamos el ajuste fino de un SLM con el estímulo de LLMs en la tarea de generar flujos de trabajo de bajo código en formato JSON. Observamos que, aunque un buen estímulo puede producir resultados razonables, el ajuste fino mejora la calidad en un 10% en promedio. También realizamos un análisis sistemático de errores para revelar las limitaciones del modelo.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mostrado un potencial notable, pero siguen siendo difíciles de mejorar continuamente mediante el ajuste fino tradicional, especialmente al integrar capacidades de otros LLMs especializados. Métodos populares como el ensamblaje y la fusión de pesos requieren una memoria sustancial y luchan por adaptarse a entornos de datos cambiantes. Esfuerzos recientes han transferido conocimiento de múltiples LLMs a un único modelo objetivo; sin embargo, sufren de interferencia y degradación del rendimiento entre tareas, en gran parte debido a la flexibilidad limitada en la selección de candidatos y los flujos de entrenamiento. Para abordar estos problemas, proponemos un marco que selecciona y agrega conocimiento de manera adaptativa desde diversos LLMs para construir un único modelo más fuerte, evitando la alta sobrecarga de memoria del ensamblaje y la inflexible fusión de pesos. Específicamente, diseñamos una red de selección adaptativa que identifica los LLMs fuente más relevantes en función de sus puntuaciones, reduciendo así la interferencia del conocimiento. Además, proponemos una estrategia de fusión ponderada dinámica que considera las fortalezas inherentes de los LLMs candidatos, junto con una función de pérdida impulsada por retroalimentación que evita que el selector converja en un único subconjunto de fuentes. Los resultados experimentales demuestran que nuestro método permite un proceso de agregación de conocimiento más estable y escalable, reduciendo la interferencia del conocimiento hasta en un 50% en comparación con enfoques existentes. El código está disponible en https://github.com/ZLKong/LLM_Integration.
El papel de las unidades ocultas en las redes neuronales recurrentes se suele interpretar como la modelización de la memoria, con investigaciones centradas en mejorar la retención de información mediante mecanismos de compuerta. Una perspectiva menos explorada considera a las unidades ocultas como participantes activos en el cálculo realizado por la red, en lugar de almacenes de memoria pasivos. En este trabajo, revisitamos las operaciones bilineales, que implican interacciones multiplicativas entre las unidades ocultas y los embeddings de entrada. Demostramos teórica y empíricamente que estas operaciones constituyen un sesgo inductivo natural para representar la evolución de los estados ocultos en tareas de seguimiento de estados. Estas son el tipo más simple de tareas que requieren que las unidades ocultas contribuyan activamente al comportamiento de la red. También mostramos que las actualizaciones de estado bilineales forman una jerarquía natural que corresponde a tareas de seguimiento de estados de complejidad creciente, con redes recurrentes lineales populares como Mamba situadas en el centro de menor complejidad de dicha jerarquía.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) destacan en diversas tareas de procesamiento del lenguaje natural, pero siguen siendo vulnerables a la generación de contenido dañino o a ser explotados con fines maliciosos. Aunque se han introducido conjuntos de datos de alineación de seguridad para mitigar estos riesgos mediante ajuste fino supervisado (SFT, por sus siglas en inglés), estos conjuntos de datos a menudo carecen de una cobertura integral de riesgos. La mayoría de los conjuntos de datos existentes se centran principalmente en la diversidad léxica, descuidando otras dimensiones críticas. Para abordar esta limitación, proponemos un marco de análisis novedoso para medir sistemáticamente la cobertura de riesgos de los conjuntos de datos de alineación en tres dimensiones esenciales: Diversidad Léxica, Intención Maliciosa y Tácticas de Jailbreak. Además, presentamos TRIDENT, una canalización automatizada que aprovecha la generación basada en personajes y de cero disparos (zero-shot) de LLMs para producir instrucciones diversas y completas que abarcan estas dimensiones. Cada instrucción dañina se empareja con una respuesta éticamente alineada, lo que resulta en dos conjuntos de datos: TRIDENT-Core, que comprende 26,311 ejemplos, y TRIDENT-Edge, con 18,773 ejemplos. El ajuste fino de Llama 3.1-8B en TRIDENT-Edge demuestra mejoras sustanciales, logrando una reducción promedio del 14.29% en la Puntuación de Daño y una disminución del 20% en la Tasa de Éxito de Ataque en comparación con el modelo de referencia de mejor rendimiento ajustado en el conjunto de datos WildBreak.
La similitud semántica textual (STS, por sus siglas en inglés) es una tarea fundamental en el procesamiento del lenguaje natural (PLN), que permite aplicaciones en recuperación de información, agrupamiento y comprensión de relaciones semánticas entre textos. Sin embargo, la investigación en este ámbito para el idioma árabe sigue siendo limitada debido a la falta de conjuntos de datos de alta calidad y modelos preentrenados. Esta escasez de recursos ha restringido la evaluación precisa y el avance de la similitud semántica en textos árabes. Este artículo presenta los modelos General Arabic Text Embedding (GATE), que logran un rendimiento de vanguardia en la tarea de Similitud Semántica Textual dentro del benchmark MTEB. GATE aprovecha el aprendizaje de representaciones Matryoshka y un enfoque de entrenamiento con pérdida híbrida utilizando conjuntos de datos de tripletas en árabe para Inferencia en Lenguaje Natural, elementos esenciales para mejorar el rendimiento del modelo en tareas que requieren una comprensión semántica detallada. GATE supera a modelos más grandes, incluidos los de OpenAI, con una mejora del 20-25% en los benchmarks de STS, capturando eficazmente los matices semánticos únicos del árabe.
Los modelos de lenguaje de gran escala (LLMs) muestran un notable potencial para democratizar el razonamiento automatizado mediante la generación de especificaciones formales. Sin embargo, existe una tensión fundamental: los LLMs son probabilísticos, mientras que la verificación formal exige garantías deterministas. Este artículo aborda esta brecha epistemológica mediante una investigación exhaustiva de los modos de fallo y la cuantificación de incertidumbre (UQ) en los artefactos formales generados por LLMs. Nuestra evaluación sistemática de cinco LLMs de vanguardia revela el impacto específico del dominio en la precisión de la autoformalización basada en Teorías de Satisfacción Modular (SMT) (desde +34,8% en tareas lógicas hasta -44,5% en tareas factuales), con técnicas conocidas de UQ, como la entropía de las probabilidades de tokens, que no logran identificar estos errores. Introducimos un marco de gramática libre de contexto probabilística (PCFG) para modelar las salidas de los LLMs, obteniendo una taxonomía refinada de la incertidumbre. Encontramos que las señales de incertidumbre dependen de la tarea (por ejemplo, entropía gramatical para lógica, AUROC>0,93). Finalmente, una fusión ligera de estas señales permite una verificación selectiva, reduciendo drásticamente los errores (14-100%) con una mínima abstención, transformando la formalización impulsada por LLMs en una disciplina de ingeniería confiable.
Los agentes de IA se utilizan cada vez más en aplicaciones orientadas al consumidor para ayudar en tareas como la búsqueda de productos, la negociación y la ejecución de transacciones. En este artículo, exploramos un escenario futuro en el que tanto los consumidores como los comerciantes autorizan a los agentes de IA para automatizar completamente las negociaciones y las transacciones. Nuestro objetivo es responder dos preguntas clave: (1) ¿Varían los diferentes agentes de LLM en su capacidad para obtener acuerdos favorables para los usuarios? (2) ¿Qué riesgos surgen al automatizar completamente la realización de acuerdos con agentes de IA en los mercados de consumo? Para abordar estas preguntas, desarrollamos un marco experimental que evalúa el rendimiento de varios agentes de LLM en entornos de negociación y transacción del mundo real. Nuestros hallazgos revelan que la realización de acuerdos mediada por IA es un juego inherentemente desequilibrado: diferentes agentes logran resultados significativamente distintos para sus usuarios. Además, las anomalías conductuales en los LLM pueden resultar en pérdidas financieras tanto para consumidores como para comerciantes, como gastos excesivos o la aceptación de acuerdos irrazonables. Estos resultados subrayan que, si bien la automatización puede mejorar la eficiencia, también introduce riesgos sustanciales. Los usuarios deben ejercer precaución al delegar decisiones comerciales a agentes de IA.
Las capacidades emergentes de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han generado preocupación sobre su potencial inmediato para un uso dañino. El enfoque principal para mitigar estas preocupaciones es la detección de consultas perjudiciales dirigidas al modelo. Los enfoques de detección actuales son falibles y son particularmente susceptibles a ataques que explotan una generalización desajustada de las capacidades del modelo (por ejemplo, instrucciones en idiomas de bajos recursos o instrucciones proporcionadas en modalidades no textuales como imágenes y audio). Para abordar este desafío, proponemos OMNIGUARD, un enfoque para detectar instrucciones dañinas en múltiples idiomas y modalidades. Nuestro enfoque (i) identifica representaciones internas de un LLM/MLLM que están alineadas entre idiomas o modalidades y luego (ii) las utiliza para construir un clasificador independiente del idioma o la modalidad para detectar instrucciones dañinas. OMNIGUARD mejora la precisión en la clasificación de instrucciones dañinas en un 11,57\% sobre el mejor punto de referencia en un entorno multilingüe, en un 20,44\% para instrucciones basadas en imágenes y establece un nuevo estado del arte (SOTA) para instrucciones basadas en audio. Al reutilizar incrustaciones calculadas durante la generación, OMNIGUARD también es muy eficiente (aproximadamente 120 veces más rápido que el siguiente punto de referencia más rápido). El código y los datos están disponibles en: https://github.com/vsahil/OmniGuard.
La Recuperación de Casos Legales (LCR, por sus siglas en inglés), que consiste en recuperar casos relevantes a partir de un caso consultado, es una tarea fundamental para los profesionales del derecho en la investigación y la toma de decisiones. Sin embargo, los estudios existentes sobre LCR enfrentan dos limitaciones principales. En primer lugar, se evalúan en corpus de recuperación relativamente pequeños (por ejemplo, de 100 a 55K casos) y utilizan un rango limitado de tipos de consultas penales, lo que no refleja adecuadamente la complejidad de los escenarios reales de recuperación legal. En segundo lugar, su dependencia de métodos basados en incrustaciones o coincidencias léxicas a menudo resulta en representaciones limitadas y coincidencias legalmente irrelevantes. Para abordar estos problemas, presentamos: (1) LEGAR BENCH, el primer benchmark coreano de LCR a gran escala, que cubre 411 tipos de delitos diversos en consultas sobre 1.2 millones de casos legales; y (2) LegalSearchLM, un modelo de recuperación que realiza razonamiento sobre los elementos legales del caso consultado y genera contenido directamente fundamentado en los casos objetivo mediante decodificación restringida. Los resultados experimentales muestran que LegalSearchLM supera a los modelos de referencia en un 6-20% en LEGAR BENCH, logrando un rendimiento de vanguardia. También demuestra una fuerte generalización a casos fuera del dominio, superando a los modelos generativos simples entrenados con datos del dominio en un 15%.
Una limitación de los métodos modernos de incrustación para la recuperación de documentos es que, por lo general, codifican pasajes (fragmentos) de los mismos documentos de manera independiente, pasando por alto con frecuencia información contextual crucial del resto del documento que podría mejorar significativamente las representaciones individuales de los fragmentos. En este trabajo, presentamos ConTEB (Context-aware Text Embedding Benchmark), un punto de referencia diseñado para evaluar modelos de recuperación en su capacidad para aprovechar el contexto a nivel de documento. Nuestros resultados muestran que los modelos de incrustación más avanzados tienen dificultades en escenarios de recuperación donde se requiere contexto. Para abordar esta limitación, proponemos InSeNT (In-sequence Negative Training), un enfoque novedoso de post-entrenamiento contrastivo que, combinado con la agrupación tardía de fragmentos, mejora el aprendizaje de representaciones contextuales mientras preserva la eficiencia computacional. Nuestro método mejora significativamente la calidad de la recuperación en ConTEB sin sacrificar el rendimiento del modelo base. Además, encontramos que los fragmentos incrustados con nuestro método son más robustos frente a estrategias de fragmentación subóptimas y tamaños de corpus de recuperación más grandes. Hemos puesto a disposición todos los recursos en https://github.com/illuin-tech/contextual-embeddings.
Este artículo presenta un análisis exhaustivo de la diversidad lingüística en la investigación sobre seguridad de los modelos de lenguaje grandes (LLM), destacando la naturaleza anglocéntrica del campo. Mediante una revisión sistemática de casi 300 publicaciones entre 2020 y 2024 en las principales conferencias y talleres de PLN en *ACL, identificamos una brecha lingüística significativa y creciente en la investigación sobre seguridad de los LLM, donde incluso los idiomas no ingleses de alto recurso reciben una atención mínima. Además, observamos que los idiomas no ingleses rara vez se estudian como lenguas independientes y que la investigación sobre seguridad en inglés presenta prácticas deficientes de documentación lingüística. Para motivar futuras investigaciones en seguridad multilingüe, ofrecemos varias recomendaciones basadas en nuestro estudio y planteamos tres direcciones futuras concretas sobre evaluación de seguridad, generación de datos de entrenamiento y generalización de seguridad entre idiomas. A partir de nuestro análisis y las propuestas presentadas, el campo puede desarrollar prácticas de seguridad en IA más robustas e inclusivas para diversas poblaciones globales.