Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje (LM) post-entrenados con aprendizaje por refuerzo (RL) pueden mejorar sus capacidades de razonamiento complejo sin necesidad de ajuste supervisado, como lo ha demostrado DeepSeek-R1-Zero. Sin embargo, utilizar eficazmente RL para LM requiere una paralelización significativa para escalar la inferencia, lo que introduce desafíos técnicos no triviales (por ejemplo, latencia, memoria y fiabilidad) junto con costos financieros cada vez mayores. Presentamos Swarm sAmpling Policy Optimization (SAPO), un algoritmo de post-entrenamiento con RL completamente descentralizado y asíncrono. SAPO está diseñado para redes descentralizadas de nodos de computación heterogéneos, donde cada nodo gestiona sus propios modelos de política mientras "comparte" trayectorias con otros en la red; no se requieren suposiciones explícitas sobre latencia, homogeneidad de modelos o hardware, y los nodos pueden operar de manera aislada si se desea. Como resultado, el algoritmo evita los cuellos de botella comunes al escalar el post-entrenamiento con RL, al mismo tiempo que permite (e incluso fomenta) nuevas posibilidades. Al muestrear trayectorias "compartidas" en la red, permite que los "momentos de revelación" se propaguen, impulsando así el proceso de aprendizaje. En este artículo mostramos que SAPO logró ganancias acumuladas de recompensa de hasta un 94% en experimentos controlados. También compartimos insights de pruebas en una red con miles de nodos aportados por miembros de la comunidad Gensyn, quienes ejecutaron el algoritmo en hardware y modelos diversos durante una demostración de código abierto.
El pensamiento paralelo ha surgido como un enfoque novedoso para mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) al explorar múltiples rutas de razonamiento de manera concurrente. Sin embargo, activar tales capacidades mediante entrenamiento sigue siendo un desafío, ya que los métodos existentes dependen predominantemente del ajuste fino supervisado (SFT, por sus siglas en inglés) sobre datos sintéticos, lo que fomenta la imitación forzada por el profesor en lugar de la exploración y la generalización. A diferencia de ellos, proponemos Parallel-R1, el primer marco de aprendizaje por refuerzo (RL, por sus siglas en inglés) que permite comportamientos de pensamiento paralelo para tareas de razonamiento complejas del mundo real. Nuestro marco emplea un currículo progresivo que aborda explícitamente el problema del arranque en frío en el entrenamiento del pensamiento paralelo con RL. Primero utilizamos SFT sobre trayectorias generadas por indicaciones de tareas más sencillas para inculcar la capacidad de pensamiento paralelo, luego pasamos a RL para explorar y generalizar esta habilidad en problemas más difíciles. Los experimentos en varios puntos de referencia matemáticos, como MATH, AMC23 y AIME, muestran que Parallel-R1 logra inculcar el pensamiento paralelo, lo que resulta en una mejora del 8.4% en precisión sobre el modelo de pensamiento secuencial entrenado directamente en tareas desafiantes con RL. Un análisis adicional revela un cambio claro en el comportamiento de pensamiento del modelo: en una etapa temprana, utiliza el pensamiento paralelo como una estrategia de exploración, mientras que en una etapa posterior, utiliza la misma capacidad para la verificación multiperspectiva. Lo más significativo es que validamos el pensamiento paralelo como un andamio de exploración a mitad del entrenamiento, donde esta fase exploratoria temporal desbloquea un límite de rendimiento más alto después de RL, lo que produce una mejora del 42.9% sobre la línea base en AIME25. Nuestro modelo, datos y código serán de código abierto en https://github.com/zhengkid/Parallel-R1.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) entrenados con ajuste visual mediante instrucciones han logrado un rendimiento sólido en diversas tareas, pero siguen siendo limitados en tareas centradas en la visión, como el conteo de objetos o el razonamiento espacial. Atribuimos esta brecha al paradigma predominante de supervisión basada únicamente en texto, que proporciona solo una guía indirecta para la vía visual y a menudo lleva a los MLLMs a descartar detalles visuales finos durante el entrenamiento. En este artículo, presentamos VIsual Representation ALignment (VIRAL), una estrategia de regularización simple pero efectiva que alinea las representaciones visuales internas de los MLLMs con las de modelos fundamentales de visión preentrenados (VFMs, por sus siglas en inglés). Al imponer explícitamente esta alineación, VIRAL permite al modelo no solo retener detalles visuales críticos del codificador visual de entrada, sino también complementar conocimientos visuales adicionales de los VFMs, mejorando así su capacidad para razonar sobre entradas visuales complejas. Nuestros experimentos demuestran mejoras consistentes en todas las tareas de los puntos de referencia multimodales ampliamente adoptados. Además, realizamos estudios de ablación exhaustivos para validar las decisiones clave de diseño subyacentes en nuestro marco. Creemos que este hallazgo simple abre una dirección importante para la integración efectiva de información visual en el entrenamiento de MLLMs.
Los avances recientes en modelos multimodales de gran escala han aprovechado herramientas basadas en imágenes con aprendizaje por refuerzo para abordar problemas visuales. Sin embargo, los enfoques de código abierto existentes suelen exhibir patrones de razonamiento monótonos y permiten solo un número limitado de interacciones, lo que los hace inadecuados para tareas difíciles que requieren exploración por ensayo y error. En este trabajo, abordamos esta limitación escalando las interacciones basadas en herramientas e introducimos Mini-o3, un sistema que ejecuta un razonamiento profundo y de múltiples turnos —abarcando decenas de pasos— y logra un rendimiento de vanguardia en tareas desafiantes de búsqueda visual. Nuestra receta para reproducir comportamientos al estilo OpenAI o3 consta de tres componentes clave. Primero, construimos el Conjunto de Datos de Sonda Visual, una colección de miles de problemas desafiantes de búsqueda visual diseñados para el razonamiento exploratorio. Segundo, desarrollamos una canalización de recopilación de datos iterativa para obtener trayectorias de inicio en frío que exhiben patrones de razonamiento diversos, incluyendo búsqueda en profundidad, ensayo y error, y mantenimiento de objetivos. Tercero, proponemos una estrategia de enmascaramiento de turnos excedentes que evita la penalización de respuestas que superan el número máximo de turnos durante el aprendizaje por refuerzo, equilibrando así la eficiencia en el entrenamiento con la escalabilidad en la prueba. A pesar de entrenarse con un límite superior de solo seis turnos de interacción, nuestro modelo genera trayectorias que escalan naturalmente a decenas de turnos en tiempo de inferencia, con una precisión que mejora a medida que aumenta el número de turnos. Experimentos extensivos demuestran que Mini-o3 produce patrones de razonamiento ricos y caminos de pensamiento profundos, resolviendo efectivamente problemas desafiantes de búsqueda visual.
Los modelos multimodales unificados (UMMs, por sus siglas en inglés) integran la comprensión y generación visual dentro de una única arquitectura. Sin embargo, el entrenamiento convencional depende de pares (o secuencias) de imagen-texto cuyas descripciones suelen ser escasas y carecen de detalles visuales específicos, incluso cuando utilizan cientos de palabras para describir una imagen simple. Introducimos Alineación por Reconstrucción (RecA), un método eficiente en recursos para el posentrenamiento que aprovecha los embeddings de un codificador de comprensión visual como "indicadores de texto" densos, proporcionando una supervisión rica sin necesidad de descripciones. Concretamente, RecA condiciona un UMM sobre sus propios embeddings de comprensión visual y lo optimiza para reconstruir la imagen de entrada mediante una pérdida de reconstrucción auto-supervisada, realineando así la comprensión y la generación. A pesar de su simplicidad, RecA es ampliamente aplicable: en UMMs basados en autoregresión, autoregresión enmascarada y difusión, mejora consistentemente la fidelidad de generación y edición. Con solo 27 horas de GPU, el posentrenamiento con RecA mejora sustancialmente el rendimiento en generación de imágenes en GenEval (0.73→0.90) y DPGBench (80.93→88.15), mientras que también impulsa los benchmarks de edición (ImgEdit 3.38→3.75, GEdit 6.94→7.25). Notablemente, RecA supera a modelos de código abierto mucho más grandes y se aplica ampliamente en diversas arquitecturas de UMMs, estableciéndose como una estrategia eficiente y general de alineación posentrenamiento para UMMs.
Los recientes avances en personalización de imágenes muestran un amplio espectro de perspectivas de aplicación debido a capacidades de personalización más robustas. Sin embargo, dado que los humanos somos más sensibles a los rostros, sigue existiendo un desafío significativo en preservar una identidad consistente mientras se evita la confusión de identidad con imágenes de múltiples referencias, lo que limita la escalabilidad de identidad en los modelos de personalización. Para abordar esto, presentamos UMO, un marco de Optimización Unificada de Multi-identidades, diseñado para mantener una preservación de identidad de alta fidelidad y mitigar la confusión de identidad con escalabilidad. Con el paradigma de "emparejamiento múltiple a múltiple", UMO reformula la generación de multi-identidades como un problema de optimización de asignación global y libera la consistencia de multi-identidades para los métodos existentes de personalización de imágenes, generalmente mediante aprendizaje por refuerzo en modelos de difusión. Para facilitar el entrenamiento de UMO, desarrollamos un conjunto de datos de personalización escalable con imágenes de múltiples referencias, que consta de partes sintetizadas y reales. Además, proponemos una nueva métrica para medir la confusión de identidad. Experimentos extensos demuestran que UMO no solo mejora significativamente la consistencia de identidad, sino que también reduce la confusión de identidad en varios métodos de personalización de imágenes, estableciendo un nuevo estado del arte entre los métodos de código abierto en la dimensión de preservación de identidad. Código y modelo: https://github.com/bytedance/UMO
La ejecución de tareas condicionadas por lenguaje en entornos visuales dinámicos sigue siendo un desafío central en la inteligencia artificial encarnada. Los modelos existentes de Visión-Lenguaje-Acción (VLA) adoptan predominantemente mapeos reactivos de estado a acción, lo que a menudo conduce a comportamientos miopes y una baja robustez en escenas dinámicas. En este artículo, presentamos F1, un marco VLA preentrenado que integra la generación de previsión visual en la pipeline de toma de decisiones. F1 adopta una arquitectura Mixture-of-Transformer con módulos dedicados para percepción, generación de previsión y control, conectando así la comprensión, la generación y las acciones. En su núcleo, F1 emplea un mecanismo de predicción a escala siguiente para sintetizar previsión visual condicionada por objetivos como metas de planificación explícitas. Al pronosticar estados visuales futuros plausibles, F1 reformula la generación de acciones como un problema de dinámica inversa guiada por previsión, permitiendo acciones que logran implícitamente objetivos visuales. Para dotar a F1 de capacidades robustas y generalizables, proponemos una receta de entrenamiento en tres etapas en un extenso conjunto de datos que comprende más de 330k trayectorias en 136 tareas diversas. Este esquema de entrenamiento mejora el razonamiento modular y equipa al modelo con previsión visual transferible, lo cual es crítico para entornos complejos y dinámicos. Evaluaciones exhaustivas en tareas del mundo real y benchmarks de simulación demuestran que F1 supera consistentemente los enfoques existentes, logrando mejoras sustanciales tanto en la tasa de éxito de las tareas como en la capacidad de generalización.
El Aprendizaje por Refuerzo (RL, por sus siglas en inglés) ha demostrado ser altamente efectivo para mejorar las capacidades de razonamiento complejo de los Modelos de Lenguaje a Gran Escala (LLMs), aunque los mecanismos subyacentes que impulsan este éxito siguen siendo en gran medida opacos. Nuestro análisis revela que fenómenos desconcertantes como los "momentos de revelación", el "escalado por longitud" y la dinámica de la entropía no son ocurrencias aisladas, sino características distintivas de una jerarquía de razonamiento emergente, similar a la separación entre la planificación estratégica de alto nivel y la ejecución procedimental de bajo nivel en la cognición humana. Descubrimos una dinámica convincente en dos fases: inicialmente, un modelo está limitado por la corrección procedimental y debe mejorar sus habilidades de bajo nivel. Luego, el cuello de botella del aprendizaje cambia decisivamente, y las mejoras en el rendimiento son impulsadas por la exploración y el dominio de la planificación estratégica de alto nivel. Esta percepción expone una ineficiencia central en los algoritmos de RL predominantes, como GRPO, que aplican presión de optimización de manera agnóstica y diluyen la señal de aprendizaje en todos los tokens. Para abordar esto, proponemos HIerarchy-Aware Credit Assignment (HICRA), un algoritmo que concentra los esfuerzos de optimización en los tokens de planificación de alto impacto. HICRA supera significativamente a los baselines fuertes, demostrando que enfocarse en este cuello de botella estratégico es clave para desbloquear un razonamiento avanzado. Además, validamos la entropía semántica como una brújula superior para medir la exploración estratégica, en comparación con métricas engañosas como la entropía a nivel de token.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han avanzado rápidamente en los últimos años, impulsados por la escalabilidad, la abundancia de datos de entrenamiento de alta calidad y el aprendizaje por refuerzo. Sin embargo, este progreso enfrenta un cuello de botella fundamental: la necesidad de obtener cada vez más datos a partir de los cuales los modelos puedan seguir aprendiendo. En este trabajo, proponemos un enfoque de aprendizaje por refuerzo que elimina esta dependencia al permitir que los modelos mejoren sin necesidad de datos adicionales. Nuestro método aprovecha un marco teórico de juegos de autocompetencia, donde las capacidades de un modelo se miden en función de su desempeño en un juego competitivo, y políticas más fuertes emergen al hacer que el modelo compita consigo mismo, un proceso que denominamos Autocompetencia de Lenguaje (LSP, por sus siglas en inglés). Los experimentos realizados con Llama-3.2-3B-Instruct en benchmarks de seguimiento de instrucciones muestran que los modelos preentrenados no solo pueden mejorar su rendimiento en tareas desafiantes únicamente mediante la autocompetencia, sino que también lo hacen de manera más efectiva que los enfoques basados en datos.
La interpretación radiológica asistida por IA se basa principalmente en modelos estrechos y de tarea única. Este enfoque resulta poco práctico para abarcar el amplio espectro de modalidades de imagen, enfermedades y hallazgos radiológicos. Los modelos fundamentales (FMs) prometen una generalización amplia entre modalidades y en entornos con pocos datos. Sin embargo, este potencial ha permanecido en gran medida sin realizarse en radiología. Presentamos Curia, un modelo fundamental entrenado en toda la producción de imágenes transversales de un hospital importante durante varios años, que, hasta donde sabemos, es el mayor corpus de datos del mundo real de este tipo, abarcando 150,000 exámenes (130 TB). En un nuevo punto de referencia de validación externa de 19 tareas, Curia identifica con precisión órganos, detecta condiciones como hemorragias cerebrales e infartos de miocardio, y predice resultados en la estadificación de tumores. Curia iguala o supera el rendimiento de radiólogos y modelos fundamentales recientes, y exhibe propiedades emergentes clínicamente significativas en regímenes de baja cantidad de datos y entre modalidades. Para acelerar el progreso, publicamos los pesos de nuestro modelo base en https://huggingface.co/raidium/curia.
El aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) ha logrado un éxito notable al mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Sin embargo, los métodos existentes de RLVR a menudo sufren de ineficiencia en la exploración debido a desajustes entre la dificultad de los datos de entrenamiento y la capacidad del modelo. Los LLMs no logran descubrir caminos de razonamiento viables cuando los problemas son excesivamente difíciles, mientras que aprenden poco nueva capacidad cuando los problemas son demasiado simples. En este trabajo, formalizamos el impacto de la dificultad del problema al cuantificar la relación entre la velocidad de descenso de la pérdida y la precisión de las ejecuciones. Basándonos en este análisis, proponemos SEELE, un marco novedoso de RLVR asistido por supervisión que ajusta dinámicamente la dificultad del problema para mantenerse dentro de la región de alta eficiencia. SEELE aumenta cada muestra de entrenamiento al agregar una pista (parte de una solución completa) después del problema original. A diferencia de enfoques anteriores basados en pistas, SEELE ajusta deliberada y adaptativamente la longitud de la pista para cada problema con el fin de lograr una dificultad óptima. Para determinar la longitud óptima de la pista, SEELE emplea una estrategia de muestreo de ejecuciones en múltiples rondas. En cada ronda, ajusta un modelo de teoría de respuesta al ítem a los pares precisión-pista recopilados en rondas anteriores para predecir la longitud de pista requerida en la siguiente ronda. Este ajuste de dificultad a nivel de instancia y en tiempo real alinea la dificultad del problema con la capacidad evolutiva del modelo, mejorando así la eficiencia de la exploración. Los resultados experimentales muestran que SEELE supera a la Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) y al Ajuste Fino Supervisado (SFT, por sus siglas en inglés) en +11.8 y +10.5 puntos, respectivamente, y supera al mejor enfoque anterior asistido por supervisión en +3.6 puntos en promedio en seis benchmarks de razonamiento matemático.
En la atención causal estándar, la consulta, clave y valor (QKV) de cada token son estáticos y codifican únicamente el contexto precedente. Introducimos CAuSal aTtention with Lookahead kEys (CASTLE), un mecanismo de atención que actualiza continuamente las claves de cada token a medida que se desarrolla el contexto. Denominamos a estas claves actualizadas como claves de anticipación (lookahead keys) porque pertenecen a posiciones anteriores pero integran información de tokens que aparecen más tarde en relación con esas posiciones, preservando estrictamente la propiedad autoregresiva. Aunque el mecanismo parece secuencial, derivamos una equivalencia matemática que evita materializar explícitamente las claves de anticipación en cada posición y permite un entrenamiento paralelo eficiente. En benchmarks de modelado de lenguaje, CASTLE supera consistentemente a la atención causal estándar en diferentes escalas de modelos, reduciendo la perplejidad de validación y mejorando el rendimiento en una variedad de tareas posteriores.
Estudios recientes han demostrado la efectividad de alinear directamente modelos de difusión con preferencias humanas utilizando recompensas diferenciables. Sin embargo, presentan dos desafíos principales: (1) dependen de un proceso de eliminación de ruido en múltiples pasos con cálculo de gradientes para la puntuación de recompensas, lo cual es computacionalmente costoso, restringiendo así la optimización a solo unos pocos pasos de difusión; (2) a menudo requieren una adaptación continua y fuera de línea de los modelos de recompensa para lograr la calidad estética deseada, como el fotorrealismo o efectos de iluminación precisos. Para abordar la limitación de la eliminación de ruido en múltiples pasos, proponemos Direct-Align, un método que define previamente un ruido para recuperar eficazmente las imágenes originales desde cualquier paso temporal mediante interpolación, aprovechando la ecuación que establece que los estados de difusión son interpolaciones entre el ruido y las imágenes objetivo, lo que evita eficazmente la sobreoptimización en pasos temporales tardíos. Además, introducimos la Optimización de Preferencias Relativas Semánticas (SRPO, por sus siglas en inglés), en la que las recompensas se formulan como señales condicionadas por texto. Este enfoque permite el ajuste en línea de las recompensas en respuesta a la ampliación de indicaciones positivas y negativas, reduciendo así la dependencia del ajuste fino de recompensas fuera de línea. Al ajustar el modelo FLUX.1.dev con una eliminación de ruido optimizada y un ajuste de recompensas en línea, mejoramos su realismo y calidad estética evaluados por humanos en más de 3 veces.
Presentamos SimpleQA Verified, un benchmark de 1,000 prompts para evaluar la factualidad en respuestas breves de Modelos de Lenguaje a Gran Escala (LLM) basado en SimpleQA de OpenAI. Este aborda limitaciones críticas del benchmark de OpenAI, incluyendo etiquetas ruidosas e incorrectas, sesgos temáticos y redundancia en las preguntas. SimpleQA Verified fue creado mediante un riguroso proceso de filtrado en múltiples etapas que involucra desduplicación, balanceo temático y reconciliación de fuentes, produciendo un conjunto de evaluación más confiable y desafiante, junto con mejoras en el prompt del autorater. En este nuevo benchmark, Gemini 2.5 Pro alcanza un puntaje F1 de vanguardia de 55.6, superando a otros modelos frontera, incluyendo GPT-5. Este trabajo proporciona a la comunidad de investigación una herramienta de mayor fidelidad para rastrear el progreso genuino en la factualidad de modelos paramétricos y mitigar las alucinaciones. El conjunto de datos del benchmark, el código de evaluación y el leaderboard están disponibles en: https://www.kaggle.com/benchmarks/deepmind/simpleqa-verified.
Los modelos de difusión de texto a imagen son computacionalmente intensivos, requiriendo a menudo docenas de pasos hacia adelante a través de grandes arquitecturas basadas en transformadores. Por ejemplo, Stable Diffusion XL genera imágenes de alta calidad con 50 evaluaciones de un modelo de 2.600 millones de parámetros, un proceso costoso incluso para un solo lote. Los modelos de difusión de pocos pasos reducen este costo a 2-8 pasos de eliminación de ruido, pero aún dependen de grandes arquitecturas U-Net o transformadores de difusión sin comprimir, que suelen ser demasiado costosas para inferencia en precisión completa sin GPUs de centros de datos. Estos requisitos también limitan los métodos existentes de cuantización post-entrenamiento que dependen de calibración en precisión completa. Introducimos Q-Sched, un nuevo paradigma para la cuantización post-entrenamiento que modifica el planificador del modelo de difusión en lugar de los pesos del modelo. Al ajustar la trayectoria de muestreo de pocos pasos, Q-Sched logra precisión completa con una reducción de 4 veces en el tamaño del modelo. Para aprender coeficientes de precondicionamiento conscientes de la cuantización, proponemos la pérdida JAQ, que combina la compatibilidad texto-imagen con una métrica de calidad de imagen para una optimización detallada. JAQ no requiere referencias y necesita solo un puñado de indicaciones de calibración, evitando la inferencia en precisión completa durante la calibración. Q-Sched ofrece mejoras sustanciales: un 15,5% de mejora en FID sobre el Modelo de Consistencia Latente de 4 pasos en FP16 y un 16,6% de mejora sobre el Modelo de Consistencia Faseada de 8 pasos en FP16, demostrando que la cuantización y la destilación de pocos pasos son complementarias para la generación de alta fidelidad. Un estudio de usuario a gran escala con más de 80.000 anotaciones confirma además la efectividad de Q-Sched tanto en FLUX.1[schnell] como en SDXL-Turbo.
Proponemos Delta L Normalization, un método simple pero efectivo de agregación de pérdidas adaptado a la característica de longitudes de generación dinámica en Aprendizaje por Refuerzo con Recompensas Verificables (RLVR). Recientemente, RLVR ha demostrado un gran potencial para mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs), pero un desafío importante radica en la gran variabilidad de las longitudes de respuesta durante el entrenamiento, lo que conduce a una alta varianza en los gradientes y a una optimización inestable. Aunque métodos anteriores como GRPO, DAPO y Dr. GRPO introducen diferentes términos de normalización de pérdidas para abordar este problema, ya sea producen estimaciones sesgadas o aún sufren de una alta varianza en los gradientes. Al analizar el efecto de las longitudes variables en la pérdida de política tanto teórica como empíricamente, reformulamos el problema como la búsqueda de un estimador insesgado de varianza mínima. Nuestra propuesta de Delta L Normalización no solo proporciona una estimación insesgada de la verdadera pérdida de política, sino que también minimiza la varianza del gradiente en teoría. Experimentos extensos muestran que consistentemente logra resultados superiores en diferentes tamaños de modelos, longitudes máximas y tareas. Nuestro código estará disponible públicamente en https://github.com/zerolllin/Delta-L-Normalization.
Los modelos de lenguaje de gran escala (LLMs) son herramientas increíbles y versátiles para tareas basadas en texto que han permitido innumerables aplicaciones previamente inimaginables. En contraste, los modelos de recuperación aún no han visto surgir modelos de propósito general tan capaces. Para alcanzar este objetivo, los modelos de recuperación deben ser capaces de realizar tareas de recuperación complejas, donde las consultas contienen múltiples partes, restricciones o requisitos en lenguaje natural. Estas tareas representan una progresión natural desde las consultas simples y de un solo aspecto que se utilizan en la gran mayoría de los conjuntos de evaluación existentes y comúnmente usados. Las consultas complejas surgen naturalmente a medida que las personas esperan que los sistemas de búsqueda manejen solicitudes de información más específicas y, a menudo, ambiciosas, como lo demuestra el uso que las personas hacen de los sistemas de información basados en LLMs. A pesar del creciente deseo de que los modelos de recuperación amplíen sus capacidades en tareas de recuperación complejas, existen recursos limitados para evaluar la capacidad de los modelos de recuperación en un conjunto diverso de tareas complejas. Los pocos recursos que existen presentan un alcance limitado y, a menudo, carecen de configuraciones realistas, lo que dificulta conocer las verdaderas capacidades de los modelos de recuperación en tareas de recuperación complejas del mundo real. Para abordar esta deficiencia y fomentar la innovación en los modelos de recuperación de próxima generación, construimos un conjunto diverso y realista de tareas de recuperación complejas y evaluamos un conjunto representativo de modelos de recuperación de última generación. Además, exploramos el impacto de la expansión y reescritura de consultas basadas en LLMs en la calidad de la recuperación. Nuestros resultados muestran que incluso los mejores modelos luchan por producir resultados de recuperación de alta calidad, con un nDCG@10 promedio máximo de solo 0.346 y un R@100 de solo 0.587 en todas las tareas. Aunque la ampliación con LLMs puede ayudar a los modelos más débiles, el modelo más fuerte experimenta una disminución en el rendimiento en todas las métricas con todas las técnicas de reescritura.
A medida que los sistemas de IA generativa se vuelven competentes y se democratizan en la ciencia, los negocios y el gobierno, obtener una comprensión más profunda de sus modos de fallo se ha convertido en una necesidad urgente. La volatilidad ocasional en su comportamiento, como la propensión de los modelos transformadores a alucinar, dificulta la confianza y la adopción de soluciones emergentes de IA en áreas de alto riesgo. En el presente trabajo, establecemos cómo y cuándo surgen las alucinaciones en modelos transformadores preentrenados a través de representaciones de conceptos capturadas por autoencoders dispersos, en escenarios con incertidumbre controlada experimentalmente en el espacio de entrada. Nuestros experimentos sistemáticos revelan que el número de conceptos semánticos utilizados por el modelo transformador aumenta a medida que la información de entrada se vuelve cada vez más desestructurada. Ante una creciente incertidumbre en el espacio de entrada, el modelo transformador tiende a activar características semánticas coherentes pero insensibles a la entrada, lo que conduce a una salida alucinada. En su extremo, para entradas de ruido puro, identificamos una amplia variedad de conceptos significativos y robustamente activados en las activaciones intermedias de modelos transformadores preentrenados, cuya integridad funcional confirmamos mediante direccionamiento específico. También demostramos que las alucinaciones en la salida de un modelo transformador pueden predecirse de manera confiable a partir de los patrones de conceptos incrustados en las activaciones de las capas del transformador. Esta colección de hallazgos sobre la mecánica interna de procesamiento de los transformadores tiene consecuencias inmediatas para alinear los modelos de IA con los valores humanos, la seguridad de la IA, la exposición de la superficie de ataque para posibles ataques adversarios y la provisión de una base para la cuantificación automática del riesgo de alucinación de un modelo.