Artículos de investigación en IA seleccionados diariamente con traducciones
La Generación con Recuperación (RAG, por sus siglas en inglés) se ha convertido en un paradigma poderoso para mejorar los grandes modelos de lenguaje (LLMs) a través de la recuperación de conocimiento externo. A pesar de su amplia atención, la investigación académica existente se centra predominantemente en RAG de un solo turno, dejando una brecha significativa en el abordaje de las complejidades de las conversaciones de múltiples turnos que se encuentran en aplicaciones del mundo real. Para cerrar esta brecha, presentamos CORAL, un banco de pruebas a gran escala diseñado para evaluar sistemas RAG en entornos conversacionales multi-turn realistas. CORAL incluye conversaciones diversas en busca de información derivadas automáticamente de Wikipedia y aborda desafíos clave como la cobertura de dominio abierto, la intensidad de conocimiento, respuestas de forma libre y cambios de tema. Admite tres tareas principales de RAG conversacional: recuperación de pasajes, generación de respuestas y etiquetado de citas. Proponemos un marco unificado para estandarizar varios métodos de RAG conversacional y realizamos una evaluación exhaustiva de estos métodos en CORAL, demostrando oportunidades sustanciales para mejorar enfoques existentes.
Los Transformers se han convertido en la arquitectura predominante en los modelos fundamentales debido a su excelente rendimiento en diversos dominios. Sin embargo, el costo sustancial de escalar estos modelos sigue siendo una preocupación significativa. Este problema surge principalmente de su dependencia de un número fijo de parámetros en proyecciones lineales. Cuando se introducen modificaciones arquitectónicas (por ejemplo, dimensiones de canal), todo el modelo generalmente requiere ser entrenado nuevamente desde cero. A medida que los tamaños de los modelos continúan creciendo, esta estrategia resulta en costos computacionales cada vez más altos y se vuelve insostenible. Para superar este problema, presentamos TokenFormer, una arquitectura nativamente escalable que aprovecha el mecanismo de atención no solo para cálculos entre tokens de entrada, sino también para interacciones entre tokens y parámetros del modelo, mejorando así la flexibilidad arquitectónica. Al tratar los parámetros del modelo como tokens, reemplazamos todas las proyecciones lineales en los Transformers con nuestra capa de atención token-parámetro, donde los tokens de entrada actúan como consultas y los parámetros del modelo como claves y valores. Esta reformulación permite un escalado progresivo y eficiente sin necesidad de un nuevo entrenamiento desde cero. Nuestro modelo escala desde 124M hasta 1.4B de parámetros mediante la adición incremental de nuevos pares de parámetros clave-valor, logrando un rendimiento comparable a los Transformers entrenados desde cero mientras se reducen significativamente los costos de entrenamiento. El código y los modelos están disponibles en https://github.com/Haiyang-W/TokenFormer.
En los últimos años, ha habido una tendencia en el campo del Aprendizaje por Refuerzo (RL) hacia modelos de acción amplios entrenados de forma offline en conjuntos de datos a gran escala a través de modelado de secuencias. Los modelos existentes se basan principalmente en la arquitectura Transformer, lo que resulta en agentes potentes. Sin embargo, debido a los tiempos de inferencia lentos, los enfoques basados en Transformer son imprácticos para aplicaciones en tiempo real, como la robótica. Recientemente, se han propuesto arquitecturas recurrentes modernas, como xLSTM y Mamba, que presentan beneficios de paralelización durante el entrenamiento similares a la arquitectura Transformer, al tiempo que ofrecen una inferencia rápida. En este trabajo, estudiamos la aptitud de estas modernas arquitecturas recurrentes para modelos de acción amplios. En consecuencia, proponemos un Modelo de Acción Recurrente Amplio (LRAM) con un xLSTM en su núcleo que tiene una complejidad de inferencia lineal y capacidades naturales de extrapolación de longitud de secuencia. Experimentos en 432 tareas de 6 dominios muestran que LRAM se compara favorablemente con los Transformers en cuanto a rendimiento y velocidad.
Presentamos REM, un marco para segmentar una amplia gama de conceptos en video que pueden ser descritos a través de lenguaje natural. Nuestro método se basa en representaciones visual-lingüísticas aprendidas por modelos de difusión de video en conjuntos de datos a escala de Internet. Una idea clave de nuestro enfoque es preservar la mayor parte posible de la representación original del modelo generativo, mientras se ajusta en conjuntos de datos de Segmentación de Objetos de Referencia de dominio estrecho. Como resultado, nuestro marco puede segmentar y rastrear con precisión objetos raros e invisibles, a pesar de ser entrenado en máscaras de objetos de un conjunto limitado de categorías. Además, puede generalizar a conceptos dinámicos no relacionados con objetos, como olas rompiendo en el océano, como se demuestra en nuestro nuevo punto de referencia introducido para la Segmentación de Procesos de Video de Referencia (Ref-VPS). Nuestros experimentos muestran que REM tiene un rendimiento similar a enfoques de vanguardia en conjuntos de datos dentro del dominio, como Ref-DAVIS, mientras los supera hasta en doce puntos en cuanto a similitud de regiones en datos fuera del dominio, aprovechando el poder del preentrenamiento a escala de Internet.
Los modelos de lenguaje grandes (LLMs) logran un buen rendimiento en desafiantes bancos de pruebas de razonamiento, pero también podrían cometer errores básicos de razonamiento. Este comportamiento contrastante resulta desconcertante cuando se trata de comprender los mecanismos detrás de las capacidades de razonamiento de los LLMs. Una hipótesis es que el rendimiento cada vez más alto y casi saturado en bancos de pruebas comunes de razonamiento podría deberse a la memorización de problemas similares. En este artículo, investigamos sistemáticamente esta hipótesis con una medición cuantitativa de memorización en tareas de razonamiento, utilizando un banco de pruebas de razonamiento lógico generado dinámicamente basado en los acertijos de Caballeros y Embusteros (K&K). Descubrimos que los LLMs podrían interpolar los acertijos de entrenamiento (logrando una precisión casi perfecta) después del ajuste fino, pero fallan cuando esos acertijos se perturban ligeramente, lo que sugiere que los modelos dependen en gran medida de la memorización para resolver esos acertijos de entrenamiento. Por otro lado, demostramos que si bien el ajuste fino conduce a una fuerte memorización, también mejora consistentemente el rendimiento de generalización. Análisis detallados con pruebas de perturbación, transferibilidad entre niveles de dificultad, exploración de los internos del modelo y ajuste fino con respuestas incorrectas sugieren que los LLMs aprenden a razonar sobre los acertijos K&K a pesar de la memorización de los datos de entrenamiento. Este fenómeno indica que los LLMs exhiben una compleja interacción entre la memorización y las auténticas habilidades de razonamiento. Finalmente, nuestro análisis con la puntuación de memorización por muestra arroja luz sobre cómo los LLMs alternan entre el razonamiento y la memorización al resolver acertijos lógicos. Nuestro código y datos están disponibles en https://memkklogic.github.io.
Los lectores pueden tener diferentes objetivos con respecto al texto que están leyendo. ¿Se pueden descifrar estos objetivos a partir del patrón de sus movimientos oculares sobre el texto? En este trabajo, examinamos por primera vez si es posible descodificar dos tipos de objetivos de lectura comunes en la vida diaria: la búsqueda de información y la lectura ordinaria. Utilizando datos de seguimiento ocular a gran escala, aplicamos a esta tarea una amplia gama de modelos de vanguardia para movimientos oculares y texto que abarcan diferentes estrategias arquitectónicas y de representación de datos, e introducimos además un nuevo conjunto de modelos. Evaluamos sistemáticamente estos modelos en tres niveles de generalización: nuevo elemento textual, nuevo participante y la combinación de ambos. Descubrimos que los movimientos oculares contienen señales altamente valiosas para esta tarea. Realizamos además un análisis de errores que se basa en hallazgos empíricos previos sobre las diferencias entre la lectura ordinaria y la búsqueda de información, y aprovecha las ricas anotaciones textuales. Este análisis revela propiedades clave de los elementos textuales y los movimientos oculares de los participantes que contribuyen a la dificultad de la tarea.
Los modelos de Mezcla de Expertos (MoE) mejoran la eficiencia y escalabilidad de los modelos de lenguaje densos al dirigir cada token a un pequeño número de expertos en cada capa. En este documento, mostramos cómo un adversario que puede organizar que sus consultas aparezcan en el mismo lote de ejemplos que las consultas de una víctima puede explotar la Elección de Expertos para revelar por completo la indicación de la víctima. Demostramos con éxito la efectividad de este ataque en un modelo Mixtral de dos capas, explotando el comportamiento de manejo de empates de la implementación CUDA torch.topk. Nuestros resultados muestran que podemos extraer la indicación completa utilizando consultas de O({VM}^2) (con tamaño de vocabulario V y longitud de indicación M) o 100 consultas en promedio por token en el escenario que consideramos. Este es el primer ataque que explota fallas arquitectónicas con el propósito de extraer indicaciones de usuario, introduciendo una nueva clase de vulnerabilidades de LLM.
Los modelos de lenguaje grandes de código abierto están cada vez más disponibles y populares entre investigadores y profesionales. Aunque se ha logrado un progreso significativo en modelos de peso abierto, el entrenamiento abierto de datos es una práctica que aún no ha sido adoptada por los principales creadores de modelos de peso abierto. Al mismo tiempo, los investigadores están trabajando para hacer que los modelos de lenguaje sean más seguros. Proponemos un proceso de curación de datos para reducir las salidas dañinas de los modelos entrenados con datos de dominio público. Existen desafíos únicos al trabajar con datos de dominio público, ya que estas fuentes difieren del texto web tanto en forma como en contenido. Muchas fuentes son documentos históricos y son el resultado de Reconocimiento Óptico de Caracteres (OCR). Por lo tanto, los enfoques actuales de vanguardia para la filtración de toxicidad a menudo son inviables o inapropiados para modelos de datos abiertos. En este documento, presentamos un nuevo proceso completamente de código abierto para la filtración de toxicidad en datos abiertos. Nuestras contribuciones son triples. Creamos un conjunto de datos de entrenamiento personalizado, ToxicCommons, compuesto por textos clasificados en cinco dimensiones diferentes (discriminación racial/étnica, de género/sexo, religiosa, basada en habilidades y violencia). Utilizamos este conjunto de datos para entrenar un clasificador personalizado, Celadon, que puede detectar contenido tóxico en datos abiertos de manera más eficiente y a mayor escala. Finalmente, describimos un enfoque equilibrado para la filtración de contenido que optimiza la seguridad con respecto a los datos filtrados disponibles para el entrenamiento.
Los seres humanos están dotados de un sistema de aprendizaje complementario, que conecta el aprendizaje lento de la dinámica general del mundo con el almacenamiento rápido de la memoria episódica de una nueva experiencia. Sin embargo, los modelos previos de generación de video se centran principalmente en el aprendizaje lento mediante el preentrenamiento con grandes cantidades de datos, pasando por alto la fase de aprendizaje rápido crucial para el almacenamiento de la memoria episódica. Esta omisión conduce a inconsistencias entre fotogramas temporalmente distantes al generar videos más largos, ya que estos fotogramas quedan fuera de la ventana de contexto del modelo. Con este fin, presentamos SlowFast-VGen, un novedoso sistema de aprendizaje de doble velocidad para la generación de videos largos impulsados por acciones. Nuestro enfoque incorpora un modelo de difusión de video condicional enmascarado para el aprendizaje lento de la dinámica del mundo, junto con una estrategia de aprendizaje rápido en tiempo de inferencia basada en un módulo temporal LoRA. Específicamente, el proceso de aprendizaje rápido actualiza sus parámetros temporales LoRA en función de las entradas y salidas locales, almacenando eficientemente la memoria episódica en sus parámetros. Además, proponemos un algoritmo de bucle de aprendizaje lento-rápido que integra de manera fluida el bucle de aprendizaje rápido interno en el bucle de aprendizaje lento externo, permitiendo la recuperación de experiencias multi-episódicas anteriores para el aprendizaje de habilidades consciente del contexto. Para facilitar el aprendizaje lento de un modelo aproximado del mundo, recopilamos un conjunto de datos a gran escala de 200k videos con anotaciones de acciones en lenguaje, que cubren una amplia gama de escenarios. Experimentos extensos muestran que SlowFast-VGen supera a los modelos de referencia en diversas métricas para la generación de videos impulsados por acciones, logrando una puntuación FVD de 514 en comparación con 782, y manteniendo la consistencia en videos más largos, con un promedio de 0.37 cortes de escena frente a 0.89. El algoritmo de bucle de aprendizaje lento-rápido mejora significativamente el rendimiento en tareas de planificación a largo plazo. Sitio web del proyecto: https://slowfast-vgen.github.io
Presentamos un referente para modelos de lenguaje grandes diseñado para abordar una de las tareas más intensivas en conocimiento en la ciencia de datos: escribir código de ingeniería de características, que requiere conocimiento de dominio además de una comprensión profunda del problema subyacente y la estructura de datos. El modelo recibe una descripción del conjunto de datos en un estímulo y se le pide generar código para transformarlo. La puntuación de evaluación se deriva de la mejora lograda por un modelo XGBoost ajustado en el conjunto de datos modificado en comparación con los datos originales. A través de una evaluación exhaustiva de modelos de última generación y la comparación con referentes bien establecidos, demostramos que el FeatEng de nuestra propuesta puede evaluar de manera económica y eficiente las amplias capacidades de los LLMs, en contraste con los métodos existentes.
La recuperación de información médica (MIR) es esencial para obtener conocimientos médicos relevantes de diversas fuentes, incluidos registros de salud electrónicos, literatura científica y bases de datos médicas. Sin embargo, lograr una recuperación densa efectiva sin entrenamiento en el dominio médico plantea desafíos sustanciales debido a la falta de datos etiquetados como relevantes. En este documento, presentamos un enfoque novedoso llamado Incrustaciones de Documentos Hipotéticos Autoaprendidas (SL-HyDE) para abordar este problema. SL-HyDE aprovecha modelos de lenguaje grandes (LLMs) como generadores para crear documentos hipotéticos basados en una consulta dada. Estos documentos generados encapsulan un contexto médico clave, guiando a un recuperador denso para identificar los documentos más relevantes. El marco de autoaprendizaje perfecciona progresivamente tanto la generación de pseudo-documentos como la recuperación, utilizando corpora médicos no etiquetados sin necesidad de datos etiquetados como relevantes. Además, presentamos el Conjunto de Datos de Evaluación de Recuperación de Información Médica en Chino (CMIRB), un marco de evaluación integral basado en escenarios médicos del mundo real, que abarca cinco tareas y diez conjuntos de datos. Al comparar diez modelos en CMIRB, establecemos un estándar riguroso para evaluar sistemas de recuperación de información médica. Los resultados experimentales demuestran que SL-HyDE supera significativamente a los métodos existentes en precisión de recuperación, mostrando una fuerte generalización y escalabilidad en diversas configuraciones de LLM y recuperadores. Los datos de CMIRB y el código de evaluación están disponibles públicamente en: https://github.com/CMIRB-benchmark/CMIRB.