Artículos de investigación en IA seleccionados diariamente con traducciones
Los benchmarks actuales de largo contexto se centran principalmente en pruebas basadas en recuperación, que requieren que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) localicen información específica dentro de contextos de entrada extensos, como el benchmark de aguja en un pajar (NIAH). La generación de largo contexto se refiere a la capacidad de un modelo de lenguaje para generar texto coherente y contextualmente preciso que abarca pasajes extensos o documentos. Aunque estudios recientes muestran un rendimiento sólido en NIAH y otros benchmarks de largo contexto basados en recuperación, existe una falta significativa de benchmarks para evaluar las capacidades de generación de largo contexto. Para cerrar esta brecha y ofrecer una evaluación integral, presentamos un benchmark sintético, LongGenBench, que permite configuraciones flexibles de longitudes de contexto de generación personalizadas. LongGenBench avanza más allá de los benchmarks tradicionales al rediseñar el formato de las preguntas y exigir que los LLMs respondan con una única respuesta cohesiva de largo contexto. Tras una extensa evaluación utilizando LongGenBench, observamos que: (1) tanto los modelos de API como los de código abierto muestran una degradación del rendimiento en escenarios de generación de largo contexto, que varía entre 1.2% y 47.1%; (2) diferentes series de LLMs muestran tendencias variables de degradación del rendimiento, siendo el modelo Gemini-1.5-Flash el que muestra la menor degradación entre los modelos de API, y la serie Qwen2 exhibiendo la menor degradación en LongGenBench entre los modelos de código abierto.
Comprender y seguir con precisión las instrucciones es fundamental para que los modelos de lenguaje grandes (LLMs) sean efectivos en diversas tareas. En este trabajo, examinamos rigurosamente los factores clave que permiten a los modelos generalizar a instrucciones no vistas, proporcionando ideas para guiar la recopilación de datos para ajuste de instrucciones. A través de experimentos controlados, inspirados en el algoritmo de Markov completo de Turing, demostramos que dicha generalización solo emerge cuando los datos de entrenamiento están suficientemente diversificados en dominios semánticos. Nuestros hallazgos también revelan que simplemente diversificar dentro de dominios limitados no garantiza una generalización sólida. Por el contrario, la diversificación de datos entre dominios, incluso con presupuestos de datos limitados, mejora significativamente la adaptabilidad de un modelo. Ampliamos nuestro análisis a escenarios del mundo real, incluido el ajuste fino de modelos especializados y generalistas. En ambos casos, demostramos que 1) se puede lograr un mejor rendimiento aumentando la diversidad de un conjunto de datos establecido manteniendo constante el tamaño de los datos, y 2) al escalar los datos, diversificar las semánticas de las instrucciones es más efectivo que simplemente aumentar la cantidad de datos similares. Nuestra investigación proporciona ideas importantes para la recopilación de conjuntos de datos, especialmente al optimizar el rendimiento del modelo mediante la expansión de los datos de entrenamiento para escenarios especializados y generalistas. Mostramos que la consideración cuidadosa de la diversificación de datos es clave: entrenar modelos especializados con datos que se extienden más allá de su dominio principal conduce a mejoras significativas en el rendimiento, mientras que los modelos generalistas se benefician de mezclas de datos diversas que mejoran sus capacidades generales de seguimiento de instrucciones en una amplia gama de aplicaciones. Nuestros resultados resaltan el papel crítico de la diversificación estratégica y ofrecen pautas claras para mejorar la calidad de los datos.
Este trabajo aborda el cuello de botella de pérdida de información de la cuantificación vectorial (VQ) en la generación de imágenes autoregresivas mediante la introducción de una nueva arquitectura de modelo llamada Transformador Autoregresivo 2-Dimensional (DnD). El DnD-Transformer predice más códigos para una imagen al introducir una nueva dirección de autoregresión, profundidad del modelo, junto con la dirección de longitud de secuencia. En comparación con la autoregresión 1D tradicional y trabajos anteriores que utilizan una descomposición de imagen 2D similar como el RQ-Transformer, el DnD-Transformer es un modelo de extremo a extremo que puede generar imágenes de mayor calidad con el mismo tamaño de modelo base y longitud de secuencia, abriendo una nueva perspectiva de optimización para la generación de imágenes autoregresivas. Además, nuestros experimentos revelan que el potencial del DnD-Transformer se extiende más allá de la generación de imágenes naturales. Incluso puede generar imágenes con elementos de texto y gráficos enriquecidos de manera auto-supervisada, demostrando una comprensión de estas modalidades combinadas. Esto no se ha demostrado previamente para modelos generativos de visión populares como los modelos de difusión, mostrando un destello de inteligencia visión-lenguaje cuando se entrena únicamente con imágenes. El código, conjuntos de datos y modelos están disponibles en https://github.com/chenllliang/DnD-Transformer.
Con esfuerzos significativos en estudios recientes, LLM-como-Juez se ha convertido en una alternativa rentable a la evaluación humana para evaluar la calidad de generación de texto en una amplia gama de tareas. Sin embargo, todavía existe una brecha de confiabilidad entre LLM-como-Juez y la evaluación humana. Una razón importante es la falta de oráculos guiados en el proceso de evaluación. Motivados por el papel de la referencia ampliamente utilizada en la evaluación clásica de texto, presentamos RevisEval, un nuevo paradigma de evaluación de generación de texto a través de las referencias adaptadas a la respuesta. RevisEval se basa en la observación clave de que una referencia ideal debe mantener la relevancia necesaria para la respuesta que se va a evaluar. Específicamente, RevisEval aprovecha las capacidades de revisión de texto de los modelos de lenguaje grandes (LLMs) para revisar adaptativamente la respuesta, luego trata el texto revisado como la referencia (referencia adaptada a la respuesta) para la evaluación posterior. Experimentos extensos demuestran que RevisEval supera a los paradigmas tradicionales de evaluación sin referencia y basados en referencia que utilizan LLM-como-Juez en tareas de generación de lenguaje natural y tareas de seguimiento de instrucciones abiertas. Más importante aún, nuestras referencias adaptadas a la respuesta pueden mejorar aún más las métricas de texto clásicas, como BLEU y BERTScore, en comparación con las referencias tradicionales e incluso rivalizar con LLM-como-Juez. También se realiza un análisis detallado para confirmar la efectividad de RevisEval en la reducción de sesgos, el impacto del costo de inferencia y la relevancia de la referencia.
Mejorar la capacidad de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) en el razonamiento ha recibido una atención significativa en los últimos años. Estudios previos han demostrado la efectividad de diversas estrategias de estímulo para ayudar a los LLMs en el razonamiento (llamadas "acciones de razonamiento"), como el pensamiento paso a paso, reflexionar antes de responder, resolver con programas y sus combinaciones. Sin embargo, estos enfoques a menudo aplicaban acciones de razonamiento estáticas y predefinidas de manera uniforme a todas las preguntas, sin considerar las características específicas de cada pregunta o la capacidad del LLM para resolver la tarea. En este documento, proponemos DOTS, un enfoque que permite a los LLMs razonar dinámicamente a través de la búsqueda de trayectorias de razonamiento óptimas, adaptadas a las características específicas de cada pregunta y a la capacidad inherente del LLM para resolver la tarea. Nuestro enfoque implica tres pasos clave: i) definir módulos de acción de razonamiento atómico que pueden componerse en diversas trayectorias de acción de razonamiento; ii) buscar la trayectoria de acción óptima para cada pregunta de entrenamiento a través de la exploración iterativa y la evaluación para el LLM que resuelve la tarea específica; y iii) utilizar las trayectorias óptimas recopiladas para entrenar a un LLM para planificar las trayectorias de razonamiento de preguntas no vistas. En particular, proponemos dos paradigmas de aprendizaje, es decir, ajustar finamente un LLM externo como planificador para guiar al LLM que resuelve la tarea, o ajustar directamente el LLM que resuelve la tarea con una capacidad internalizada para la planificación de acciones de razonamiento. Nuestros experimentos en ocho tareas de razonamiento muestran que nuestro método supera consistentemente a las técnicas de razonamiento estáticas y al enfoque de ajuste de instrucciones básico. Un análisis adicional revela que nuestro método permite a los LLMs ajustar su computación en función de la complejidad del problema, asignando un pensamiento y razonamiento más profundos a los problemas más difíciles.
Los modelos autorregresivos (AR) han reformulado la generación de imágenes como predicción del siguiente token, demostrando un potencial notable y emergiendo como fuertes competidores de los modelos de difusión. Sin embargo, la generación de imágenes controladas, similar a ControlNet, sigue siendo en gran medida inexplorada dentro de los modelos AR. Aunque un enfoque natural, inspirado en los avances en Modelos de Lenguaje Grandes, es tokenizar imágenes de control en tokens y precargarlos en el modelo autorregresivo antes de decodificar los tokens de imagen, aún queda corto en calidad de generación en comparación con ControlNet y sufre de ineficiencia. Con este fin, presentamos ControlAR, un marco eficiente y efectivo para integrar controles espaciales en modelos autorregresivos de generación de imágenes. En primer lugar, exploramos la codificación de control para los modelos AR y proponemos un codificador de control ligero para transformar entradas espaciales (por ejemplo, bordes de Canny o mapas de profundidad) en tokens de control. Luego, ControlAR explota el método de decodificación condicional para generar el siguiente token de imagen condicionado a la fusión por token entre los tokens de control e imagen, similar a las codificaciones posicionales. En comparación con la precarga de tokens, el uso de la decodificación condicional fortalece significativamente la capacidad de control de los modelos AR pero también mantiene la eficiencia del modelo. Además, el ControlAR propuesto potencia sorprendentemente a los modelos AR con generación de imágenes de resolución arbitraria a través de la decodificación condicional y controles específicos. Experimentos extensos pueden demostrar la controlabilidad del ControlAR propuesto para la generación autorregresiva de control a imagen a través de diversas entradas, incluidos bordes, profundidades y máscaras de segmentación. Además, tanto los resultados cuantitativos como cualitativos indican que ControlAR supera a los modelos de difusión controlables anteriores de última generación, por ejemplo, ControlNet++. El código, los modelos y la demostración estarán disponibles próximamente en https://github.com/hustvl/ControlAR.
La escalabilidad de la computación de inferencia ha desbloqueado el potencial de los modelos de lenguaje grandes de largo contexto (LLMs) en diversos entornos. Para tareas intensivas en conocimiento, la mayor capacidad de cómputo se destina frecuentemente a incorporar más conocimiento externo. Sin embargo, sin utilizar eficazmente dicho conocimiento, simplemente ampliar el contexto no siempre mejora el rendimiento. En este trabajo, investigamos la escalabilidad de la inferencia para la generación aumentada por recuperación (RAG), explorando estrategias más allá de simplemente aumentar la cantidad de conocimiento. Nos centramos en dos estrategias de escalado de inferencia: aprendizaje en contexto y solicitud iterativa. Estas estrategias brindan flexibilidad adicional para escalar la computación en tiempo de prueba (por ejemplo, aumentando los documentos recuperados o los pasos de generación), mejorando así la capacidad de los LLMs para adquirir y utilizar eficazmente información contextual. Abordamos dos preguntas clave: (1) ¿Cómo se beneficia el rendimiento de RAG del escalado de la computación de inferencia cuando está configurado óptimamente? (2) ¿Podemos predecir la asignación óptima de cómputo en tiempo de prueba para un presupuesto dado modelando la relación entre el rendimiento de RAG y los parámetros de inferencia? Nuestras observaciones revelan que aumentar la computación de inferencia conduce a ganancias casi lineales en el rendimiento de RAG cuando se asigna de manera óptima, una relación que describimos como las leyes de escalado de inferencia para RAG. Basándonos en esto, desarrollamos aún más el modelo de asignación de cómputo para estimar el rendimiento de RAG en diferentes configuraciones de inferencia. El modelo predice los parámetros de inferencia óptimos bajo diversas restricciones de cómputo, que se alinean estrechamente con los resultados experimentales. Al aplicar estas configuraciones óptimas, demostramos que escalar la computación de inferencia en LLMs de largo contexto logra hasta un 58.9% de ganancias en conjuntos de datos de referencia en comparación con RAG estándar.
Los modelos de lenguaje grandes (LLMs) han impulsado avances significativos en diversas tareas de procesamiento del lenguaje natural (NLP), con modelos de largo contexto ganando prominencia para manejar entradas extendidas. Sin embargo, el aumento del tamaño de la caché clave-valor (KV) requerido por las arquitecturas Transformer intensifica las limitaciones de memoria, especialmente durante la fase de decodificación, creando un cuello de botella significativo. Los mecanismos de atención dispersa existentes diseñados para abordar este cuello de botella tienen dos limitaciones: (1) a menudo no logran identificar de manera confiable los tokens más relevantes para la atención, y (2) pasan por alto la coherencia espacial de la selección de tokens a lo largo de capas Transformer consecutivas, lo que puede llevar a una degradación del rendimiento y a un sobrecoste sustancial en la selección de tokens. Este artículo presenta TidalDecode, un algoritmo y sistema simple pero efectivo para la decodificación rápida y precisa de LLM a través de una atención dispersa persistente en la posición. TidalDecode aprovecha la coherencia espacial de los tokens seleccionados por los métodos de atención dispersa existentes e introduce algunas capas de selección de tokens que realizan atención completa para identificar los tokens con los puntajes de atención más altos, mientras que todas las demás capas realizan atención dispersa con los tokens preseleccionados. Este diseño permite a TidalDecode reducir sustancialmente el sobrecoste de la selección de tokens para la atención dispersa sin sacrificar la calidad de los resultados generados. La evaluación en un conjunto diverso de LLMs y tareas muestra que TidalDecode se acerca al rendimiento generativo de los métodos de atención completa mientras reduce la latencia de decodificación de LLM hasta en un 2.1x.
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) ha demostrado su efectividad en alinear grandes modelos de lenguaje (LLMs) con las preferencias humanas. Sin embargo, el RLHF a nivel de token sufre del problema de asignación de crédito sobre secuencias largas, donde las recompensas retrasadas dificultan que el modelo distinga qué acciones contribuyeron a los resultados exitosos. Esto obstaculiza la eficiencia del aprendizaje y ralentiza la convergencia. En este documento, proponemos MA-RLHF, un marco de RLHF simple pero efectivo que incorpora macroacciones -- secuencias de tokens o construcciones de lenguaje de nivel superior -- en el proceso de aprendizaje. Al operar en este nivel de abstracción más alto, nuestro enfoque reduce la distancia temporal entre acciones y recompensas, facilitando una asignación de crédito más rápida y precisa. Esto resulta en estimaciones de gradiente de política más estables y mejora la eficiencia del aprendizaje dentro de cada episodio, todo ello sin aumentar la complejidad computacional durante el entrenamiento o la inferencia. Validamos nuestro enfoque a través de experimentos extensos en diferentes tamaños de modelos y tareas, incluyendo resumen de texto, generación de diálogos, respuesta a preguntas y síntesis de programas. Nuestro método logra mejoras de rendimiento sustanciales respecto al RLHF estándar, con incrementos de rendimiento de hasta un 30% en resumen de texto y generación de código, un 18% en diálogos y un 8% en tareas de respuesta a preguntas. Especialmente, nuestro enfoque alcanza la paridad con RLHF básico de 1.7x a 2x más rápido en términos de tiempo de entrenamiento y sigue superándolo con más entrenamiento. Pondremos nuestro código y datos a disposición del público en https://github.com/ernie-research/MA-RLHF.
Los modelos de lenguaje de largo contexto (LLC), caracterizados por su extensa ventana de contexto, están ganando cada vez más popularidad. Mientras tanto, muchos bancos de pruebas de largo contexto presentan tareas desafiantes que incluso los LLC más avanzados tienen dificultades para completar. Sin embargo, las fuentes subyacentes de diversas tareas desafiantes de largo contexto rara vez han sido estudiadas. Para cerrar esta brecha, llevamos a cabo experimentos que indican que su dificultad se origina principalmente en dos problemas básicos: "recuperación de múltiples coincidencias", que requiere la recuperación simultánea de varios elementos, y "recuperación basada en lógica", que exige un juicio lógico dentro de los criterios de recuperación. Estos dos problemas, aunque parecen sencillos, en realidad superan las capacidades de los LLC porque se ha demostrado que son hiper-multietapa (demandan numerosos pasos para resolverse) por naturaleza. Este hallazgo podría explicar por qué los LLC tienen dificultades con tareas de largo contexto más avanzadas, proporcionando una perspectiva más precisa para repensar soluciones para ellas.
En el modelado generativo, la tokenización simplifica datos complejos en representaciones compactas y estructuradas, creando un espacio más eficiente y aprendible. Para datos visuales de alta dimensionalidad, reduce la redundancia y destaca características clave para una generación de alta calidad. Los métodos actuales de tokenización visual se basan en un marco de autoencoder tradicional, donde el codificador comprime los datos en representaciones latentes y el decodificador reconstruye la entrada original. En este trabajo, ofrecemos una nueva perspectiva al proponer el proceso de eliminación de ruido como decodificación, pasando de la reconstrucción de un solo paso a un refinamiento iterativo. Específicamente, reemplazamos el decodificador con un proceso de difusión que refina iterativamente el ruido para recuperar la imagen original, guiado por los latentes proporcionados por el codificador. Evaluamos nuestro enfoque mediante la evaluación tanto de la reconstrucción (rFID) como de la calidad de generación (FID), comparándolo con un enfoque de autoencoding de última generación. Esperamos que este trabajo ofrezca nuevas ideas sobre la integración de la generación iterativa y el autoencoding para una mejor compresión y generación.
Las secuencias de eventos, caracterizadas por intervalos de muestreo irregulares y una combinación de características categóricas y numéricas, son estructuras de datos comunes en diversos dominios del mundo real como la salud, las finanzas y los registros de interacción de usuarios. A pesar de los avances en técnicas de modelado de datos temporales, no existen benchmarks estandarizados para evaluar su rendimiento en secuencias de eventos. Esto complica la comparación de resultados entre diferentes documentos debido a protocolos de evaluación variables, lo que potencialmente puede llevar a interpretaciones erróneas del progreso en este campo. Presentamos EBES, una herramienta integral de benchmarking con escenarios y protocolos de evaluación estandarizados, centrándose en problemas de regresión y clasificación con objetivos a nivel de secuencia. Nuestra biblioteca simplifica el benchmarking, la adición de conjuntos de datos y la integración de métodos a través de una interfaz unificada. Incluye un conjunto de datos sintéticos novedoso y proporciona conjuntos de datos del mundo real preprocesados, incluido el conjunto de datos bancarios más grande disponible públicamente. Nuestros resultados ofrecen un análisis detallado de los conjuntos de datos, identificando algunos como inadecuados para la comparación de modelos. Investigamos la importancia de modelar componentes temporales y secuenciales, así como las propiedades de robustez y escalabilidad de los modelos. Estos hallazgos resaltan posibles direcciones para futuras investigaciones. Nuestro objetivo con el benchmark es facilitar la investigación reproducible, acelerar el progreso y aumentar los impactos en el mundo real.
Los Modelos de Lenguaje en Video a Gran Escala (Video-LLMs) han demostrado capacidades notables en la comprensión de videos a nivel grueso, sin embargo, tienen dificultades con la localización temporal a nivel fino. En este artículo, presentamos Grounded-VideoLLM, un novedoso Video-LLM hábil en percibir y razonar sobre momentos específicos de un video de manera detallada. Identificamos que los actuales Video-LLMs tienen limitaciones para la comprensión detallada de videos ya que carecen de modelado temporal efectivo y representación de marcas de tiempo. En vista de esto, afilamos nuestro modelo incorporando (1) un flujo temporal adicional para codificar las relaciones entre fotogramas y (2) tokens temporales discretos enriquecidos con conocimiento temporal específico para representar marcas de tiempo. Para optimizar el entrenamiento de Grounded-VideoLLM, empleamos un esquema de entrenamiento de múltiples etapas, comenzando con tareas simples de descripción de videos y progresivamente introduciendo tareas de localización temporal de videos de creciente complejidad. Para mejorar aún más la capacidad de razonamiento temporal de Grounded-VideoLLM, también creamos un conjunto de datos de VideoQA fundamentado mediante un proceso automático de anotación. Experimentos extensos demuestran que Grounded-VideoLLM no solo sobresale en tareas de localización detallada como la localización temporal de oraciones, la descripción densa de videos y VideoQA fundamentado, sino que también muestra un gran potencial como asistente de video versátil para la comprensión general de videos.