Artículos de investigación en IA seleccionados diariamente con traducciones
En la mejora de las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), investigaciones previas se han centrado principalmente en técnicas específicas de prompting, como el prompting de cadena de pensamiento (CoT, por sus siglas en inglés) en modalidad few-shot o zero-shot. Estos métodos, aunque efectivos, suelen implicar un proceso de ingeniería de prompts manualmente intensivo. Nuestro estudio adopta un enfoque novedoso al plantear la pregunta: ¿Pueden los LLMs razonar de manera efectiva sin prompting? Nuestros hallazgos revelan que, de manera intrigante, las rutas de razonamiento CoT pueden ser elicitadas de LLMs preentrenados simplemente alterando el proceso de decodificación. En lugar de la decodificación codiciosa convencional, investigamos los tokens alternativos top-k, descubriendo que las rutas CoT están frecuentemente inherentes en estas secuencias. Este enfoque no solo evita los factores de confusión asociados al prompting, sino que también nos permite evaluar las habilidades de razonamiento intrínsecas de los LLMs. Además, observamos que la presencia de una CoT en la ruta de decodificación se correlaciona con una mayor confianza en la respuesta decodificada del modelo. Esta métrica de confianza diferencia efectivamente entre rutas CoT y no CoT. Estudios empíricos extensos en varios benchmarks de razonamiento muestran que la propuesta de decodificación CoT supera sustancialmente a la decodificación codiciosa estándar.
Todos los problemas lingüísticos basados en texto pueden reducirse a generación o incrustación (embedding). Los modelos actuales solo funcionan bien en una u otra tarea. Introducimos el ajuste instruccional de representación generativa (Generative Representational Instruction Tuning, GRIT), mediante el cual un modelo de lenguaje grande es entrenado para manejar tanto tareas generativas como de incrustación, distinguiéndolas a través de instrucciones. En comparación con otros modelos abiertos, nuestro modelo resultante, GritLM 7B, establece un nuevo estado del arte en el Massive Text Embedding Benchmark (MTEB) y supera a todos los modelos de su tamaño en una variedad de tareas generativas. Al escalar aún más, GritLM 8x7B supera a todos los modelos generativos de lenguaje abiertos que probamos, mientras sigue estando entre los mejores modelos de incrustación. Notablemente, encontramos que GRIT iguala el entrenamiento solo con datos generativos o de incrustación, por lo que podemos unificar ambos sin pérdida de rendimiento. Entre otros beneficios, la unificación a través de GRIT acelera la Generación Aumentada por Recuperación (Retrieval-Augmented Generation, RAG) en más del 60% para documentos largos, al ya no requerir modelos separados de recuperación y generación. Los modelos, código, etc., están disponibles gratuitamente en https://github.com/ContextualAI/gritlm.
El entrenamiento de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) es costoso. En este artículo, estudiamos enfoques eficientes en términos de datos para el preentrenamiento de LLMs, es decir, técnicas que buscan optimizar la frontera de Pareto entre la calidad del modelo y el consumo de recursos/datos durante el entrenamiento. Buscamos comprender las compensaciones asociadas con rutinas de selección de datos basadas en (i) estimaciones de calidad de datos costosas de calcular, y (ii) la maximización de medidas de cobertura y diversidad en el espacio de características. Nuestra primera técnica, Ask-LLM, aprovecha las capacidades de razonamiento en modo cero-shot de LLMs ajustados por instrucciones para evaluar directamente la calidad de un ejemplo de entrenamiento. Para abordar la cobertura, proponemos el muestreo por Densidad, que modela la distribución de datos para seleccionar una muestra diversa. En nuestra comparación de 19 métodos de muestreo, que incluye cientos de tareas de evaluación y ejecuciones de preentrenamiento, encontramos que Ask-LLM y Densidad son los mejores métodos en sus respectivas categorías. El muestreo por cobertura puede recuperar el rendimiento de los datos completos, mientras que los modelos entrenados con datos de Ask-LLM superan consistentemente al entrenamiento con todos los datos, incluso cuando rechazamos el 90% del conjunto de datos original, y convergen hasta un 70% más rápido.
Los modelos de lenguaje de gran escala (LLMs) actuales no solo están limitados a una longitud máxima de contexto, sino que tampoco son capaces de procesar de manera robusta entradas extensas. Para abordar estas limitaciones, proponemos ReadAgent, un sistema de agente basado en LLMs que aumenta la longitud efectiva del contexto hasta 20 veces en nuestros experimentos. Inspirados en cómo los humanos leen interactivamente documentos extensos, implementamos ReadAgent como un sistema de prompts simple que utiliza las capacidades avanzadas de los LLMs para (1) decidir qué contenido almacenar juntos en un episodio de memoria, (2) comprimir esos episodios de memoria en recuerdos episódicos breves llamados "recuerdos esenciales" (gist memories), y (3) realizar acciones para buscar pasajes en el texto original si ReadAgent necesita recordar detalles relevantes para completar una tarea. Evaluamos ReadAgent comparándolo con métodos de recuperación de referencia, utilizando los contextos largos originales y empleando los recuerdos esenciales. Estas evaluaciones se realizan en tres tareas de comprensión lectora de documentos extensos: QuALITY, NarrativeQA y QMSum. ReadAgent supera a los métodos de referencia en las tres tareas mientras extiende la ventana efectiva de contexto entre 3 y 20 veces.
Trabajos recientes han demostrado el inmenso potencial de los conjuntos de datos generados sintéticamente para entrenar modelos de lenguaje grandes (LLMs), especialmente para adquirir habilidades específicas. Los actuales conjuntos de datos a gran escala para el ajuste de instrucciones matemáticas, como MetaMathQA (Yu et al., 2024) y MAmmoTH (Yue et al., 2024), se construyen utilizando salidas de LLMs de código cerrado con licencias comercialmente restrictivas. Una razón clave que limita el uso de LLMs de código abierto en estos pipelines de generación de datos ha sido la amplia brecha entre las habilidades matemáticas de los mejores LLMs de código cerrado, como GPT-4, y los mejores LLMs de código abierto. Basándonos en los avances recientes en LLMs de código abierto, nuestra propuesta de novedad en el prompting y un escalado forzado, construimos OpenMathInstruct-1, un conjunto de datos para el ajuste de instrucciones matemáticas con 1.8 millones de pares problema-solución. El conjunto de datos se construye sintetizando soluciones de intérpretes de código para GSM8K y MATH, dos populares benchmarks de razonamiento matemático, utilizando el modelo Mixtral, recientemente lanzado y con licencia permisiva. Nuestro mejor modelo, OpenMath-CodeLlama-70B, entrenado en un subconjunto de OpenMathInstruct-1, alcanza una puntuación del 84.6% en GSM8K y del 50.7% en MATH, lo que es competitivo con los mejores modelos destilados de GPT. Publicamos nuestro código, modelos y el conjunto de datos OpenMathInstruct-1 bajo una licencia comercialmente permisiva.
El ajuste fino de modelos de difusión sigue siendo una frontera poco explorada en la inteligencia artificial generativa (GenAI), especialmente en comparación con los notables avances logrados en el ajuste fino de modelos de lenguaje de gran escala (LLMs). Si bien modelos de difusión de vanguardia como Stable Diffusion (SD) y SDXL dependen del ajuste fino supervisado, su rendimiento inevitablemente se estanca después de procesar un cierto volumen de datos. Recientemente, se ha empleado el aprendizaje por refuerzo (RL) para ajustar modelos de difusión con datos de preferencias humanas, pero este enfoque requiere al menos dos imágenes ("ganadora" y "perdedora") por cada indicación de texto. En este artículo, presentamos una técnica innovadora llamada ajuste fino por autocompetencia para modelos de difusión (SPIN-Diffusion), donde el modelo de difusión compite con sus versiones anteriores, facilitando un proceso iterativo de automejora. Nuestro enfoque ofrece una alternativa a las estrategias convencionales de ajuste fino supervisado y RL, mejorando significativamente tanto el rendimiento del modelo como su alineación. Nuestros experimentos en el conjunto de datos Pick-a-Pic revelan que SPIN-Diffusion supera al método existente de ajuste fino supervisado en aspectos de alineación con preferencias humanas y atractivo visual desde su primera iteración. Para la segunda iteración, supera el rendimiento de los métodos basados en RLHF en todas las métricas, logrando estos resultados con menos datos.
Estudiamos la receta de preentrenamiento continuo para escalar la longitud de contexto de los modelos de lenguaje a 128K, con un enfoque en la ingeniería de datos. Planteamos la hipótesis de que el modelado de contextos largos, en particular la capacidad de utilizar información en ubicaciones arbitrarias de la entrada, es una habilidad que en su mayoría ya se adquiere a través del preentrenamiento a gran escala, y que esta capacidad puede extenderse fácilmente a contextos sustancialmente más largos que los vistos durante el entrenamiento (por ejemplo, de 4K a 128K) mediante un preentrenamiento continuo ligero en una mezcla de datos apropiada. Investigamos la cantidad y calidad de los datos para el preentrenamiento continuo: (1) en cuanto a la cantidad, demostramos que entre 500 millones y 5 mil millones de tokens son suficientes para permitir que el modelo recupere información en cualquier lugar dentro del contexto de 128K; (2) en cuanto a la calidad, nuestros resultados enfatizan por igual el equilibrio de dominios y el aumento de longitud. Concretamente, encontramos que el aumento ingenuo de datos más largos en ciertos dominios como libros, una práctica común en trabajos existentes, ofrece un rendimiento subóptimo, y que una mezcla equilibrada de dominios es importante. Demostramos que el preentrenamiento continuo del modelo completo en 1B-5B tokens de dichos datos es una estrategia efectiva y asequible para escalar la longitud de contexto de los modelos de lenguaje a 128K. Nuestra receta supera a modelos de contexto largo de código abierto robustos y reduce la brecha con modelos de vanguardia como GPT-4 128K.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) suelen entrenarse en dos fases: preentrenamiento en grandes conjuntos de datos a escala de internet y ajuste fino para tareas específicas. Dada la mayor demanda computacional del preentrenamiento, es intuitivo suponer que el ajuste fino agrega menos información nueva al modelo y, por lo tanto, es más compresible. Exploramos esta suposición descomponiendo los pesos de los modelos ajustados en sus componentes preentrenados y un delta adicional. Introducimos un método simple, BitDelta, que cuantiza exitosamente este delta a 1 bit sin comprometer el rendimiento. Este hallazgo interesante no solo resalta la posible redundancia de la información agregada durante el ajuste fino, sino que también tiene implicaciones significativas para el servicio y almacenamiento multiinquilino de modelos ajustados. Al permitir el uso de un único modelo base de alta precisión acompañado de múltiples deltas de 1 bit, BitDelta reduce drásticamente los requisitos de memoria GPU en más de 10 veces, lo que también puede traducirse en una latencia de generación mejorada en entornos multiinquilino. Validamos BitDelta mediante experimentos en las familias de modelos Llama-2 y Mistral, y en modelos de hasta 70B parámetros, demostrando una degradación mínima del rendimiento en todos los escenarios probados.
La edición de señales utilizando modelos preentrenados grandes, de manera zero-shot, ha experimentado avances rápidos recientemente en el dominio de las imágenes. Sin embargo, esta tendencia aún no ha llegado al dominio del audio. En este artículo, exploramos dos técnicas de edición zero-shot para señales de audio, que utilizan la inversión de DDPM en modelos de difusión preentrenados. La primera, adoptada del dominio de las imágenes, permite la edición basada en texto. La segunda, es un enfoque novedoso para descubrir direcciones de edición semánticamente significativas sin supervisión. Cuando se aplica a señales de música, este método revela una variedad de modificaciones musicalmente interesantes, desde controlar la participación de instrumentos específicos hasta improvisaciones en la melodía. Se pueden encontrar ejemplos en nuestra página de ejemplos en https://hilamanor.github.io/AudioEditing/ y el código está disponible en https://github.com/hilamanor/AudioEditing/.
Los avances en el splatting con gaussianas 3D han acelerado significativamente la reconstrucción y generación 3D. Sin embargo, este método puede requerir un gran número de gaussianas, lo que genera una huella de memoria considerable. Este artículo presenta GES (Generalized Exponential Splatting), una representación novedosa que emplea la Función Exponencial Generalizada (GEF) para modelar escenas 3D, requiriendo un número mucho menor de partículas para representar una escena y superando así significativamente en eficiencia a los métodos de splatting con gaussianas, con la capacidad de reemplazo plug-and-play para utilidades basadas en gaussianas. GES se valida teórica y empíricamente tanto en configuraciones 1D fundamentales como en escenas 3D realistas. Se demuestra que GES representa señales con bordes nítidos de manera más precisa, lo cual suele ser un desafío para las gaussianas debido a sus características inherentes de paso bajo. Nuestro análisis empírico muestra que GEF supera a las gaussianas en el ajuste de señales de origen natural (por ejemplo, cuadrados, triángulos y señales parabólicas), reduciendo así la necesidad de operaciones extensivas de división que aumentan la huella de memoria del splatting con gaussianas. Con la ayuda de una función de pérdida modulada en frecuencia, GES logra un rendimiento competitivo en benchmarks de síntesis de nuevas vistas, requiriendo menos de la mitad del almacenamiento de memoria del splatting con gaussianas y aumentando la velocidad de renderizado hasta en un 39%. El código está disponible en el sitio web del proyecto https://abdullahamdi.com/ges.
El objetivo de la personalización de texto a imagen (T2I) es adaptar un modelo de difusión a un concepto de referencia proporcionado por el usuario, generando imágenes diversas del concepto que estén alineadas con las indicaciones objetivo. Los métodos convencionales que representan los conceptos de referencia mediante incrustaciones de texto únicas a menudo no logran imitar con precisión la apariencia de la referencia. Para abordar esto, una posible solución es condicionar explícitamente las imágenes de referencia en el proceso de eliminación de ruido objetivo, conocido como reemplazo clave-valor. Sin embargo, trabajos anteriores se limitan a la edición local, ya que alteran la ruta de estructura del modelo T2I preentrenado. Para superar esto, proponemos un nuevo método complementario, llamado DreamMatcher, que reformula la personalización T2I como un emparejamiento semántico. Específicamente, DreamMatcher reemplaza los valores objetivo con valores de referencia alineados mediante emparejamiento semántico, mientras deja la ruta de estructura sin cambios para preservar la capacidad versátil de los modelos T2I preentrenados para generar estructuras diversas. También introducimos una estrategia de enmascaramiento semánticamente consistente para aislar el concepto personalizado de las regiones irrelevantes introducidas por las indicaciones objetivo. Compatible con los modelos T2I existentes, DreamMatcher muestra mejoras significativas en escenarios complejos. Análisis exhaustivos demuestran la efectividad de nuestro enfoque.
El razonamiento a partir de secuencias de datos sensoriales en bruto es un problema omnipresente en campos que van desde dispositivos médicos hasta robótica. Estos problemas suelen implicar el uso de secuencias largas de datos sensoriales en bruto (por ejemplo, magnetómetros, piezoresistores) para predecir secuencias de cantidades físicas deseables (por ejemplo, fuerza, mediciones inerciales). Aunque los enfoques clásicos son potentes para problemas de predicción localmente lineales, a menudo se quedan cortos cuando se utilizan sensores del mundo real. Estos sensores suelen ser no lineales, se ven afectados por variables externas (por ejemplo, vibraciones) y presentan deriva dependiente de los datos. Para muchos problemas, la tarea de predicción se ve agravada por conjuntos de datos etiquetados pequeños, ya que obtener etiquetas de referencia requiere equipos costosos. En este trabajo, presentamos los Modelos Jerárquicos de Espacio de Estados (HiSS), una técnica nueva y conceptualmente simple para la predicción secuencial continua. HiSS apila modelos estructurados de espacio de estados uno sobre otro para crear una jerarquía temporal. En seis conjuntos de datos de sensores del mundo real, desde la predicción de estado basada en táctiles hasta la medición inercial basada en acelerómetros, HiSS supera a los modelos de secuencia más avanzados, como Transformers causales, LSTMs, S4 y Mamba, en al menos un 23% en MSE. Nuestros experimentos indican además que HiSS demuestra un escalado eficiente a conjuntos de datos más pequeños y es compatible con técnicas existentes de filtrado de datos. El código, los conjuntos de datos y los videos se pueden encontrar en https://hiss-csp.github.io.
Los modelos de difusión se han aplicado cada vez más recientemente a datos temporales, como videos, simulaciones de mecánica de fluidos o datos climáticos. Estos métodos generalmente tratan los fotogramas subsiguientes de manera uniforme en cuanto a la cantidad de ruido en el proceso de difusión. Este artículo explora la Difusión Rodante: un nuevo enfoque que utiliza un proceso de eliminación de ruido mediante ventana deslizante. Este método asegura que el proceso de difusión corrompa progresivamente los datos a lo largo del tiempo, asignando más ruido a los fotogramas que aparecen más tarde en una secuencia, lo que refleja una mayor incertidumbre sobre el futuro a medida que avanza el proceso de generación. Empíricamente, demostramos que cuando las dinámicas temporales son complejas, la Difusión Rodante supera a la difusión estándar. En particular, este resultado se evidencia en una tarea de predicción de videos utilizando el conjunto de datos de videos Kinetics-600 y en un experimento de pronóstico de dinámica de fluidos caóticos.