Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Jamba, un nuevo modelo base de lenguaje grande basado en una novedosa arquitectura híbrida Transformer-Mamba de mezcla de expertos (MoE). Específicamente, Jamba intercala bloques de capas Transformer y Mamba, aprovechando los beneficios de ambas familias de modelos. Se añade MoE en algunas de estas capas para aumentar la capacidad del modelo mientras se mantiene un uso manejable de parámetros activos. Esta arquitectura flexible permite configuraciones específicas según los recursos y objetivos. En la configuración particular que hemos implementado, obtenemos un modelo potente que cabe en una única GPU de 80GB. Construido a gran escala, Jamba ofrece un alto rendimiento y una pequeña huella de memoria en comparación con los Transformers convencionales, al mismo tiempo que logra un rendimiento de vanguardia en evaluaciones estándar de modelos de lenguaje y en contextos largos. Notablemente, el modelo presenta resultados sólidos para longitudes de contexto de hasta 256K tokens. Estudiamos varias decisiones arquitectónicas, como cómo combinar capas Transformer y Mamba, y cómo mezclar expertos, y demostramos que algunas de ellas son cruciales en el modelado a gran escala. También describimos varias propiedades interesantes de estas arquitecturas que han sido reveladas durante el entrenamiento y evaluación de Jamba, y planeamos publicar puntos de control de varias ejecuciones de ablación, para fomentar una mayor exploración de esta novedosa arquitectura. Hacemos públicos los pesos de nuestra implementación de Jamba bajo una licencia permisiva.
Presentamos Gecko, un modelo de embeddings de texto compacto y versátil. Gecko logra un rendimiento sólido en recuperación de información mediante una idea clave: destilar conocimiento de modelos de lenguaje grandes (LLMs) en un recuperador. Nuestro proceso de destilación en dos pasos comienza generando datos sintéticos diversos y emparejados utilizando un LLM. Luego, refinamos aún más la calidad de los datos recuperando un conjunto de pasajes candidatos para cada consulta y reetiquetando los pasajes positivos y negativos difíciles utilizando el mismo LLM. La efectividad de nuestro enfoque se demuestra por la compacidad de Gecko. En el Massive Text Embedding Benchmark (MTEB), Gecko con 256 dimensiones de embedding supera a todas las entradas existentes con un tamaño de embedding de 768. Gecko con 768 dimensiones de embedding alcanza una puntuación promedio de 66.31, compitiendo con modelos 7 veces más grandes y embeddings 5 veces más dimensionales.
El Modelo de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) se utiliza ampliamente para tareas como asistentes inteligentes, resumen de texto, traducción y multimodalidad en teléfonos móviles. Sin embargo, los métodos actuales para la implementación de LLM en dispositivos mantienen una velocidad de inferencia lenta, lo que resulta en una experiencia de usuario deficiente. Para facilitar la implementación eficiente de LLM en las GPU de los dispositivos, proponemos cuatro técnicas de optimización: (a) un enfoque basado en expresiones simbólicas para admitir la inferencia de modelos con formas dinámicas; (b) optimizaciones de operadores y configuración de prioridades de ejecución para mejorar la velocidad de inferencia y reducir el retraso en el teléfono; (c) un método de cuantización FP4 denominado M0E4 para reducir la sobrecarga de desquantización; (d) una técnica basada en sub-tensores para eliminar la necesidad de copiar la caché KV después de la inferencia del LLM. Además, implementamos estos métodos en nuestro motor de inferencia móvil, Transformer-Lite, que es compatible con procesadores Qualcomm y MTK. Evaluamos el rendimiento de Transformer-Lite utilizando LLMs con diversas arquitecturas y parámetros que van desde 2B hasta 14B. Específicamente, logramos velocidades de prellenado y decodificación de 121 tokens/s y 14 tokens/s para ChatGLM2 6B, y 330 tokens/s y 30 tokens/s para el modelo más pequeño Gemma 2B, respectivamente. En comparación con FastLLM basado en CPU y MLC-LLM basado en GPU, nuestro motor alcanza una aceleración de más de 10 veces en la velocidad de prellenado y de 2 a 3 veces en la velocidad de decodificación.
La resolución de referencias es un problema importante, esencial para comprender y manejar con éxito contextos de diversos tipos. Este contexto incluye tanto turnos previos como contextos relacionados con entidades no conversacionales, como las que aparecen en la pantalla del usuario o aquellas que se ejecutan en segundo plano. Si bien se ha demostrado que los LLM (Modelos de Lenguaje de Gran Escala) son extremadamente potentes para una variedad de tareas, su uso en la resolución de referencias, particularmente para entidades no conversacionales, sigue siendo subutilizado. Este artículo demuestra cómo los LLM pueden utilizarse para crear un sistema extremadamente efectivo para resolver referencias de diversos tipos, mostrando cómo la resolución de referencias puede convertirse en un problema de modelado del lenguaje, a pesar de involucrar formas de entidades, como las que aparecen en pantalla, que tradicionalmente no se prestan a ser reducidas a una modalidad exclusivamente textual. Demostramos mejoras significativas sobre un sistema existente con funcionalidad similar en diferentes tipos de referencias, donde nuestro modelo más pequeño obtiene ganancias absolutas de más del 5% para referencias en pantalla. También comparamos nuestro rendimiento con GPT-3.5 y GPT-4, donde nuestro modelo más pequeño alcanza un rendimiento comparable al de GPT-4, y nuestros modelos más grandes lo superan sustancialmente.
Si bien la síntesis de nuevas vistas (NVS, por sus siglas en inglés) ha logrado avances significativos en la visión por computadora 3D, generalmente requiere una estimación inicial de los parámetros intrínsecos y extrínsecos de la cámara a partir de puntos de vista densos. Este preprocesamiento suele realizarse mediante una canalización de Estructura a partir del Movimiento (SfM), un procedimiento que puede ser lento y poco confiable, especialmente en escenarios de vistas escasas con características coincidentes insuficientes para una reconstrucción precisa. En este trabajo, integramos las fortalezas de las representaciones basadas en puntos (por ejemplo, 3D Gaussian Splatting, 3D-GS) con modelos de estéreo denso de extremo a extremo (DUSt3R) para abordar los problemas complejos y aún no resueltos en NVS bajo configuraciones no restringidas, que incluyen desafíos de poses libres y vistas escasas. Nuestro marco, InstantSplat, unifica los priores de estéreo denso con 3D-GS para construir gaussianas 3D de escenas a gran escala a partir de imágenes de vistas escasas y sin poses en menos de 1 minuto. Específicamente, InstantSplat comprende un módulo de Inicialización Geométrica Gruesa (CGI) que establece rápidamente una estructura preliminar de la escena y los parámetros de la cámara en todas las vistas de entrenamiento, utilizando mapas de puntos 3D alineados globalmente derivados de una canalización de estéreo denso preentrenada. Esto es seguido por el módulo de Optimización Rápida de Gaussianas 3D (F-3DGO), que optimiza conjuntamente los atributos de las gaussianas 3D y las poses inicializadas con regularización de poses. Los experimentos realizados en los conjuntos de datos de exteriores a gran escala Tanks & Temples demuestran que InstantSplat mejora significativamente el SSIM (en un 32%) mientras reduce simultáneamente el Error Absoluto de Trayectoria (ATE) en un 80%. Esto establece a InstantSplat como una solución viable para escenarios que involucran condiciones de poses libres y vistas escasas. Página del proyecto: instantsplat.github.io.
Este artículo presenta un desafío novedoso y significativo para los Modelos de Lenguaje Visual (VLMs, por sus siglas en inglés), denominado Detección de Problemas Irresolubles (UPD, por sus siglas en inglés). El UPD examina la capacidad de los VLMs para abstenerse de proporcionar respuestas cuando se enfrentan a problemas irresolubles en el contexto de tareas de Respuesta Visual a Preguntas (VQA, por sus siglas en inglés). El UPD abarca tres escenarios distintos: Detección de Respuesta Ausente (AAD, por sus siglas en inglés), Detección de Conjunto de Respuestas Incompatibles (IASD, por sus siglas en inglés) y Detección de Preguntas Visuales Incompatibles (IVQD, por sus siglas en inglés). Para investigar en profundidad el problema del UPD, extensos experimentos indican que la mayoría de los VLMs, incluyendo GPT-4V y LLaVA-Next-34B, enfrentan dificultades en nuestros puntos de referencia en diversos grados, lo que resalta un margen significativo para mejoras. Para abordar el UPD, exploramos tanto soluciones sin entrenamiento como basadas en entrenamiento, ofreciendo nuevas perspectivas sobre su efectividad y limitaciones. Esperamos que nuestras ideas, junto con esfuerzos futuros dentro de los escenarios propuestos para el UPD, contribuyan a una comprensión más amplia y al desarrollo de VLMs más prácticos y confiables.
¿Podemos localizar los pesos y mecanismos utilizados por un modelo de lenguaje para memorizar y recitar párrafos completos de sus datos de entrenamiento? En este artículo, demostramos que, aunque la memorización se distribuye en múltiples capas y componentes del modelo, los gradientes de los párrafos memorizados tienen un patrón espacial distinguible, siendo mayores en las capas inferiores del modelo que los gradientes de ejemplos no memorizados. Además, los ejemplos memorizados pueden ser "desaprendidos" ajustando únicamente los pesos con gradientes altos. Localizamos una cabeza de atención en una capa baja que parece estar especialmente involucrada en la memorización de párrafos. Esta cabeza se enfoca predominantemente en tokens distintivos y raros que son menos frecuentes en una distribución unigram a nivel de corpus. A continuación, estudiamos cuán localizada está la memorización en los tokens del prefijo al perturbar tokens y medir el cambio resultante en la decodificación. Unos pocos tokens distintivos al inicio del prefijo a menudo pueden corromper toda la continuación. En general, las continuaciones memorizadas no solo son más difíciles de desaprender, sino también de corromper en comparación con las no memorizadas.
En un esfuerzo por reducir la carga computacional de los Transformers, la investigación sobre la atención lineal ha ganado un impulso significativo. Sin embargo, las estrategias de mejora para los mecanismos de atención generalmente requieren un extenso reentrenamiento, lo cual resulta poco práctico para modelos de lenguaje grandes con una gran cantidad de parámetros. En este artículo, presentamos DiJiang, un novedoso enfoque de Kernelización en el Dominio de la Frecuencia que permite transformar un Transformer preentrenado en un modelo de complejidad lineal con costos de entrenamiento mínimos. Al emplear un método de muestreo Quasi-Monte Carlo ponderado, el enfoque propuesto ofrece teóricamente una eficiencia de aproximación superior. Para reducir aún más la complejidad computacional del entrenamiento, nuestra kernelización se basa en operaciones de Transformada Discreta del Coseno (DCT). Experimentos exhaustivos demuestran que el método propuesto logra un rendimiento comparable al Transformer original, pero con costos de entrenamiento significativamente reducidos y velocidades de inferencia mucho más rápidas. Nuestro DiJiang-7B alcanza un rendimiento comparable con LLaMA2-7B en varios benchmarks, mientras que requiere solo alrededor de 1/50 del costo de entrenamiento. El código está disponible en https://github.com/YuchuanTian/DiJiang.
Los avances recientes en aprendizaje profundo han dependido principalmente de los Transformers debido a su dependencia de los datos y su capacidad para aprender a gran escala. Sin embargo, el módulo de atención en estas arquitecturas exhibe un tiempo y espacio cuadráticos en función del tamaño de la entrada, lo que limita su escalabilidad para el modelado de secuencias largas. A pesar de los intentos recientes de diseñar arquitecturas eficientes y efectivas para datos multidimensionales, como imágenes y series temporales multivariadas, los modelos existentes son independientes de los datos o no permiten la comunicación inter e intra-dimensional. Recientemente, los Modelos de Espacio de Estados (SSMs), y más específicamente los Modelos de Espacio de Estados Selectivos, con una implementación eficiente orientada al hardware, han mostrado un potencial prometedor para el modelado de secuencias largas. Motivados por el éxito de los SSMs, presentamos MambaMixer, una nueva arquitectura con pesos dependientes de los datos que utiliza un mecanismo de selección dual a través de tokens y canales, denominado Mezclador Selectivo de Tokens y Canales. MambaMixer conecta mezcladores selectivos mediante un mecanismo de promediado ponderado, permitiendo que las capas tengan acceso directo a características tempranas. Como prueba de concepto, diseñamos las arquitecturas Vision MambaMixer (ViM2) y Time Series MambaMixer (TSM2) basadas en el bloque MambaMixer y exploramos su rendimiento en diversas tareas de visión y predicción de series temporales. Nuestros resultados subrayan la importancia de la mezcla selectiva tanto en tokens como en canales. En tareas de clasificación en ImageNet, detección de objetos y segmentación semántica, ViM2 logra un rendimiento competitivo con modelos de visión bien establecidos y supera a los modelos de visión basados en SSMs. En la predicción de series temporales, TSM2 alcanza un rendimiento sobresaliente en comparación con los métodos más avanzados, demostrando además una mejora significativa en el costo computacional. Estos resultados muestran que, aunque los Transformers, la atención entre canales y las MLPs son suficientes para un buen rendimiento en la predicción de series temporales, ninguno de ellos es necesario.
El tacto y la visión van de la mano, potenciándose mutuamente para mejorar nuestra capacidad de comprender el mundo. Desde una perspectiva de investigación, el problema de combinar el tacto y la visión está poco explorado y presenta desafíos interesantes. Con este fin, proponemos Tactile-Informed 3DGS, un enfoque novedoso que incorpora datos táctiles (mapas de profundidad local) con datos de visión multivista para lograr la reconstrucción de superficies y la síntesis de nuevas vistas. Nuestro método optimiza primitivas de Gaussianas 3D para modelar con precisión la geometría del objeto en los puntos de contacto. Al crear un marco que reduce la transmitancia en las ubicaciones táctiles, logramos una reconstrucción de superficie refinada, asegurando un mapa de profundidad uniformemente suave. El tacto es particularmente útil al considerar objetos no lambertianos (por ejemplo, superficies brillantes o reflectantes), ya que los métodos contemporáneos tienden a fallar al reconstruir con fidelidad los reflejos especulares. Al combinar la visión y la percepción táctil, logramos reconstrucciones geométricas más precisas con menos imágenes que los métodos anteriores. Realizamos evaluaciones en objetos con superficies brillantes y reflectantes y demostramos la efectividad de nuestro enfoque, ofreciendo mejoras significativas en la calidad de la reconstrucción.