Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Florence-2, un modelo de visión base novedoso con una representación unificada basada en instrucciones para una variedad de tareas de visión por computadora y visión-lenguaje. Si bien los modelos de visión grandes existentes sobresalen en el aprendizaje por transferencia, tienen dificultades para realizar una diversidad de tareas con instrucciones simples, una capacidad que implica manejar la complejidad de varias jerarquías espaciales y granularidades semánticas. Florence-2 fue diseñado para tomar instrucciones de tareas en forma de texto y generar resultados deseables en formato textual, ya sea subtitulación, detección de objetos, localización o segmentación. Esta configuración de aprendizaje multitarea requiere datos anotados a gran escala y de alta calidad. Con este fin, co-desarrollamos FLD-5B, que consta de 5.4 mil millones de anotaciones visuales completas en 126 millones de imágenes, utilizando una estrategia iterativa de anotación automática de imágenes y refinamiento del modelo. Adoptamos una estructura secuencia-a-secuencia para entrenar a Florence-2 y que realice tareas de visión versátiles y completas. Evaluaciones extensas en numerosas tareas demostraron que Florence-2 es un fuerte contendiente como modelo de visión base, con capacidades sin precedentes en zero-shot y fine-tuning.
Lograr una planificación y control similares a los humanos con observaciones multimodales en un mundo abierto es un hito clave para agentes generalistas más funcionales. Los enfoques existentes pueden manejar ciertas tareas de largo horizonte en un mundo abierto. Sin embargo, aún tienen dificultades cuando el número de tareas en el mundo abierto podría ser potencialmente infinito y carecen de la capacidad para mejorar progresivamente la finalización de tareas a medida que avanza el tiempo de juego. Presentamos JARVIS-1, un agente de mundo abierto que puede percibir entradas multimodales (observaciones visuales e instrucciones humanas), generar planes sofisticados y realizar control encarnado, todo dentro del popular y desafiante universo abierto de Minecraft. Específicamente, desarrollamos JARVIS-1 sobre modelos de lenguaje multimodal preentrenados, que mapean observaciones visuales e instrucciones textuales a planes. Los planes se enviarán finalmente a controladores condicionados por objetivos. Equipamos a JARVIS-1 con una memoria multimodal, que facilita la planificación utilizando tanto conocimiento preentrenado como sus experiencias reales de supervivencia en el juego. En nuestros experimentos, JARVIS-1 exhibe un rendimiento casi perfecto en más de 200 tareas variadas del Minecraft Universe Benchmark, que van desde niveles de entrada hasta intermedios. JARVIS-1 ha logrado una tasa de finalización del 12.5% en la tarea de largo horizonte de obtener un pico de diamante. Esto representa un aumento significativo de hasta 5 veces en comparación con registros anteriores. Además, demostramos que JARVIS-1 es capaz de auto-mejorarse siguiendo un paradigma de aprendizaje continuo gracias a la memoria multimodal, despertando una inteligencia más general y una autonomía mejorada. La página del proyecto está disponible en https://craftjarvis-jarvis1.github.io.
Los modelos de difusión para la generación de texto a 3D han logrado avances notables en los últimos años. Sin embargo, los métodos existentes dependen de una optimización basada en la destilación de puntuaciones, que sufre de inferencia lenta, baja diversidad y problemas de Janus, o son métodos de avance directo que generan resultados de baja calidad debido a la escasez de datos de entrenamiento en 3D. En este artículo, proponemos Instant3D, un método novedoso que genera activos 3D de alta calidad y diversos a partir de indicaciones de texto de manera directa. Adoptamos un paradigma de dos etapas, que primero genera un conjunto disperso de cuatro vistas estructuradas y consistentes a partir del texto en una sola pasada con un modelo de difusión de texto a imagen 2D ajustado, y luego regresa directamente el NeRF a partir de las imágenes generadas con un reconstructor basado en transformadores para vistas dispersas. A través de experimentos exhaustivos, demostramos que nuestro método puede generar activos 3D de alta calidad, diversos y libres de problemas de Janus en menos de 20 segundos, lo que es dos órdenes de magnitud más rápido que los métodos basados en optimización anteriores que pueden tardar de 1 a 10 horas. Nuestra página web del proyecto: https://jiahao.ai/instant3d/.
Presentamos Lumos, un marco novedoso para entrenar agentes de lenguaje que emplea un formato de datos unificado y una arquitectura modular basada en modelos de lenguaje de gran escala (LLMs) de código abierto. Lumos consta de tres módulos distintos: planificación, contextualización y ejecución. El módulo de planificación descompone una tarea en una serie de subobjetivos de alto nivel, independientes de herramientas específicas, que luego son concretados por el módulo de contextualización mediante un conjunto de acciones de bajo nivel. Estas acciones son posteriormente ejecutadas por el módulo de ejecución, utilizando una variedad de herramientas y APIs disponibles. Para entrenar estos módulos de manera efectiva, se recopilaron anotaciones de alta calidad de subobjetivos y acciones, las cuales están disponibles para ajustar LLMs de código abierto en diversas tareas, como respuesta a preguntas complejas, tareas web y problemas matemáticos. Aprovechando este diseño unificado y modular, Lumos no solo logra un rendimiento comparable o superior al de los agentes más avanzados actualmente, sino que también exhibe varias ventajas clave: (1) Lumos supera a los agentes basados en GPT-4/3.5 en tareas de respuesta a preguntas complejas y tareas web, igualando el rendimiento de agentes basados en LLMs significativamente más grandes en tareas matemáticas; (2) Lumos supera a los agentes de código abierto creados mediante métodos de entrenamiento convencionales y aquellos que utilizan entrenamiento de cadena de pensamientos; y (3) Lumos es capaz de generalizar efectivamente a tareas interactivas no vistas, superando a agentes basados en LLMs más grandes e incluso excediendo el rendimiento de agentes especializados.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sobresalen en muchas tareas dentro del procesamiento del lenguaje natural (NLP) y más allá, pero la mayoría de los modelos abiertos tienen una cobertura muy limitada de idiomas minoritarios, y el trabajo con LLMs tiende a centrarse en lenguas donde hay datos prácticamente ilimitados disponibles para el preentrenamiento. En este trabajo, estudiamos los desafíos de crear LLMs para el finlandés, un idioma hablado por menos del 0.1% de la población mundial. Compilamos un extenso conjunto de datos en finlandés que combina rastreos web, noticias, redes sociales y libros electrónicos. Seguimos dos enfoques para el preentrenamiento de modelos: 1) entrenamos siete modelos monolingües desde cero (con parámetros que van desde 186M hasta 13B), denominados FinGPT, y 2) continuamos el preentrenamiento del modelo multilingüe BLOOM con una mezcla de sus datos de entrenamiento originales y datos en finlandés, lo que resulta en un modelo de 176 mil millones de parámetros que llamamos BLUUMI. Para la evaluación de los modelos, presentamos FIN-bench, una versión de BIG-bench con tareas en finlandés. También evaluamos otras cualidades de los modelos, como la toxicidad y el sesgo. Nuestros modelos y herramientas están disponibles abiertamente en https://turkunlp.org/gpt3-finnish.
La ingeniería de prompts es una tarea desafiante pero crucial para optimizar el rendimiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Requiere un razonamiento complejo para examinar los errores del modelo, hipotetizar qué falta o es engañoso en el prompt actual, y comunicar la tarea con claridad. Aunque trabajos recientes indican que los LLMs pueden ser meta-prompted para realizar ingeniería de prompts automática, su potencial podría no estar completamente explotado debido a la falta de una guía suficiente para elicitar capacidades de razonamiento complejo en los LLMs dentro del meta-prompt. En este trabajo, investigamos el problema de "ingeniería de prompts para un ingeniero de prompts" — construyendo un meta-prompt que guíe de manera más efectiva a los LLMs para realizar ingeniería de prompts automática. Introducimos y analizamos componentes clave, como una plantilla de razonamiento paso a paso y especificación de contexto, que conducen a un mejor rendimiento. Además, inspirados por conceptos comunes de optimización como tamaño de lote, tamaño de paso y momento, introducimos sus contrapartes verbalizadas en el meta-prompt e investigamos sus efectos. Nuestro método final, denominado PE2, encuentra un prompt que supera a "pensemos paso a paso" en un 6.3% en el conjunto de datos MultiArith y en un 3.1% en el conjunto de datos GSM8K. Para demostrar su versatilidad, aplicamos PE2 al benchmark de Inducción de Instrucciones, un conjunto de tareas contrafactuales, y a un prompt industrial extenso y del mundo real. En estos escenarios, PE2 logra un rendimiento sólido y supera a las líneas base previas de ingeniería de prompts automática. Además, mostramos que PE2 realiza ediciones de prompts significativas y dirigidas, corrige prompts erróneos o incompletos, y presenta habilidades no triviales de razonamiento contrafactual.
El razonamiento lógico es un aspecto fundamental de la inteligencia humana y un componente clave en tareas como la resolución de problemas y la toma de decisiones. Los avances recientes han permitido que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) potencialmente exhiban capacidades de razonamiento, aunque el razonamiento lógico complejo sigue siendo un desafío. Los modelos de lenguaje aumentados con solucionadores, considerados el estado del arte, utilizan LLMs para analizar preguntas lógicas en lenguaje natural y convertirlas primero en representaciones simbólicas, para luego emplear solucionadores lógicos externos que procesan estas representaciones y generan las respuestas. A pesar de su impresionante rendimiento, cualquier error en el análisis inevitablemente resultará en el fallo de la ejecución del solucionador lógico externo y en la ausencia de respuestas a las preguntas lógicas. En este artículo, presentamos LoGiPT, un modelo de lenguaje novedoso que emula directamente los procesos de razonamiento de los solucionadores lógicos y evita los errores de análisis al aprender a adherirse estrictamente a la sintaxis y gramática de los solucionadores. LoGiPT se ajusta mediante un nuevo conjunto de datos de ajuste por instrucciones, construido a partir de revelar y refinar el proceso de razonamiento invisible de los solucionadores deductivos. Los resultados experimentales en dos conjuntos de datos públicos de razonamiento deductivo demuestran que LoGiPT supera a los modelos de lenguaje aumentados con solucionadores de última generación y a los métodos de prompting con pocos ejemplos en LLMs competitivos como ChatGPT o GPT-4.
Los grandes modelos fundacionales se están volviendo omnipresentes, pero entrenarlos desde cero resulta prohibitivamente costoso. Por lo tanto, adaptar de manera eficiente estos potentes modelos a tareas específicas es cada vez más importante. En este artículo, estudiamos un paradigma de ajuste fino basado en principios —el Ajuste Fino Ortogonal (OFT, por sus siglas en inglés)— para la adaptación a tareas específicas. A pesar de demostrar una buena capacidad de generalización, OFT aún utiliza un número considerablemente grande de parámetros entrenables debido a la alta dimensionalidad de las matrices ortogonales. Para abordar esto, comenzamos examinando OFT desde una perspectiva de transmisión de información y luego identificamos algunos requisitos clave que permiten una mayor eficiencia en el uso de parámetros. Inspirados por cómo el algoritmo de transformada rápida de Fourier de Cooley-Tukey permite una transmisión eficiente de información, proponemos una parametrización ortogonal eficiente utilizando estructuras de mariposa. Aplicamos esta parametrización a OFT, creando un nuevo método de ajuste fino eficiente en parámetros, llamado Mariposa Ortogonal (BOFT, por sus siglas en inglés). Al incluir OFT como un caso especial, BOFT introduce un marco generalizado de ajuste fino ortogonal. Finalmente, llevamos a cabo un estudio empírico exhaustivo sobre la adaptación de grandes transformadores de visión, grandes modelos de lenguaje y modelos de difusión de texto a imagen a diversas tareas específicas en visión y lenguaje.
Los modelos de convolución con filtros largos han demostrado capacidades de razonamiento de vanguardia en muchas tareas de secuencias largas, pero se quedan atrás de los Transformers más optimizados en términos de tiempo de ejecución. Un cuello de botella importante es la Transformada Rápida de Fourier (FFT), que permite que las convoluciones largas se ejecuten en tiempo O(N logN) para una secuencia de longitud N, pero tiene una mala utilización del hardware. En este artículo, estudiamos cómo optimizar la convolución FFT. Identificamos dos cuellos de botella clave: la FFT no utiliza eficientemente las unidades especializadas de multiplicación de matrices, y genera costosas operaciones de E/S entre las capas de la jerarquía de memoria. En respuesta, proponemos FlashFFTConv. FlashFFTConv utiliza una descomposición matricial que calcula la FFT empleando unidades de multiplicación de matrices y permite la fusión de kernels para secuencias largas, reduciendo las operaciones de E/S. También presentamos dos algoritmos de convolución dispersa: 1) convoluciones parciales y 2) convoluciones esparcidas en frecuencia, que pueden implementarse simplemente omitiendo bloques en la descomposición matricial, lo que ofrece oportunidades adicionales para ahorrar memoria y cómputo. FlashFFTConv acelera las convoluciones FFT exactas hasta 7.93 veces en comparación con PyTorch y logra una aceleración de hasta 4.4 veces en el proceso completo. Con el mismo presupuesto de cómputo, FlashFFTConv permite que Hyena-GPT-s alcance 2.3 puntos mejor en perplejidad en PILE y que M2-BERT-base obtenga 3.3 puntos más en la puntuación GLUE, igualando modelos con el doble de parámetros. FlashFFTConv también logra un 96.1% de precisión en Path-512, una tarea de visión de alta resolución donde ningún modelo había superado previamente el 50%. Además, las convoluciones parciales permiten modelos de secuencias más largas, dando lugar al primer modelo de ADN que puede procesar los genes humanos más largos (2.3 millones de pares de bases), y las convoluciones esparcidas en frecuencia aceleran modelos preentrenados manteniendo o mejorando la calidad del modelo.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se están utilizando cada vez más para tareas de toma de decisiones interactivas que requieren planificación y adaptación al entorno. Trabajos recientes emplean LLMs como agentes principalmente de dos maneras: determinando iterativamente la siguiente acción (ejecutores iterativos) o generando planes y ejecutando sub-tareas utilizando LLMs (planificar y ejecutar). Sin embargo, estos métodos enfrentan dificultades con la complejidad de las tareas, ya que la incapacidad de ejecutar cualquier sub-tarea puede llevar al fracaso de la tarea. Para abordar estas limitaciones, presentamos Descomposición y Planificación Según Necesidad para Tareas Complejas (ADaPT, por sus siglas en inglés), un enfoque que planifica y descompone explícitamente sub-tareas complejas según sea necesario, es decir, cuando el LLM no puede ejecutarlas. ADaPT descompone recursivamente las sub-tareas para adaptarse tanto a la complejidad de la tarea como a la capacidad del LLM. Nuestros resultados demuestran que ADaPT supera sustancialmente líneas de base establecidas, logrando tasas de éxito hasta un 28.3% más altas en ALFWorld, un 27% en WebShop y un 33% en TextCraft — un nuevo conjunto de datos composicional que introducimos. A través de un análisis extenso, ilustramos la importancia de la descomposición multinivel y establecemos que ADaPT se ajusta dinámicamente a las capacidades del LLM ejecutor, así como a la complejidad de la tarea.
Uno de los principales desafíos del aprendizaje multimodal es la necesidad de combinar modalidades heterogéneas (por ejemplo, video, audio, texto). Por ejemplo, el video y el audio se obtienen a tasas mucho más altas que el texto y están aproximadamente alineados en el tiempo. A menudo no están sincronizados con el texto, que aparece como un contexto global, por ejemplo, un título o una descripción. Además, las entradas de video y audio tienen volúmenes mucho mayores y crecen a medida que aumenta la duración del video, lo que naturalmente requiere más capacidad de cómputo dedicada a estas modalidades y dificulta el modelado de dependencias de largo alcance. Aquí desacoplamos el modelado multimodal, dividiéndolo en modelos autorregresivos separados y especializados, que procesan las entradas según las características de las modalidades. Proponemos un modelo multimodal, llamado Mirasol3B, que consta de un componente autorregresivo para las modalidades sincronizadas en el tiempo (audio y video) y un componente autorregresivo para las modalidades de contexto que no están necesariamente alineadas en el tiempo pero que siguen siendo secuenciales. Para abordar las secuencias largas de las entradas de video y audio, proponemos dividir aún más las secuencias de video y audio en fragmentos consecutivos y procesar autorregresivamente sus representaciones. Para ello, proponemos un mecanismo llamado Combiner, que modela la información de audio y video de manera conjunta dentro de un marco de tiempo. El Combiner aprende a extraer características de audio y video a partir de señales espacio-temporales crudas, y luego aprende a fusionar estas características produciendo representaciones compactas pero expresivas por fragmento. Nuestro enfoque alcanza el estado del arte en benchmarks multimodales bien establecidos, superando a modelos mucho más grandes. Aborda de manera efectiva la alta demanda computacional de las entradas multimedia tanto al aprender representaciones compactas, controlar la longitud de las secuencias de las representaciones de características de audio y video, como al modelar sus dependencias en el tiempo.
El aprendizaje de interacciones entre características es el pilar fundamental para construir sistemas de recomendación. En aplicaciones a escala web, aprender interacciones entre características es extremadamente desafiante debido al espacio de características de entrada grande y disperso; mientras tanto, diseñar manualmente interacciones efectivas entre características es inviable debido al espacio de soluciones exponencial. Proponemos aprovechar una arquitectura basada en Transformer con capas de atención para capturar automáticamente las interacciones entre características. Las arquitecturas Transformer han tenido un gran éxito en muchos dominios, como el procesamiento del lenguaje natural y la visión por computadora. Sin embargo, no ha habido mucha adopción de la arquitectura Transformer para el modelado de interacciones entre características en la industria. Nuestro objetivo es cerrar esta brecha. Identificamos dos desafíos clave para aplicar la arquitectura Transformer estándar a sistemas de recomendación a escala web: (1) La arquitectura Transformer no logra capturar las interacciones heterogéneas entre características en la capa de autoatención; (2) La latencia de servicio de la arquitectura Transformer podría ser demasiado alta para implementarse en sistemas de recomendación a escala web. Primero proponemos una capa de autoatención heterogénea, que es una modificación simple pero efectiva de la capa de autoatención en Transformer, para tener en cuenta la heterogeneidad de las interacciones entre características. Luego presentamos Hiformer (Transformer de Interacciones Heterogéneas) para mejorar aún más la expresividad del modelo. Con aproximación de bajo rango y poda del modelo, Hiformer disfruta de una inferencia rápida para su implementación en línea. Los resultados extensos de experimentos fuera de línea corroboran la efectividad y eficiencia del modelo Hiformer. Hemos implementado con éxito el modelo Hiformer en un modelo de clasificación de aplicaciones a gran escala en Google Play, con una mejora significativa en las métricas clave de participación (hasta +2.66\%).
Las tareas de predicción densa, como la segmentación semántica, la estimación de profundidad y la predicción de normales de superficie, pueden formularse fácilmente como clasificación por píxel (salidas discretas) o regresión (salidas continuas). Este paradigma de predicción por píxel ha permanecido popular debido a la prevalencia de las redes completamente convolucionales. Sin embargo, en la frontera reciente de la tarea de segmentación, la comunidad ha sido testigo de un cambio de paradigma desde la predicción por píxel hacia la predicción por clúster con el surgimiento de arquitecturas transformadoras, particularmente los transformadores de máscaras, que predicen directamente una etiqueta para una máscara en lugar de un píxel. A pesar de este cambio, los métodos basados en el paradigma de predicción por píxel aún dominan los puntos de referencia en otras tareas de predicción densa que requieren salidas continuas, como la estimación de profundidad y la predicción de normales de superficie. Motivados por el éxito de DORN y AdaBins en la estimación de profundidad, logrado mediante la discretización del espacio de salida continuo, proponemos generalizar el método basado en predicción por clúster a tareas generales de predicción densa. Esto nos permite unificar las tareas de predicción densa con el marco de los transformadores de máscaras. Notablemente, el modelo resultante PolyMaX demuestra un rendimiento de vanguardia en tres puntos de referencia del conjunto de datos NYUD-v2. Esperamos que nuestro diseño simple pero efectivo pueda inspirar más investigaciones sobre la explotación de transformadores de máscaras para más tareas de predicción densa. El código y el modelo estarán disponibles.
El modelo Transformer ha ganado una amplia adopción en tareas de visión por computadora en los últimos tiempos. Sin embargo, debido a la complejidad cuadrática en tiempo y memoria de la autoatención, que es proporcional al número de tokens de entrada, la mayoría de los Vision Transformers (ViTs) existentes enfrentan desafíos para lograr un rendimiento eficiente en escenarios de implementación industrial práctica, como TensorRT y CoreML, donde las CNN tradicionales sobresalen. Aunque se han realizado algunos intentos recientes para diseñar arquitecturas híbridas CNN-Transformer para abordar este problema, su rendimiento general no ha cumplido con las expectativas. Para abordar estos desafíos, proponemos una arquitectura híbrida eficiente de ViT llamada FMViT. Este enfoque mejora el poder expresivo del modelo al combinar características de alta frecuencia y baja frecuencia con diferentes frecuencias, permitiéndole capturar tanto información local como global de manera efectiva. Además, introducimos mecanismos amigables para la implementación, como la Reparametrización Multigrupo Convolucional (gMLP), la Autoatención Multi-cabeza Ligera (RLMHSA) y el Bloque de Fusión Convolucional (CFB), para mejorar aún más el rendimiento del modelo y reducir la sobrecarga computacional. Nuestros experimentos demuestran que FMViT supera a las CNN, ViTs y arquitecturas híbridas CNN-Transformer existentes en términos de equilibrio entre latencia/precisión para diversas tareas de visión. En la plataforma TensorRT, FMViT supera a Resnet101 en un 2.5% (83.3% vs. 80.8%) en precisión top-1 en el conjunto de datos ImageNet, manteniendo una latencia de inferencia similar. Además, FMViT logra un rendimiento comparable con EfficientNet-B5, pero con una mejora del 43% en la velocidad de inferencia. En CoreML, FMViT supera a MobileOne en un 2.6% en precisión top-1 en el conjunto de datos ImageNet, con una latencia de inferencia comparable a MobileOne (78.5% vs. 75.9%). Nuestro código se puede encontrar en https://github.com/tany0699/FMViT.