Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos FinTral, una suite de modelos de lenguaje multimodal (LLM) de vanguardia construida sobre el modelo Mistral-7b y adaptada para el análisis financiero. FinTral integra datos textuales, numéricos, tabulares e imágenes. Mejoramos FinTral con preentrenamiento específico del dominio, ajuste fino mediante instrucciones y entrenamiento RLAIF, aprovechando una amplia colección de conjuntos de datos textuales y visuales que hemos curado para este trabajo. También introducimos un extenso benchmark que incluye nueve tareas y 25 conjuntos de datos para evaluación, incluyendo alucinaciones en el dominio financiero. Nuestro modelo FinTral entrenado con optimización directa de preferencias empleando métodos avanzados de Herramientas y Recuperación, denominado FinTral-DPO-T&R, demuestra un rendimiento excepcional en zero-shot. Supera a ChatGPT-3.5 en todas las tareas y supera a GPT-4 en cinco de las nueve tareas, marcando un avance significativo en la tecnología financiera impulsada por IA. También demostramos que FinTral tiene el potencial de sobresalir en el análisis en tiempo real y la toma de decisiones en diversos contextos financieros.
La naturaleza está libre de limitaciones de resolución. En este contexto, los modelos de difusión existentes, como los Transformers de Difusión, a menudo enfrentan desafíos al procesar imágenes con resoluciones fuera de su dominio de entrenamiento. Para superar esta limitación, presentamos el Transformer de Visión Flexible (FiT), una arquitectura de transformer diseñada específicamente para generar imágenes con resoluciones y relaciones de aspecto ilimitadas. A diferencia de los métodos tradicionales que perciben las imágenes como cuadrículas de resolución estática, FiT conceptualiza las imágenes como secuencias de tokens de tamaño dinámico. Esta perspectiva permite una estrategia de entrenamiento flexible que se adapta sin esfuerzo a diversas relaciones de aspecto durante las fases de entrenamiento e inferencia, promoviendo así la generalización de resolución y eliminando los sesgos inducidos por el recorte de imágenes. Potenciado por una estructura de red meticulosamente ajustada y la integración de técnicas de extrapolación sin entrenamiento, FiT exhibe una notable flexibilidad en la generación de extrapolación de resolución. Experimentos exhaustivos demuestran el rendimiento excepcional de FiT en un amplio rango de resoluciones, mostrando su efectividad tanto dentro como más allá de su distribución de resolución de entrenamiento. Repositorio disponible en https://github.com/whlzy/FiT.
Presentamos AnyGPT, un modelo de lenguaje multimodal de cualquier-a-cualquier tipo que utiliza representaciones discretas para el procesamiento unificado de diversas modalidades, incluyendo voz, texto, imágenes y música. AnyGPT puede entrenarse de manera estable sin necesidad de realizar modificaciones en la arquitectura actual de los modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) o en los paradigmas de entrenamiento. En su lugar, se basa exclusivamente en el preprocesamiento a nivel de datos, lo que facilita la integración fluida de nuevas modalidades en los LLM, de manera similar a la incorporación de nuevos idiomas. Construimos un conjunto de datos multimodal centrado en texto para el preentrenamiento de alineación multimodal. Utilizando modelos generativos, sintetizamos el primer conjunto de datos de instrucciones multimodales de cualquier-a-cualquier tipo a gran escala. Este consta de 108k muestras de conversaciones multiturno que entrelazan intrincadamente diversas modalidades, equipando así al modelo para manejar combinaciones arbitrarias de entradas y salidas multimodales. Los resultados experimentales demuestran que AnyGPT es capaz de facilitar conversaciones multimodales de cualquier-a-cualquier tipo, logrando un rendimiento comparable al de modelos especializados en todas las modalidades, lo que prueba que las representaciones discretas pueden unificar de manera efectiva y conveniente múltiples modalidades dentro de un modelo de lenguaje. Las demostraciones se pueden ver en https://junzhan2000.github.io/AnyGPT.github.io/.
La decodificación especulativa es una técnica destacada para acelerar la inferencia de un modelo de lenguaje objetivo grande basándose en las predicciones de un modelo auxiliar de borrador. Aunque es efectiva, en entornos específicos de aplicación, a menudo implica ajustar tanto el modelo de borrador como el modelo objetivo para lograr altas tasas de aceptación. A medida que crece el número de tareas posteriores, estos modelos de borrador añaden una complejidad significativa a los sistemas de inferencia. Proponemos *Speculative Streaming*, un método de decodificación especulativa de un solo modelo que fusiona la creación de borradores en el modelo objetivo al cambiar el objetivo de ajuste fino de la predicción del siguiente token a la predicción de n-gramas futuros. *Speculative Streaming* acelera la decodificación entre 1.8 y 3.1 veces en un conjunto diverso de tareas, como Resumen, Consultas Estructuradas y Representación de Significado, sin sacrificar la calidad de la generación. Además, *Speculative Streaming* es eficiente en parámetros. Logra aceleraciones iguales o superiores a las arquitecturas estilo Medusa mientras utiliza aproximadamente 10,000 veces menos parámetros adicionales, lo que lo hace ideal para dispositivos con recursos limitados.
La cuantificación de modelos utiliza valores de bajo ancho de bits para representar las matrices de pesos de los modelos, lo cual es un enfoque prometedor para reducir tanto el almacenamiento como los costos computacionales asociados al despliegue de los tan esperados LLM (Modelos de Lenguaje de Gran Escala). Sin embargo, los métodos de cuantificación existentes sufren una degradación severa del rendimiento cuando el ancho de bits se reduce extremadamente, por lo que se centran en utilizar valores de 4 bits u 8 bits para cuantificar los modelos. Este artículo cuantifica audazmente las matrices de pesos de los LLM a 1 bit, allanando el camino para el despliegue de LLM con un ancho de bits extremadamente bajo. Para este objetivo, introducimos un marco de entrenamiento consciente de la cuantificación de 1 bit (QAT) llamado OneBit, que incluye un novedoso método de representación de parámetros de 1 bit para cuantificar mejor los LLM, así como un método efectivo de inicialización de parámetros basado en la descomposición de matrices para mejorar la velocidad de convergencia del marco QAT. Los resultados experimentales suficientes indican que OneBit logra un buen rendimiento (al menos el 83% del rendimiento no cuantificado) con procesos de entrenamiento robustos cuando se utilizan únicamente matrices de pesos de 1 bit.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado poseer una amplia gama de capacidades, como generar código para robots a partir de comandos en lenguaje natural, lo que permite a no expertos dirigir comportamientos de robots, modificarlos en función de retroalimentación o combinarlos para realizar nuevas tareas. Sin embargo, estas capacidades (impulsadas por el aprendizaje en contexto) están limitadas a interacciones a corto plazo, donde la retroalimentación de los usuarios solo es relevante mientras se ajusta al tamaño del contexto del LLM, y puede olvidarse en interacciones más prolongadas. En este trabajo, investigamos el ajuste fino de los LLMs que generan código para robots, para que recuerden sus interacciones en contexto y mejoren su capacidad de enseñanza, es decir, la eficiencia con la que se adaptan a las entradas humanas (medida por el número promedio de correcciones antes de que el usuario considere la tarea exitosa). Nuestra observación clave es que, cuando las interacciones humano-robot se formulan como un proceso de decisión de Markov parcialmente observable (en el que las entradas de lenguaje humano son observaciones y las salidas de código del robot son acciones), entrenar un LLM para completar interacciones previas puede verse como entrenar un modelo de dinámica de transición, que puede combinarse con técnicas clásicas de robótica, como el control predictivo basado en modelos (MPC), para descubrir caminos más cortos hacia el éxito. Esto da lugar al Control Predictivo con Modelos de Lenguaje (LMPC), un marco que ajusta finamente a PaLM 2 para mejorar su capacidad de enseñanza en 78 tareas en 5 configuraciones de robots, aumentando las tasas de éxito en la enseñanza de tareas no vistas por no expertos en un 26.9% y reduciendo el número promedio de correcciones humanas de 2.4 a 1.9. Los experimentos muestran que LMPC también produce meta-aprendices robustos, mejorando la tasa de éxito del aprendizaje en contexto de nuevas tareas en configuraciones de robots y APIs no vistas en un 31.5%. Consulta videos, código y demostraciones en: https://robot-teaching.github.io/.
El notable éxito de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y el ajuste por instrucción impulsan la evolución de los Modelos de Visión y Lenguaje (VLMs) hacia un modelo versátil de propósito general. Sin embargo, aún no se ha explorado si los VLMs actuales poseen verdaderamente capacidades de comprensión de imágenes a nivel de objetos, determinadas por preguntas como "¿qué objetos hay en la imagen?" o "¿qué objeto corresponde a un cuadro delimitador especificado?". Nuestros hallazgos revelan que las capacidades de comprensión de imágenes de los VLMs actuales están fuertemente correlacionadas con su rendimiento en tareas de Visión y Lenguaje (VL) en modo zero-shot. Esto sugiere que priorizar la comprensión básica de imágenes es crucial para que los VLMs sobresalgan en tareas de VL. Para mejorar la comprensión de imágenes a nivel de objetos, proponemos el Modelo de Lenguaje y Visión de Gran Escala Crayon (CoLLaVO), que incorpora el ajuste por instrucción con indicaciones crayon como un nuevo esquema de ajuste de indicaciones visuales basado en mapas de color panópticos. Además, presentamos una estrategia de aprendizaje de Doble QLoRA para preservar la comprensión de imágenes a nivel de objetos sin olvidarla durante el ajuste por instrucción visual, logrando así un avance significativo en numerosos benchmarks de VL en modo zero-shot.
La calidad de los datos de ajuste fino es crucial para alinear los modelos de lenguaje grandes (LLMs) con los valores humanos. Los métodos actuales para mejorar la calidad de los datos son intensivos en mano de obra o propensos a errores fácticos causados por alucinaciones de los LLMs. Este artículo explora cómo elevar la calidad de los datos de instrucción existentes para alinearlos mejor con los valores humanos, introduciendo un enfoque simple y efectivo denominado ReAlign, que reformatea las respuestas de los datos de instrucción en un formato que se alinea mejor con los criterios preestablecidos y la evidencia recopilada. Este enfoque minimiza la anotación humana, las alucinaciones y la dificultad de escalar, manteniéndose ortogonal a las técnicas de alineación existentes. Experimentalmente, ReAlign mejora significativamente la capacidad general de alineación, el razonamiento matemático, la factualidad y la legibilidad de los LLMs. Alentadoramente, sin introducir datos adicionales ni técnicas avanzadas de entrenamiento, y simplemente reformateando la respuesta, la capacidad de razonamiento matemático de LLaMA-2-13B en GSM8K puede mejorar de un 46.77% a un 56.63% en precisión. Además, un mero 5% de datos ReAlign produce un aumento del 67% en la capacidad general de alineación medida por el conjunto de datos Alpaca. Este trabajo destaca la necesidad de seguir investigando la ciencia y la interpretabilidad mecanística de los LLMs. Hemos hecho público el código y los datos asociados para apoyar estudios futuros en https://github.com/GAIR-NLP/ReAlign.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento impresionante en la comprensión del lenguaje y la ejecución de tareas de razonamiento complejas. Sin embargo, los LLMs con ventanas de contexto largas han sido notorios por sus costosos procesos de entrenamiento y su alta latencia en la inferencia. Incluso los modelos más avanzados, como GPT-4 y Claude2, a menudo cometen errores al procesar entradas de más de 100k tokens, un fenómeno también conocido como "perdido en el medio". En este artículo, proponemos LongAgent, un método basado en la colaboración multiagente, que escala LLMs (por ejemplo, LLaMA) a un contexto de 128K y demuestra una potencial superioridad en el procesamiento de textos largos en comparación con GPT-4. En LongAgent, un líder es responsable de comprender la intención del usuario y dirigir a los miembros del equipo para adquirir información de los documentos. Debido a las alucinaciones de los miembros, no es trivial para un líder obtener información precisa de las respuestas de docenas a cientos de miembros. Para abordar esto, desarrollamos un mecanismo de comunicación entre miembros para resolver los conflictos de respuestas causados por alucinaciones mediante el intercambio de información. Nuestros resultados experimentales indican que LongAgent ofrece una alternativa prometedora para el procesamiento de textos largos. El equipo de agentes instanciado con LLaMA-7B logra mejoras significativas en tareas como la recuperación de textos de 128k de longitud y la respuesta a preguntas de múltiples saltos, en comparación con GPT-4.
Los modelos de lenguaje de última generación pueden exhibir capacidades impresionantes de refinamiento de razonamiento en tareas de matemáticas, ciencias o programación. Sin embargo, trabajos recientes demuestran que incluso los mejores modelos tienen dificultades para identificar cuándo y dónde refinar sin acceso a retroalimentación externa. Los Modelos de Recompensa Basados en Resultados (ORMs, por sus siglas en inglés), entrenados para predecir la corrección de la respuesta final e indicar cuándo refinar, ofrecen una solución conveniente para decidir cuándo hacerlo. Los Modelos de Recompensa Basados en Procesos (PRMs, por sus siglas en inglés), entrenados para predecir la corrección de los pasos intermedios, pueden entonces usarse para indicar dónde refinar. Sin embargo, son costosos de entrenar, ya que requieren anotaciones humanas extensas. En este artículo, proponemos los Modelos de Recompensa Basados en Resultados Paso a Paso (SORMs, por sus siglas en inglés), que se entrenan únicamente con datos sintéticos para aproximar la recompensa futura esperada de la política óptima o \(V^{\star}\). Más específicamente, los SORMs se entrenan para predecir la corrección de la respuesta final cuando se muestrea la política actual muchas veces (en lugar de solo una vez, como en el caso de los ORMs). Nuestros experimentos muestran que los SORMs pueden detectar con mayor precisión los pasos de razonamiento incorrectos en comparación con los ORMs, mejorando así la precisión en tareas de refinamiento. Luego entrenamos modelos de refinamiento global, que toman solo la pregunta y una solución preliminar como entrada y predicen una solución corregida, y modelos de refinamiento local, que también toman como entrada una crítica que indica la ubicación del primer error de razonamiento. Generamos datos de entrenamiento para ambos modelos de manera sintética reutilizando los datos utilizados para entrenar el SORM. Encontramos que combinar refinamientos globales y locales, utilizando el ORM como un reranker, supera significativamente a cualquiera de los dos por separado, así como a una línea base de la mejor de tres muestras. Con esta estrategia, podemos mejorar la precisión de un modelo LLaMA-2 13B (ya ajustado con aprendizaje por refuerzo) en GSM8K del 53% al 65% cuando se muestrea de manera codiciosa.
Si bien los algoritmos de síntesis de vistas basados en superficies son atractivos debido a sus bajos requisitos computacionales, a menudo tienen dificultades para reproducir estructuras delgadas. En contraste, métodos más costosos que modelan la geometría de la escena como un campo de densidad volumétrica (por ejemplo, NeRF) sobresalen en la reconstrucción de detalles geométricos finos. Sin embargo, los campos de densidad suelen representar la geometría de manera "difusa", lo que dificulta la localización exacta de la superficie. En este trabajo, modificamos los campos de densidad para incentivarlos a converger hacia las superficies, sin comprometer su capacidad para reconstruir estructuras delgadas. Primero, empleamos una representación de cuadrícula de opacidad discreta en lugar de un campo de densidad continuo, lo que permite que los valores de opacidad transiten de manera discontinua de cero a uno en la superficie. Segundo, aplicamos anti-aliasing lanzando múltiples rayos por píxel, lo que permite modelar límites de oclusión y estructuras subpíxel sin utilizar vóxeles semitransparentes. Tercero, minimizamos la entropía binaria de los valores de opacidad, lo que facilita la extracción de la geometría de la superficie al incentivar que los valores de opacidad se binaricen hacia el final del entrenamiento. Por último, desarrollamos una estrategia de mallado basada en fusión, seguida de simplificación de mallas y ajuste del modelo de apariencia. Las mallas compactas producidas por nuestro modelo pueden renderizarse en tiempo real en dispositivos móviles y logran una calidad de síntesis de vistas significativamente mayor en comparación con los enfoques basados en mallas existentes.
Este artículo presenta un método novedoso para ejercer un control detallado de la iluminación durante la generación de imágenes basada en difusión impulsada por texto. Aunque los modelos de difusión existentes ya tienen la capacidad de generar imágenes bajo cualquier condición de iluminación, sin una guía adicional estos modelos tienden a correlacionar el contenido de la imagen con la iluminación. Además, los prompts de texto carecen del poder expresivo necesario para describir configuraciones detalladas de iluminación. Para proporcionar al creador de contenido un control detallado sobre la iluminación durante la generación de imágenes, aumentamos el prompt de texto con información detallada de iluminación en forma de indicios de radiancia, es decir, visualizaciones de la geometría de la escena con un material canónico homogéneo bajo la iluminación objetivo. Sin embargo, la geometría de la escena necesaria para producir los indicios de radiancia es desconocida. Nuestra observación clave es que solo necesitamos guiar el proceso de difusión, por lo que no son necesarios indicios de radiancia exactos; solo necesitamos dirigir el modelo de difusión en la dirección correcta. Basándonos en esta observación, introducimos un método de tres etapas para controlar la iluminación durante la generación de imágenes. En la primera etapa, aprovechamos un modelo de difusión preentrenado estándar para generar una imagen provisional bajo iluminación no controlada. Luego, en la segunda etapa, resintetizamos y refinamos el objeto en primer plano de la imagen generada pasando la iluminación objetivo a un modelo de difusión refinado, llamado DiLightNet, utilizando indicios de radiancia calculados sobre una forma aproximada del objeto en primer plano inferida de la imagen provisional. Para conservar los detalles de la textura, multiplicamos los indicios de radiancia con una codificación neuronal de la imagen sintetizada provisional antes de pasarla a DiLightNet. Finalmente, en la tercera etapa, resintetizamos el fondo para que sea consistente con la iluminación del objeto en primer plano. Demostramos y validamos nuestro modelo de difusión controlado por iluminación en una variedad de prompts de texto y condiciones de iluminación.
A pesar de las capacidades notables de los modelos de visión-lenguaje (VLMs) como asistentes visuales versátiles, persisten dos desafíos sustanciales en los marcos existentes de VLMs: (1) la falta de diversidad de tareas en el preentrenamiento y el ajuste fino de instrucciones visuales, y (2) los errores de anotación y sesgos en los datos de ajuste fino de instrucciones sintetizados por GPT-4. Ambos desafíos conducen a problemas como la pobre generalización, alucinaciones y el olvido catastrófico. Para abordar estos desafíos, construimos Vision-Flan, el conjunto de datos de ajuste fino de instrucciones visuales más diverso disponible públicamente hasta la fecha, que comprende 187 tareas diversas y 1,664,261 instancias obtenidas de conjuntos de datos académicos, y cada tarea está acompañada por una instrucción escrita por expertos. Además, proponemos un marco de ajuste fino de instrucciones en dos etapas, en el que los VLMs se ajustan primero en Vision-Flan y luego se ajustan adicionalmente en datos sintetizados por GPT-4. Encontramos que este marco de ajuste fino en dos etapas supera significativamente el marco tradicional de ajuste fino de instrucciones visuales de una sola etapa y logra un rendimiento de vanguardia en una amplia gama de benchmarks de evaluación multimodal. Finalmente, realizamos análisis en profundidad para comprender el ajuste fino de instrucciones visuales y nuestros hallazgos revelan que: (1) los datos sintetizados por GPT-4 no mejoran sustancialmente las capacidades de los VLMs, sino que modulan las respuestas del modelo hacia formatos preferidos por los humanos; (2) una cantidad mínima (por ejemplo, 1,000) de datos sintetizados por GPT-4 puede alinear efectivamente las respuestas de los VLMs con las preferencias humanas; (3) el ajuste fino de instrucciones visuales ayuda principalmente a los modelos de lenguaje grandes (LLMs) a comprender las características visuales.
Los modelos auto-regresivos han logrado resultados impresionantes en la generación de imágenes 2D al modelar distribuciones conjuntas en el espacio de cuadrícula. En este artículo, extendemos los modelos auto-regresivos a dominios 3D y buscamos una mayor capacidad de generación de formas 3D mejorando los modelos auto-regresivos tanto en capacidad como en escalabilidad simultáneamente. En primer lugar, aprovechamos un conjunto de conjuntos de datos 3D disponibles públicamente para facilitar el entrenamiento de modelos a gran escala. Este conjunto consiste en una colección integral de aproximadamente 900,000 objetos, con múltiples propiedades de mallas, puntos, vóxeles, imágenes renderizadas y descripciones de texto. Este conjunto de datos etiquetado diverso, denominado Objaverse-Mix, permite que nuestro modelo aprenda de una amplia gama de variaciones de objetos. Sin embargo, la aplicación directa de la auto-regresión 3D enfrenta desafíos críticos de altas demandas computacionales en cuadrículas volumétricas y un orden auto-regresivo ambiguo a lo largo de las dimensiones de la cuadrícula, lo que resulta en una calidad inferior de las formas 3D. Para abordar esto, presentamos un nuevo marco llamado Argus3D en términos de capacidad. Concretamente, nuestro enfoque introduce el aprendizaje de representación discreta basado en un vector latente en lugar de cuadrículas volumétricas, lo que no solo reduce los costos computacionales sino que también preserva detalles geométricos esenciales al aprender las distribuciones conjuntas en un orden más manejable. La capacidad de generación condicional puede realizarse simplemente concatenando varias entradas de condicionamiento al vector latente, como nubes de puntos, categorías, imágenes y textos. Además, gracias a la simplicidad de nuestra arquitectura de modelo, escalamos naturalmente nuestro enfoque a un modelo más grande con impresionantes 3.6 mil millones de parámetros, mejorando aún más la calidad de la generación versátil de 3D. Experimentos extensos en cuatro tareas de generación demuestran que Argus3D puede sintetizar formas diversas y fieles en múltiples categorías, logrando un rendimiento notable.