Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Consistencia Latente (LCM, por sus siglas en inglés) han logrado un rendimiento impresionante en la aceleración de tareas generativas de texto a imagen, produciendo imágenes de alta calidad con un número mínimo de pasos de inferencia. Los LCM se destilan a partir de modelos de difusión latente (LDM) preentrenados, requiriendo solo ~32 horas de entrenamiento en GPU A100. Este informe amplía aún más el potencial de los LCM en dos aspectos: En primer lugar, al aplicar la destilación LoRA a modelos de Stable-Diffusion, incluyendo SD-V1.5, SSD-1B y SDXL, hemos ampliado el alcance de los LCM a modelos más grandes con un consumo de memoria significativamente menor, logrando una calidad superior en la generación de imágenes. En segundo lugar, identificamos los parámetros LoRA obtenidos mediante la destilación LCM como un módulo universal de aceleración para Stable-Diffusion, denominado LCM-LoRA. LCM-LoRA puede integrarse directamente en varios modelos ajustados de Stable-Diffusion o en otros LoRAs sin necesidad de entrenamiento adicional, representando así un acelerador universalmente aplicable para diversas tareas de generación de imágenes. En comparación con solucionadores numéricos previos de PF-ODE, como DDIM y DPM-Solver, LCM-LoRA puede verse como un solucionador neural de PF-ODE plug-in que posee fuertes capacidades de generalización. Página del proyecto: https://github.com/luosiallen/latent-consistency-model.
LLaVA-Plus es un asistente multimodal de propósito general que amplía las capacidades de los modelos multimodales grandes. Mantiene un repositorio de habilidades de modelos preentrenados de visión y visión-lenguaje, y puede activar herramientas relevantes basándose en las entradas de los usuarios para cumplir tareas del mundo real. LLaVA-Plus se entrena con datos multimodales de seguimiento de instrucciones para adquirir la capacidad de utilizar herramientas, abarcando comprensión visual, generación, recuperación de conocimiento externo y composiciones. Los resultados empíricos muestran que LLaVA-Plus supera a LLaVA en capacidades existentes y exhibe nuevas. Se distingue en que la consulta de imágenes está directamente fundamentada y activamente involucrada durante toda la sesión de interacción humano-IA, mejorando significativamente el rendimiento en el uso de herramientas y permitiendo nuevos escenarios.
Presentamos Prompt Cache, un enfoque para acelerar la inferencia en modelos de lenguaje de gran escala (LLM) mediante la reutilización de estados de atención entre diferentes prompts de LLM. Muchos prompts de entrada contienen segmentos de texto superpuestos, como mensajes del sistema, plantillas de prompts y documentos proporcionados como contexto. Nuestra idea clave es que, al precalcular y almacenar los estados de atención de estos segmentos de texto frecuentes en el servidor de inferencia, podemos reutilizarlos eficientemente cuando estos segmentos aparecen en los prompts de los usuarios. Prompt Cache emplea un esquema para definir explícitamente estos segmentos de texto reutilizables, llamados módulos de prompt. El esquema garantiza la precisión posicional durante la reutilización de los estados de atención y proporciona a los usuarios una interfaz para acceder a los estados almacenados en su prompt. Utilizando una implementación prototipo, evaluamos Prompt Cache en varios LLM. Demostramos que Prompt Cache reduce significativamente la latencia en el tiempo hasta el primer token, especialmente en prompts más largos como respuestas a preguntas basadas en documentos y recomendaciones. Las mejoras van desde 8x en inferencia basada en GPU hasta 60x en inferencia basada en CPU, todo ello manteniendo la precisión de la salida y sin necesidad de modificar los parámetros del modelo.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han alcanzado recientemente un rendimiento comparable al humano en una variedad de pruebas profesionales y académicas. Sin embargo, la accesibilidad de estos modelos ha quedado rezagada respecto a su desempeño. Los LLMs más avanzados requieren infraestructura costosa; solo están disponibles a través de interfaces web con limitaciones de tasa, restricciones geográficas y censura; y carecen de código y reportes técnicos disponibles públicamente. En este artículo, contamos la historia de GPT4All, un repositorio de código abierto popular que busca democratizar el acceso a los LLMs. Describimos los detalles técnicos de la familia original de modelos GPT4All, así como la evolución del proyecto GPT4All, desde un solo modelo hasta convertirse en un ecosistema de código abierto completamente desarrollado. Esperamos que este artículo sirva tanto como una visión técnica de los modelos originales GPT4All como un estudio de caso sobre el crecimiento posterior del ecosistema de código abierto GPT4All.
Los avances recientes como LLaVA y Mini-GPT4 han logrado integrar con éxito información visual en los LLM, obteniendo resultados inspiradores y dando lugar a una nueva generación de LLM multimodales, o MLLM. Sin embargo, estos métodos enfrentan dificultades con las alucinaciones y la interferencia mutua entre tareas. Para abordar estos problemas, proponemos un enfoque eficiente y preciso para adaptarse a tareas posteriores utilizando el LLM como puente para conectar múltiples modelos expertos, denominado u-LLaVA. En primer lugar, incorporamos el módulo de alineación de modalidades y los módulos multitarea en el LLM. Luego, reorganizamos o reconstruimos conjuntos de datos públicos de múltiples tipos para permitir una alineación de modalidades eficiente y el seguimiento de instrucciones. Finalmente, la información específica de la tarea se extrae del LLM entrenado y se proporciona a diferentes módulos para resolver tareas posteriores. El marco general es simple, efectivo y logra un rendimiento de vanguardia en múltiples benchmarks. También ponemos a disposición públicamente nuestro modelo, los datos generados y la base de código.
La búsqueda de la tecnología de conducción autónoma depende de la integración sofisticada de sistemas de percepción, toma de decisiones y control. Los enfoques tradicionales, tanto basados en datos como en reglas, se han visto limitados por su incapacidad para captar los matices de los entornos de conducción complejos y las intenciones de otros usuarios de la vía. Esto ha representado un cuello de botella significativo, particularmente en el desarrollo del razonamiento de sentido común y la comprensión matizada de escenarios necesarios para una conducción autónoma segura y confiable. El surgimiento de los Modelos de Lenguaje Visual (VLM, por sus siglas en inglés) representa una nueva frontera en la realización de la conducción completamente autónoma de vehículos. Este informe proporciona una evaluación exhaustiva del último modelo VLM de vanguardia, \modelnamefull, y su aplicación en escenarios de conducción autónoma. Exploramos las capacidades del modelo para comprender y razonar sobre escenas de conducción, tomar decisiones y, en última instancia, actuar en el rol de un conductor. Nuestras pruebas abarcan desde el reconocimiento básico de escenas hasta el razonamiento causal complejo y la toma de decisiones en tiempo real bajo diversas condiciones. Nuestros hallazgos revelan que \modelname demuestra un rendimiento superior en la comprensión de escenas y el razonamiento causal en comparación con los sistemas autónomos existentes. Muestra el potencial para manejar escenarios fuera de distribución, reconocer intenciones y tomar decisiones informadas en contextos de conducción real. Sin embargo, persisten desafíos, particularmente en la discernimiento de direcciones, el reconocimiento de semáforos, la fundamentación visual y las tareas de razonamiento espacial. Estas limitaciones subrayan la necesidad de continuar con la investigación y el desarrollo. El proyecto ahora está disponible en GitHub para que las partes interesadas puedan acceder y utilizarlo: https://github.com/PJLab-ADG/GPT4V-AD-Exploration.