Artículos de investigación en IA seleccionados diariamente con traducciones
La reciente oleada de Modelos de Lenguaje Multimodales de Gran Tamaño (MLLMs, por sus siglas en inglés) ha transformado fundamentalmente el panorama de la investigación y la industria de la IA, arrojando luz sobre un camino prometedor hacia el próximo hito de la IA. Sin embargo, persisten desafíos significativos que impiden que los MLLMs sean prácticos en aplicaciones del mundo real. El desafío más notable proviene del enorme costo de ejecutar un MLLM con un gran número de parámetros y una extensa computación. Como resultado, la mayoría de los MLLMs necesitan ser desplegados en servidores en la nube de alto rendimiento, lo que limita en gran medida sus ámbitos de aplicación, como en escenarios móviles, sin conexión, sensibles a la energía y protectores de la privacidad. En este trabajo, presentamos MiniCPM-V, una serie de MLLMs eficientes desplegables en dispositivos de extremo. Al integrar las últimas técnicas de MLLM en arquitectura, preentrenamiento y alineación, el último MiniCPM-Llama3-V 2.5 tiene varias características notables: (1) Alto rendimiento, superando a GPT-4V-1106, Gemini Pro y Claude 3 en OpenCompass, una evaluación exhaustiva sobre 11 benchmarks populares, (2) sólida capacidad de OCR y percepción de imágenes de alta resolución de 1.8M píxeles en cualquier relación de aspecto, (3) comportamiento confiable con bajos índices de alucinación, (4) soporte multilingüe para más de 30 idiomas, y (5) despliegue eficiente en teléfonos móviles. Más importante aún, MiniCPM-V puede considerarse un ejemplo representativo de una tendencia prometedora: los tamaños de los modelos para lograr un rendimiento de nivel utilizable (por ejemplo, GPT-4V) están disminuyendo rápidamente, junto con el rápido crecimiento de la capacidad de computación en los dispositivos de extremo. Esto muestra conjuntamente que los MLLMs de nivel GPT-4V desplegados en dispositivos de extremo están volviéndose cada vez más posibles, desbloqueando un espectro más amplio de aplicaciones de IA del mundo real en un futuro cercano.
El diálogo sirve como la forma más natural de interacción humano-computadora (HCI). Los avances recientes en modelos de lenguaje hablado (SLM) han mejorado significativamente la IA conversacional basada en el habla. Sin embargo, estos modelos están limitados a conversaciones por turnos, careciendo de la capacidad de interactuar con humanos en escenarios hablados en tiempo real, por ejemplo, al ser interrumpidos cuando el contenido generado no es satisfactorio. Para abordar estas limitaciones, exploramos el modelado de dúplex completo (FDM) en modelos interactivos de lenguaje hablado (iSLM), centrándonos en mejorar la interacción en tiempo real y, más explícitamente, explorando la capacidad esencial de interrupción. Presentamos un diseño de modelo novedoso, denominado modelo de lenguaje escucha-mientras-habla (LSLM), un sistema de extremo a extremo equipado con canales de escucha y habla. Nuestro LSLM emplea un decodificador basado en tokens TTS para la generación de habla y un codificador de aprendizaje auto-supervisado en streaming (SSL) para la entrada de audio en tiempo real. LSLM fusiona ambos canales para la generación autoregresiva y detecta los turnos en tiempo real. Se exploran tres estrategias de fusión: fusión temprana, fusión intermedia y fusión tardía, siendo la fusión intermedia la que logra un equilibrio óptimo entre la generación de habla y la interacción en tiempo real. Dos configuraciones experimentales, FDM basado en comandos y FDM basado en voz, demuestran la robustez de LSLM al ruido y la sensibilidad a instrucciones diversas. Nuestros resultados destacan la capacidad de LSLM para lograr comunicación dúplex con un impacto mínimo en los sistemas existentes. Este estudio tiene como objetivo avanzar en el desarrollo de sistemas de diálogo de habla interactiva, mejorando su aplicabilidad en contextos del mundo real.
Implementar sistemas de Generación con Recuperación (RAG) es inherentemente complejo, requiriendo un profundo entendimiento de los datos, casos de uso y decisiones de diseño intrincadas. Además, evaluar estos sistemas presenta desafíos significativos, exigiendo la evaluación tanto de la precisión de la recuperación como de la calidad generativa a través de un enfoque multifacético. Presentamos RAG Foundry, un marco de trabajo de código abierto para potenciar modelos de lenguaje grandes para casos de uso de RAG. RAG Foundry integra la creación de datos, entrenamiento, inferencia y evaluación en un flujo de trabajo único, facilitando la creación de conjuntos de datos aumentados por datos para entrenar y evaluar modelos de lenguaje grandes en entornos de RAG. Esta integración permite el prototipado rápido y la experimentación con diversas técnicas de RAG, permitiendo a los usuarios generar conjuntos de datos y entrenar modelos de RAG utilizando fuentes de conocimiento internas o especializadas. Demostramos la efectividad del marco potenciando y ajustando los modelos Llama-3 y Phi-3 con diversas configuraciones de RAG, mostrando mejoras consistentes en tres conjuntos de datos intensivos en conocimiento. El código se publica como código abierto en https://github.com/IntelLabs/RAGFoundry.
Presentamos Lumina-mGPT, una familia de modelos autoregresivos multimodales capaces de realizar diversas tareas de visión y lenguaje, destacando especialmente en la generación de imágenes fotorrealistas flexibles a partir de descripciones de texto. A diferencia de los enfoques existentes de generación de imágenes autoregresivas, Lumina-mGPT utiliza un transformador preentrenado de solo decodificador como un marco unificado para modelar secuencias de tokens multimodales. Nuestra idea clave es que un simple transformador de solo decodificador con Generative PreTraining multimodal (mGPT), utilizando el objetivo de predicción del siguiente token en secuencias masivas de texto-imagen entrelazadas, puede aprender capacidades multimodales amplias y generales, iluminando así la generación fotorrealista de texto a imagen. Basándonos en estos modelos preentrenados, proponemos un Ajuste Supervisado Progresivo Flexible (FP-SFT) en pares de alta calidad de imagen-texto para desbloquear completamente su potencial para la síntesis de imágenes de alta estética en cualquier resolución, manteniendo al mismo tiempo sus capacidades multimodales generales. Además, introducimos un Ajuste Supervisado Omnipotente (Omni-SFT), transformando Lumina-mGPT en un modelo base que logra de manera fluida la unificación de tareas omnipotentes. El modelo resultante demuestra versátiles capacidades multimodales, incluyendo tareas de generación visual como la generación flexible de texto a imagen y generación controlable, tareas de reconocimiento visual como segmentación y estimación de profundidad, y tareas de visión-lenguaje como preguntas visuales multiturno. Además, analizamos las diferencias y similitudes entre los métodos basados en difusión y autoregresivos en una comparación directa.
Presentamos MeshAnything V2, un transformador autoregresivo que genera Mallas Creadas por Artistas (AM) alineadas a formas dadas. Puede integrarse con diversas tuberías de producción de activos 3D para lograr una generación de AM de alta calidad y altamente controlable. MeshAnything V2 supera a los métodos anteriores tanto en eficiencia como en rendimiento utilizando modelos del mismo tamaño. Estas mejoras se deben a nuestro método de tokenización de mallas recién propuesto: Tokenización de Mallas Adyacentes (AMT). A diferencia de métodos anteriores que representan cada cara con tres vértices, AMT utiliza un solo vértice siempre que sea posible. En comparación con métodos anteriores, AMT requiere aproximadamente la mitad de la longitud de secuencia de tokens para representar la misma malla en promedio. Además, las secuencias de tokens de AMT son más compactas y bien estructuradas, beneficiando fundamentalmente la generación de AM. Nuestros extensos experimentos muestran que AMT mejora significativamente la eficiencia y el rendimiento de la generación de AM. Página del Proyecto: https://buaacyw.github.io/meshanything-v2/
La evaluación basada en modelos es fundamental para el desarrollo exitoso de modelos, tanto como modelo de recompensa para el entrenamiento, como reemplazo de la evaluación humana. Para entrenar dichos evaluadores, el enfoque estándar es recopilar una gran cantidad de juicios de preferencia humana sobre las respuestas del modelo, lo cual es costoso y los datos se vuelven obsoletos a medida que los modelos mejoran. En este trabajo, presentamos un enfoque que tiene como objetivo mejorar los evaluadores sin anotaciones humanas, utilizando solo datos de entrenamiento sintéticos. Partiendo de instrucciones no etiquetadas, nuestro esquema iterativo de auto-mejora genera salidas de modelo contrastantes y entrena a un LLM-como-Juez para producir trazas de razonamiento y juicios finales, repitiendo este entrenamiento en cada nueva iteración utilizando las predicciones mejoradas. Sin ningún dato de preferencia etiquetado, nuestro Evaluador Autodidacta puede mejorar un fuerte LLM (Llama3-70B-Instruct) de 75.4 a 88.3 (88.7 con voto mayoritario) en RewardBench. Esto supera a jueces LLM comúnmente utilizados como GPT-4 y coincide con el rendimiento de los modelos de recompensa de mejor rendimiento entrenados con ejemplos etiquetados.
La sintonización de instrucciones juega un papel crítico en alinear los grandes modelos de lenguaje (LLMs) con las preferencias humanas. A pesar de la gran cantidad de conjuntos de datos de instrucciones abiertos, entrenar ingenuamente un LLM en todas las instrucciones existentes puede no ser óptimo ni práctico. Para identificar los puntos de datos más beneficiosos, se han propuesto métodos de evaluación y selección de datos en los campos de procesamiento de lenguaje natural (NLP) y aprendizaje profundo. Sin embargo, en el contexto de la sintonización de instrucciones, aún existe una brecha en el conocimiento sobre qué tipo de métricas de evaluación de datos se pueden emplear y cómo se pueden integrar en el mecanismo de selección. Para cerrar esta brecha, presentamos una revisión exhaustiva de la literatura existente sobre evaluación y selección de datos, especialmente para la sintonización de instrucciones de LLMs. Categorizamos sistemáticamente todos los métodos aplicables en base a la calidad, diversidad e importancia, donde se estructura una taxonomía unificada y detallada. Para cada categoría, se detallan métodos representativos para describir el panorama de la investigación relevante. Además, se realiza una comparación entre los últimos métodos en función de sus resultados informados oficialmente para proporcionar discusiones en profundidad sobre sus limitaciones. Finalmente, resumimos los desafíos abiertos y proponemos las vías prometedoras para futuros estudios. Todo el contenido relacionado está disponible en https://github.com/yuleiqin/fantastic-data-engineering.
La calidad de los pares de video-texto determina fundamentalmente el límite superior de los modelos de texto a video. Actualmente, los conjuntos de datos utilizados para entrenar estos modelos presentan deficiencias significativas, como baja consistencia temporal, subtítulos de baja calidad, calidad de video deficiente y distribución desequilibrada de datos. El proceso predominante de curación de videos, que depende de modelos de imágenes para etiquetar y de curación manual basada en reglas, conlleva una carga computacional alta y deja datos no limpios. Como resultado, existe una falta de conjuntos de datos de entrenamiento adecuados para los modelos de texto a video. Para abordar este problema, presentamos VidGen-1M, un conjunto de datos de entrenamiento superior para modelos de texto a video. Producido a través de una estrategia de curación de grueso a fino, este conjunto de datos garantiza videos de alta calidad y subtítulos detallados con excelente consistencia temporal. Cuando se utiliza para entrenar el modelo de generación de video, este conjunto de datos ha dado lugar a resultados experimentales que superan a los obtenidos con otros modelos.
En este artículo, proponemos ProCreate, un método simple y fácil de implementar para mejorar la diversidad y creatividad de muestras de modelos generativos de imágenes basados en difusión, y para prevenir la reproducción de datos de entrenamiento. ProCreate opera en un conjunto de imágenes de referencia y impulsa activamente el incrustado de la imagen generada lejos de los incrustados de referencia durante el proceso de generación. Proponemos FSCG-8 (Generación Creativa de Pocas Muestras 8), un conjunto de datos de generación creativa de pocas muestras en ocho categorías diferentes, que abarcan diferentes conceptos, estilos y configuraciones, en el cual ProCreate logra la mayor diversidad y fidelidad de muestras. Además, demostramos que ProCreate es efectivo para evitar la replicación de datos de entrenamiento en una evaluación a gran escala utilizando indicaciones de texto de entrenamiento. El código y FSCG-8 están disponibles en https://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-public. La página del proyecto está disponible en https://procreate-diffusion.github.io.
El avance del procesamiento del lenguaje natural (PLN) en biología depende de la capacidad de los modelos para interpretar la intrincada literatura biomédica. Los modelos tradicionales a menudo tienen dificultades con el lenguaje complejo y específico de este campo. En este documento, presentamos BioMamba, un modelo pre-entrenado diseñado específicamente para la minería de texto biomédico. BioMamba se basa en la arquitectura Mamba y se pre-entrena en un extenso corpus de literatura biomédica. Nuestros estudios empíricos demuestran que BioMamba supera significativamente a modelos como BioBERT y Mamba de dominio general en diversas tareas biomédicas. Por ejemplo, BioMamba logra una reducción de 100 veces en la perplejidad y una reducción de 4 veces en la pérdida de entropía cruzada en el conjunto de pruebas de BioASQ. Proporcionamos una descripción general de la arquitectura del modelo, el proceso de pre-entrenamiento y las técnicas de ajuste fino. Además, liberamos el código y el modelo entrenado para facilitar investigaciones futuras.
Los algoritmos de aprendizaje multiagente han tenido éxito en generar planificación superhumana en una amplia variedad de juegos, pero han tenido poco impacto en el diseño de planificadores multiagente implementados. Un cuello de botella clave en la aplicación de estas técnicas a la planificación multiagente es que requieren miles de millones de pasos de experiencia. Para permitir el estudio de la planificación multiagente a esta escala, presentamos GPUDrive, un simulador multiagente acelerado por GPU construido sobre el Motor de Juegos Madrona que puede generar más de un millón de pasos de experiencia por segundo. Las funciones de observación, recompensa y dinámica están escritas directamente en C++, lo que permite a los usuarios definir comportamientos de agentes complejos y heterogéneos que se traducen a CUDA de alto rendimiento. Mostramos que al utilizar GPUDrive podemos entrenar de manera efectiva agentes de aprendizaje por refuerzo en muchas escenas en el conjunto de datos de Movimiento de Waymo, obteniendo agentes altamente efectivos para alcanzar objetivos en minutos para escenas individuales y agentes generalmente capaces en unas pocas horas. Distribuimos estos agentes entrenados como parte del código base en https://github.com/Emerge-Lab/gpudrive.
Los métodos de razonamiento visual compositivo, que traducen una consulta compleja en una composición estructurada de tareas visuales factibles, han demostrado un fuerte potencial en tareas multi-modales complicadas. Potenciados por los avances recientes en modelos de lenguaje grandes (LLMs), este desafío multi-modal ha sido llevado a una nueva etapa al tratar a los LLMs como planificadores de pocos disparos/sin disparos, es decir, programación visión-lenguaje (VL). A pesar de sus numerosos méritos, tales métodos enfrentan desafíos debido a errores en la planificación de LLMs o a la inexactitud de los módulos de ejecución visual, rezagándose detrás de los modelos no compositivos. En este trabajo, ideamos un método "plug-and-play", ExoViP, para corregir errores tanto en las etapas de planificación como de ejecución a través de verificación introspectiva. Empleamos módulos de verificación como "exoesqueletos" para mejorar los esquemas actuales de programación VL. Específicamente, nuestro módulo de verificación propuesto utiliza una mezcla de tres sub-verificadores para validar predicciones después de cada paso de razonamiento, calibrando posteriormente las predicciones del módulo visual y refinando la traza de razonamiento planificada por los LLMs. Los resultados experimentales en dos métodos representativos de programación VL muestran mejoras consistentes en cinco tareas de razonamiento compositivo en benchmarks estándar. A la luz de esto, creemos que ExoViP puede fomentar un mejor rendimiento y generalización en desafíos multi-modales de dominio abierto.
El reciente aumento de los modelos de lenguaje grandes (LLMs) de código abierto permite a los desarrolladores crear soluciones basadas en IA manteniendo el control sobre aspectos como la privacidad y el cumplimiento, proporcionando así gobernanza y propiedad del proceso de implementación del modelo. Para utilizar estos LLMs, se requieren motores de inferencia. Estos motores cargan los pesos del modelo en los recursos disponibles, como las GPUs, y procesan consultas para generar respuestas. La velocidad de inferencia, o rendimiento, del LLM es crucial para aplicaciones en tiempo real, ya que realiza millones o miles de millones de operaciones de punto flotante por inferencia. Recientemente, han surgido motores de inferencia avanzados como vLLM, que incorporan mecanismos novedosos como una gestión eficiente de la memoria para lograr un rendimiento de vanguardia. En este documento, analizamos el rendimiento, en particular el rendimiento (tokens generados por unidad de tiempo), de 20 LLMs utilizando dos bibliotecas de inferencia: vLLM y los pipelines de HuggingFace. Investigamos cómo varios hiperparámetros, que los desarrolladores deben configurar, influyen en el rendimiento de la inferencia. Nuestros resultados revelan que los paisajes de rendimiento son irregulares, con picos distintos, resaltando la importancia de la optimización de hiperparámetros para lograr el máximo rendimiento. También demostramos que aplicar la optimización de hiperparámetros al actualizar o degradar el modelo de GPU utilizado para la inferencia puede mejorar el rendimiento de los pipelines de HuggingFace en un promedio del 9.16% y 13.7%, respectivamente.
Los asistentes de IA avanzados combinan modelos de lenguaje de última generación y acceso a herramientas para realizar de forma autónoma tareas complejas en nombre de los usuarios. Si bien la utilidad de tales asistentes puede aumentar drásticamente con el acceso a la información del usuario, incluidos correos electrónicos y documentos, esto plantea preocupaciones de privacidad sobre la posibilidad de que los asistentes compartan información inapropiada con terceros sin supervisión del usuario. Para guiar a los asistentes en el intercambio de información para que se comporten de acuerdo con las expectativas de privacidad, proponemos operacionalizar la integridad contextual (CI), un marco que equipara la privacidad con el flujo apropiado de información en un contexto dado. En particular, diseñamos y evaluamos una serie de estrategias para dirigir las acciones de intercambio de información de los asistentes para que cumplan con CI. Nuestra evaluación se basa en un nuevo benchmark de rellenado de formularios compuesto por datos sintéticos y anotaciones humanas, y revela que incitar a los modelos de lenguaje de última generación a realizar razonamientos basados en CI produce resultados sólidos.