Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien la predicción del siguiente token se considera un camino prometedor hacia la inteligencia artificial general, ha tenido dificultades para destacar en tareas multimodales, que todavía están dominadas por modelos de difusión (por ejemplo, Difusión Estable) y enfoques composicionales (por ejemplo, CLIP combinado con LLMs). En este documento, presentamos Emu3, un nuevo conjunto de modelos multimodales de última generación entrenados únicamente con predicción del siguiente token. Al tokenizar imágenes, texto y videos en un espacio discreto, entrenamos un único transformador desde cero en una mezcla de secuencias multimodales. Emu3 supera a varios modelos específicos de tareas bien establecidos tanto en tareas de generación como de percepción, superando a modelos emblemáticos como SDXL y LLaVA-1.6, al tiempo que elimina la necesidad de arquitecturas de difusión o composicionales. Emu3 también es capaz de generar videos de alta fidelidad mediante la predicción del siguiente token en una secuencia de video. Simplificamos los diseños de modelos multimodales complejos al converger en un enfoque singular: los tokens, desbloqueando un gran potencial para escalar tanto durante el entrenamiento como en la inferencia. Nuestros resultados demuestran que la predicción del siguiente token es un camino prometedor hacia la construcción de inteligencia multimodal general más allá del lenguaje. Ponemos a disposición del público técnicas clave y modelos para apoyar futuras investigaciones en esta dirección.
En este documento, presentamos MIO, un modelo base novedoso construido sobre tokens multimodales, capaz de comprender y generar habla, texto, imágenes y videos de manera autoregresiva de extremo a extremo. Si bien la aparición de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) y modelos de lenguaje grandes multimodales (MM-LLMs) impulsa avances en inteligencia artificial general a través de sus capacidades versátiles, aún carecen de una verdadera comprensión y generación de cualquier-a-cualquier. Recientemente, el lanzamiento de GPT-4o ha mostrado el notable potencial de los LLMs cualquier-a-cualquier para tareas complejas del mundo real, permitiendo una entrada y salida omnidireccionales a través de imágenes, habla y texto. Sin embargo, es de código cerrado y no admite la generación de secuencias multimodales entrelazadas. Para abordar esta brecha, presentamos MIO, que se entrena en una mezcla de tokens discretos en cuatro modalidades utilizando modelado multimodal causal. MIO pasa por un proceso de entrenamiento de cuatro etapas: (1) pre-entrenamiento de alineación, (2) pre-entrenamiento entrelazado, (3) pre-entrenamiento mejorado con habla y (4) ajuste fino supervisado integral en diversas tareas textuales, visuales y de habla. Nuestros resultados experimentales indican que MIO muestra un rendimiento competitivo, y en algunos casos superior, en comparación con baselines duales previos, baselines de modelos cualquier-a-cualquier e incluso baselines específicos de modalidad. Además, MIO demuestra capacidades avanzadas inherentes a su característica cualquier-a-cualquier, como generación de video-texto entrelazado, razonamiento en cadena de pensamiento visual, generación de pautas visuales, edición de imágenes instructivas, etc.
La honestidad es un principio fundamental para alinear los modelos de lenguaje grandes (LLMs) con los valores humanos, lo que requiere que estos modelos reconozcan lo que saben y lo que no saben, y sean capaces de expresar fielmente su conocimiento. A pesar de ser prometedores, los LLMs actuales aún muestran comportamientos significativamente deshonestos, como presentar respuestas incorrectas con confianza o no ser capaces de expresar lo que saben. Además, la investigación sobre la honestidad de los LLMs también enfrenta desafíos, que incluyen definiciones variables de honestidad, dificultades para distinguir entre conocimiento conocido y desconocido, y una falta de comprensión integral de la investigación relacionada. Para abordar estos problemas, proporcionamos un estudio sobre la honestidad de los LLMs, abarcando su clarificación, enfoques de evaluación y estrategias para mejorar. Además, ofrecemos ideas para futuras investigaciones, con el objetivo de inspirar una mayor exploración en esta área importante.
La escalabilidad del tamaño del modelo desafía significativamente la implementación y la inferencia de Modelos de Lenguaje Grandes (LLMs). Debido a la redundancia en los pesos de los LLMs, la investigación reciente se ha centrado en llevar la cuantificación basada únicamente en pesos a valores extremadamente bajos de bits (incluso hasta 2 bits). Esto reduce los requisitos de memoria, optimiza los costos de almacenamiento y disminuye las necesidades de ancho de banda de memoria durante la inferencia. Sin embargo, debido a las limitaciones de representación numérica, la cuantificación de pesos basada en escalares tradicionales lucha por lograr valores tan bajos de bits. La investigación reciente sobre Cuantificación Vectorial (VQ) para LLMs ha demostrado el potencial de cuantización de modelos a valores extremadamente bajos de bits comprimiendo vectores en índices mediante tablas de búsqueda. En este documento, presentamos la Cuantificación Vectorial Post-Entrenamiento (VPTQ) para la cuantificación extremadamente baja de bits de LLMs. Utilizamos Optimización de Segundo Orden para formular el problema de VQ de LLM y guiar el diseño de nuestro algoritmo de cuantificación resolviendo la optimización. Además, refinamos los pesos utilizando Optimización de Segundo Orden Independiente de Canal para una VQ granular. Además, al descomponer el problema de optimización, proponemos un algoritmo de inicialización de libro de códigos breve y efectivo. También extendemos VPTQ para admitir cuantificación residual y de valores atípicos, lo que mejora la precisión del modelo y comprime aún más el modelo. Nuestros resultados experimentales muestran que VPTQ reduce la perplejidad de cuantificación del modelo en 0.01-0.34 en LLaMA-2, 0.38-0.68 en Mistral-7B, 4.41-7.34 en LLaMA-3 sobre SOTA a 2 bits, con una mejora promedio de precisión del 0.79-1.5% en LLaMA-2, 1% en Mistral-7B, 11-22% en LLaMA-3 en tareas de QA en promedio. Solo utilizamos el 10.4-18.6% del tiempo de ejecución del algoritmo de cuantificación, lo que resulta en un aumento de 1.6-1.8 veces en el rendimiento de inferencia en comparación con SOTA.
El análisis de contenido de documentos ha sido un área de investigación crucial en visión por computadora. A pesar de los avances significativos en métodos como OCR, detección de diseño y reconocimiento de fórmulas, las soluciones de código abierto existentes luchan por ofrecer de manera consistente una extracción de contenido de alta calidad debido a la diversidad en los tipos y contenidos de documentos. Para abordar estos desafíos, presentamos MinerU, una solución de código abierto para la extracción de contenido de documentos de alta precisión. MinerU aprovecha los sofisticados modelos de PDF-Extract-Kit para extraer contenido de diversos documentos de manera efectiva y emplea reglas de preprocesamiento y postprocesamiento finamente ajustadas para garantizar la precisión de los resultados finales. Los resultados experimentales demuestran que MinerU logra consistentemente un alto rendimiento en varios tipos de documentos, mejorando significativamente la calidad y consistencia de la extracción de contenido. El proyecto de código abierto MinerU está disponible en https://github.com/opendatalab/MinerU.
Presentamos PhysGen, un novedoso método de generación de imágenes a video que convierte una sola imagen y una condición de entrada (por ejemplo, fuerza y torque aplicados a un objeto en la imagen) para producir un video realista, físicamente plausible y temporalmente consistente. Nuestra idea clave es integrar una simulación física basada en modelos con un proceso de generación de video basado en datos, lo que permite dinámicas plausibles en el espacio de la imagen. En el núcleo de nuestro sistema se encuentran tres componentes principales: (i) un módulo de comprensión de imágenes que captura eficazmente la geometría, los materiales y los parámetros físicos de la imagen; (ii) un modelo de simulación de dinámicas en el espacio de la imagen que utiliza física de cuerpos rígidos y parámetros inferidos para simular comportamientos realistas; y (iii) un módulo de renderizado y refinamiento basado en imágenes que aprovecha la difusión de video generativa para producir metraje de video realista con el movimiento simulado. Los videos resultantes son realistas tanto en física como en apariencia, e incluso son precisamente controlables, mostrando resultados superiores sobre trabajos existentes de generación de imágenes a video basados en datos mediante comparaciones cuantitativas y estudios de usuario exhaustivos. Los videos resultantes de PhysGen pueden ser utilizados para diversas aplicaciones posteriores, como convertir una imagen en una animación realista o permitir a los usuarios interactuar con la imagen y crear diversas dinámicas. Página del proyecto: https://stevenlsw.github.io/physgen/
Los métodos de optimización de preferencias suelen comenzar el entrenamiento con un modelo SFT bien entrenado como modelo de referencia. En RLHF y DPO, se utiliza un término de regularización durante el proceso de optimización de preferencias para evitar que el modelo de políticas se desvíe demasiado de la distribución del modelo de referencia, evitando así la generación de respuestas anómalas. Cuando el modelo de referencia ya está bien alineado con los datos proporcionados o solo requiere ajustes leves, este enfoque puede producir un modelo bien alineado. Sin embargo, si el modelo de referencia no está alineado con los datos proporcionados y requiere una desviación significativa de su estado actual, un término de regularización puede obstaculizar realmente la alineación del modelo. En este estudio, proponemos la Optimización de Preferencias con Intervención Modulada (MIPO) para abordar este problema. MIPO modula el grado de intervención del modelo de referencia en función de qué tan bien se alinean los datos proporcionados con él. Si los datos están bien alineados, se aumenta la intervención para evitar que el modelo de políticas se aleje significativamente del modelo de referencia. Por el contrario, si la alineación es pobre, se reduce la interferencia para facilitar un entrenamiento más extenso. Comparamos el rendimiento de MIPO y DPO utilizando Mistral-7B y Llama3-8B en Alpaca Eval 2.0 y MT-Bench. Los resultados experimentales demuestran que MIPO supera consistentemente a DPO en diversas situaciones de evaluación.
Este artículo presenta un nuevo enfoque para utilizar Modelos de Lenguaje Grande (LLMs) en tareas de clasificación, que típicamente se manejan utilizando modelos de Aprendizaje Automático (ML). A diferencia de los modelos de ML que dependen en gran medida de la limpieza de datos y la ingeniería de características, este método simplifica el proceso utilizando LLMs. Este artículo propone un nuevo concepto llamado "Aprendizaje de Modelos de Lenguaje (LML)" impulsado por un nuevo método llamado "Predicción Aumentada de Datos (DAP)". La clasificación se realiza por LLMs utilizando un método similar a la exploración y comprensión manual de los datos por humanos y la toma de decisiones de clasificación utilizando los datos como referencia. Los datos de entrenamiento se resumen y evalúan para determinar las características que más influyen en la clasificación de cada etiqueta. En el proceso de DAP, el sistema utiliza el resumen de datos para crear automáticamente una consulta, que se utiliza para recuperar filas relevantes del conjunto de datos. Una clasificación es generada por el LLM utilizando el resumen de datos y las filas relevantes, asegurando una precisión satisfactoria incluso con datos complejos. El uso de resúmenes de datos y datos similares en DAP garantiza la toma de decisiones contextualmente consciente. El método propuesto utiliza las palabras "Actuar como un Modelo de Aprendizaje Automático Explicable" en la solicitud para mejorar la interpretabilidad de las predicciones al permitir a los usuarios revisar la lógica detrás de cada predicción. En algunos casos de prueba, el sistema obtuvo una precisión superior al 90%, demostrando la efectividad del sistema y su potencial para superar a los modelos de ML convencionales en varios escenarios. El código está disponible en https://github.com/Pro-GenAI/LML-DAP.
La memoria a largo plazo es significativa para los agentes, en la cual las percepciones juegan un papel crucial. Sin embargo, la aparición de percepciones irrelevantes y la falta de percepciones generales pueden socavar enormemente la efectividad de las percepciones. Para resolver este problema, en este documento presentamos el Agente de Percepción Multi-Escala (MSI-Agent), un agente incorporado diseñado para mejorar la planificación y la capacidad de toma de decisiones de los LLMs al resumir y utilizar percepciones de manera efectiva en diferentes escalas. MSI logra esto a través del selector de experiencias, el generador de percepciones y el selector de percepciones. Aprovechando un proceso de tres partes, MSI puede generar percepciones específicas de tareas y de alto nivel, almacenarlas en una base de datos y luego utilizar percepciones relevantes de la misma para ayudar en la toma de decisiones. Nuestros experimentos muestran que MSI supera a otra estrategia de percepción al planificar con GPT3.5. Además, profundizamos en las estrategias para seleccionar experiencias iniciales y percepciones, con el objetivo de proporcionar a LLM percepciones más útiles y relevantes para una mejor toma de decisiones. Nuestras observaciones también indican que MSI muestra una mejor robustez al enfrentar escenarios de cambio de dominio.
A pesar de los avances recientes en modelos de lenguaje grandes (LLMs, por sus siglas en inglés), su rendimiento en problemas de razonamiento complejo que requieren pensamiento de múltiples pasos y la combinación de varias habilidades sigue siendo limitado. Para abordar esto, proponemos un nuevo marco denominado HDFlow para el razonamiento complejo con LLMs que combina modos de pensamiento rápido y lento de manera adaptativa. Nuestro enfoque consta de dos componentes clave: 1) un nuevo enfoque para el razonamiento lento y deliberado llamado Flujo Dinámico, que descompone automáticamente problemas complejos en subtareas más manejables y diseña dinámicamente un flujo de trabajo para ensamblar LLMs especializados o herramientas de razonamiento simbólico para resolver las subtareas; 2) Pensamiento Híbrido, un marco general que combina dinámicamente el pensamiento rápido y lento según la complejidad del problema. Finalmente, proponemos un método fácil de escalar para sintetizar automáticamente un conjunto de datos a gran escala de 27K problemas de razonamiento desafiantes para el razonamiento complejo y un método de ajuste de pensamiento híbrido que entrena LLMs más pequeños en este conjunto de datos para interiorizar las estrategias de razonamiento híbrido rápido/lento. Experimentos en cuatro conjuntos de datos de referencia de razonamiento demuestran que nuestro pensamiento lento con flujos dinámicos supera significativamente a Chain-of-Thought, y el pensamiento híbrido logra la mayor precisión al proporcionar un equilibrio efectivo entre eficiencia computacional y rendimiento. El ajuste fino utilizando nuestro enfoque de pensamiento híbrido también aumenta significativamente las capacidades de razonamiento complejo de los modelos de lenguaje de código abierto. Los resultados muestran la promesa del pensamiento lento, los flujos dinámicos y el pensamiento híbrido en expandir la frontera de la resolución de problemas complejos con LLMs. El código y los datos se publicarán en \url{https://github.com/wenlinyao/HDFlow.}