Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Emu3: Predicción del Siguiente Token es Todo lo que Necesitas
Emu3: Next-Token Prediction is All You Need

Sep 27

ByXinlong Wang, Xiaosong Zhang, Zhengxiong Luo, Quan Sun, Yufeng Cui, Jinsheng Wang, Fan Zhang, Yueze Wang, Zhen Li, Qiying Yu, Yingli Zhao, Yulong Ao, Xuebin Min, Tao Li, Boya Wu, Bo Zhao, Bowen Zhang, Liangdong Wang, Guang Liu, Zheqi He, Xi Yang, Jingjing Liu, Yonghua Lin, Tiejun Huang, Zhongyuan Wang

Si bien la predicción del siguiente token se considera un camino prometedor hacia la inteligencia artificial general, ha tenido dificultades para destacar en tareas multimodales, que todavía están dominadas por modelos de difusión (por ejemplo, Difusión Estable) y enfoques composicionales (por ejemplo, CLIP combinado con LLMs). En este documento, presentamos Emu3, un nuevo conjunto de modelos multimodales de última generación entrenados únicamente con predicción del siguiente token. Al tokenizar imágenes, texto y videos en un espacio discreto, entrenamos un único transformador desde cero en una mezcla de secuencias multimodales. Emu3 supera a varios modelos específicos de tareas bien establecidos tanto en tareas de generación como de percepción, superando a modelos emblemáticos como SDXL y LLaVA-1.6, al tiempo que elimina la necesidad de arquitecturas de difusión o composicionales. Emu3 también es capaz de generar videos de alta fidelidad mediante la predicción del siguiente token en una secuencia de video. Simplificamos los diseños de modelos multimodales complejos al converger en un enfoque singular: los tokens, desbloqueando un gran potencial para escalar tanto durante el entrenamiento como en la inferencia. Nuestros resultados demuestran que la predicción del siguiente token es un camino prometedor hacia la construcción de inteligencia multimodal general más allá del lenguaje. Ponemos a disposición del público técnicas clave y modelos para apoyar futuras investigaciones en esta dirección.

MIO: Un Modelo Base sobre Tokens Multimodales
MIO: A Foundation Model on Multimodal Tokens

Sep 26

ByZekun Wang, King Zhu, Chunpu Xu, Wangchunshu Zhou, Jiaheng Liu, Yibo Zhang, Jiashuo Wang, Ning Shi, Siyu Li, Yizhi Li, Haoran Que, Zhaoxiang Zhang, Yuanxing Zhang, Ge Zhang, Ke Xu, Jie Fu, Wenhao Huang

En este documento, presentamos MIO, un modelo base novedoso construido sobre tokens multimodales, capaz de comprender y generar habla, texto, imágenes y videos de manera autoregresiva de extremo a extremo. Si bien la aparición de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) y modelos de lenguaje grandes multimodales (MM-LLMs) impulsa avances en inteligencia artificial general a través de sus capacidades versátiles, aún carecen de una verdadera comprensión y generación de cualquier-a-cualquier. Recientemente, el lanzamiento de GPT-4o ha mostrado el notable potencial de los LLMs cualquier-a-cualquier para tareas complejas del mundo real, permitiendo una entrada y salida omnidireccionales a través de imágenes, habla y texto. Sin embargo, es de código cerrado y no admite la generación de secuencias multimodales entrelazadas. Para abordar esta brecha, presentamos MIO, que se entrena en una mezcla de tokens discretos en cuatro modalidades utilizando modelado multimodal causal. MIO pasa por un proceso de entrenamiento de cuatro etapas: (1) pre-entrenamiento de alineación, (2) pre-entrenamiento entrelazado, (3) pre-entrenamiento mejorado con habla y (4) ajuste fino supervisado integral en diversas tareas textuales, visuales y de habla. Nuestros resultados experimentales indican que MIO muestra un rendimiento competitivo, y en algunos casos superior, en comparación con baselines duales previos, baselines de modelos cualquier-a-cualquier e incluso baselines específicos de modalidad. Además, MIO demuestra capacidades avanzadas inherentes a su característica cualquier-a-cualquier, como generación de video-texto entrelazado, razonamiento en cadena de pensamiento visual, generación de pautas visuales, edición de imágenes instructivas, etc.

Una encuesta sobre la honestidad de los modelos de lenguaje grandes
A Survey on the Honesty of Large Language Models

Sep 27

BySiheng Li, Cheng Yang, Taiqiang Wu, Chufan Shi, Yuji Zhang, Xinyu Zhu, Zesen Cheng, Deng Cai, Mo Yu, Lemao Liu, Jie Zhou, Yujiu Yang, Ngai Wong, Xixin Wu, Wai Lam

La honestidad es un principio fundamental para alinear los modelos de lenguaje grandes (LLMs) con los valores humanos, lo que requiere que estos modelos reconozcan lo que saben y lo que no saben, y sean capaces de expresar fielmente su conocimiento. A pesar de ser prometedores, los LLMs actuales aún muestran comportamientos significativamente deshonestos, como presentar respuestas incorrectas con confianza o no ser capaces de expresar lo que saben. Además, la investigación sobre la honestidad de los LLMs también enfrenta desafíos, que incluyen definiciones variables de honestidad, dificultades para distinguir entre conocimiento conocido y desconocido, y una falta de comprensión integral de la investigación relacionada. Para abordar estos problemas, proporcionamos un estudio sobre la honestidad de los LLMs, abarcando su clarificación, enfoques de evaluación y estrategias para mejorar. Además, ofrecemos ideas para futuras investigaciones, con el objetivo de inspirar una mayor exploración en esta área importante.

MinerU: Una Solución de Código Abierto para la Extracción Precisa de Contenido de Documentos
MinerU: An Open-Source Solution for Precise Document Content Extraction

Sep 27

ByBin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He

El análisis de contenido de documentos ha sido un área de investigación crucial en visión por computadora. A pesar de los avances significativos en métodos como OCR, detección de diseño y reconocimiento de fórmulas, las soluciones de código abierto existentes luchan por ofrecer de manera consistente una extracción de contenido de alta calidad debido a la diversidad en los tipos y contenidos de documentos. Para abordar estos desafíos, presentamos MinerU, una solución de código abierto para la extracción de contenido de documentos de alta precisión. MinerU aprovecha los sofisticados modelos de PDF-Extract-Kit para extraer contenido de diversos documentos de manera efectiva y emplea reglas de preprocesamiento y postprocesamiento finamente ajustadas para garantizar la precisión de los resultados finales. Los resultados experimentales demuestran que MinerU logra consistentemente un alto rendimiento en varios tipos de documentos, mejorando significativamente la calidad y consistencia de la extracción de contenido. El proyecto de código abierto MinerU está disponible en https://github.com/opendatalab/MinerU.

VPTQ: Cuantificación de Post-Entrenamiento de Vectores de Bits Extremadamente Bajos para Modelos de Lenguaje Grandes
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models

Sep 25

ByYifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang

La escalabilidad del tamaño del modelo desafía significativamente la implementación y la inferencia de Modelos de Lenguaje Grandes (LLMs). Debido a la redundancia en los pesos de los LLMs, la investigación reciente se ha centrado en llevar la cuantificación basada únicamente en pesos a valores extremadamente bajos de bits (incluso hasta 2 bits). Esto reduce los requisitos de memoria, optimiza los costos de almacenamiento y disminuye las necesidades de ancho de banda de memoria durante la inferencia. Sin embargo, debido a las limitaciones de representación numérica, la cuantificación de pesos basada en escalares tradicionales lucha por lograr valores tan bajos de bits. La investigación reciente sobre Cuantificación Vectorial (VQ) para LLMs ha demostrado el potencial de cuantización de modelos a valores extremadamente bajos de bits comprimiendo vectores en índices mediante tablas de búsqueda. En este documento, presentamos la Cuantificación Vectorial Post-Entrenamiento (VPTQ) para la cuantificación extremadamente baja de bits de LLMs. Utilizamos Optimización de Segundo Orden para formular el problema de VQ de LLM y guiar el diseño de nuestro algoritmo de cuantificación resolviendo la optimización. Además, refinamos los pesos utilizando Optimización de Segundo Orden Independiente de Canal para una VQ granular. Además, al descomponer el problema de optimización, proponemos un algoritmo de inicialización de libro de códigos breve y efectivo. También extendemos VPTQ para admitir cuantificación residual y de valores atípicos, lo que mejora la precisión del modelo y comprime aún más el modelo. Nuestros resultados experimentales muestran que VPTQ reduce la perplejidad de cuantificación del modelo en 0.01-0.34 en LLaMA-2, 0.38-0.68 en Mistral-7B, 4.41-7.34 en LLaMA-3 sobre SOTA a 2 bits, con una mejora promedio de precisión del 0.79-1.5% en LLaMA-2, 1% en Mistral-7B, 11-22% en LLaMA-3 en tareas de QA en promedio. Solo utilizamos el 10.4-18.6% del tiempo de ejecución del algoritmo de cuantificación, lo que resulta en un aumento de 1.6-1.8 veces en el rendimiento de inferencia en comparación con SOTA.

PhysGen: Generación de Imágenes a Video Basada en Física de Cuerpos Rígidos
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

Sep 27

ByShaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang

Presentamos PhysGen, un novedoso método de generación de imágenes a video que convierte una sola imagen y una condición de entrada (por ejemplo, fuerza y torque aplicados a un objeto en la imagen) para producir un video realista, físicamente plausible y temporalmente consistente. Nuestra idea clave es integrar una simulación física basada en modelos con un proceso de generación de video basado en datos, lo que permite dinámicas plausibles en el espacio de la imagen. En el núcleo de nuestro sistema se encuentran tres componentes principales: (i) un módulo de comprensión de imágenes que captura eficazmente la geometría, los materiales y los parámetros físicos de la imagen; (ii) un modelo de simulación de dinámicas en el espacio de la imagen que utiliza física de cuerpos rígidos y parámetros inferidos para simular comportamientos realistas; y (iii) un módulo de renderizado y refinamiento basado en imágenes que aprovecha la difusión de video generativa para producir metraje de video realista con el movimiento simulado. Los videos resultantes son realistas tanto en física como en apariencia, e incluso son precisamente controlables, mostrando resultados superiores sobre trabajos existentes de generación de imágenes a video basados en datos mediante comparaciones cuantitativas y estudios de usuario exhaustivos. Los videos resultantes de PhysGen pueden ser utilizados para diversas aplicaciones posteriores, como convertir una imagen en una animación realista o permitir a los usuarios interactuar con la imagen y crear diversas dinámicas. Página del proyecto: https://stevenlsw.github.io/physgen/

Optimización de Preferencia de Intervención Modulada (MIPO): Conservar lo Fácil, Refinar lo Difícil
Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult

Sep 26

ByCheolhun Jang

Los métodos de optimización de preferencias suelen comenzar el entrenamiento con un modelo SFT bien entrenado como modelo de referencia. En RLHF y DPO, se utiliza un término de regularización durante el proceso de optimización de preferencias para evitar que el modelo de políticas se desvíe demasiado de la distribución del modelo de referencia, evitando así la generación de respuestas anómalas. Cuando el modelo de referencia ya está bien alineado con los datos proporcionados o solo requiere ajustes leves, este enfoque puede producir un modelo bien alineado. Sin embargo, si el modelo de referencia no está alineado con los datos proporcionados y requiere una desviación significativa de su estado actual, un término de regularización puede obstaculizar realmente la alineación del modelo. En este estudio, proponemos la Optimización de Preferencias con Intervención Modulada (MIPO) para abordar este problema. MIPO modula el grado de intervención del modelo de referencia en función de qué tan bien se alinean los datos proporcionados con él. Si los datos están bien alineados, se aumenta la intervención para evitar que el modelo de políticas se aleje significativamente del modelo de referencia. Por el contrario, si la alineación es pobre, se reduce la interferencia para facilitar un entrenamiento más extenso. Comparamos el rendimiento de MIPO y DPO utilizando Mistral-7B y Llama3-8B en Alpaca Eval 2.0 y MT-Bench. Los resultados experimentales demuestran que MIPO supera consistentemente a DPO en diversas situaciones de evaluación.

Agente MSI: Incorporando Perspectivas Multiescala en Agentes Incorporados para una Planificación y Toma de Decisiones Superiores
MSI-Agent: Incorporating Multi-Scale Insight into Embodied Agents for Superior Planning and Decision-Making

Sep 25

ByDayuan Fu, Biqing Qi, Yihuai Gao, Che Jiang, Guanting Dong, Bowen Zhou

La memoria a largo plazo es significativa para los agentes, en la cual las percepciones juegan un papel crucial. Sin embargo, la aparición de percepciones irrelevantes y la falta de percepciones generales pueden socavar enormemente la efectividad de las percepciones. Para resolver este problema, en este documento presentamos el Agente de Percepción Multi-Escala (MSI-Agent), un agente incorporado diseñado para mejorar la planificación y la capacidad de toma de decisiones de los LLMs al resumir y utilizar percepciones de manera efectiva en diferentes escalas. MSI logra esto a través del selector de experiencias, el generador de percepciones y el selector de percepciones. Aprovechando un proceso de tres partes, MSI puede generar percepciones específicas de tareas y de alto nivel, almacenarlas en una base de datos y luego utilizar percepciones relevantes de la misma para ayudar en la toma de decisiones. Nuestros experimentos muestran que MSI supera a otra estrategia de percepción al planificar con GPT3.5. Además, profundizamos en las estrategias para seleccionar experiencias iniciales y percepciones, con el objetivo de proporcionar a LLM percepciones más útiles y relevantes para una mejor toma de decisiones. Nuestras observaciones también indican que MSI muestra una mejor robustez al enfrentar escenarios de cambio de dominio.

LML: Aprendizaje de Modelo de Lenguaje en un Conjunto de Datos para Predicción con Datos Aumentados
LML: Language Model Learning a Dataset for Data-Augmented Prediction

Sep 27

ByPraneeth Vadlapati

Este artículo presenta un nuevo enfoque para utilizar Modelos de Lenguaje Grande (LLMs) en tareas de clasificación, que típicamente se manejan utilizando modelos de Aprendizaje Automático (ML). A diferencia de los modelos de ML que dependen en gran medida de la limpieza de datos y la ingeniería de características, este método simplifica el proceso utilizando LLMs. Este artículo propone un nuevo concepto llamado "Aprendizaje de Modelos de Lenguaje (LML)" impulsado por un nuevo método llamado "Predicción Aumentada de Datos (DAP)". La clasificación se realiza por LLMs utilizando un método similar a la exploración y comprensión manual de los datos por humanos y la toma de decisiones de clasificación utilizando los datos como referencia. Los datos de entrenamiento se resumen y evalúan para determinar las características que más influyen en la clasificación de cada etiqueta. En el proceso de DAP, el sistema utiliza el resumen de datos para crear automáticamente una consulta, que se utiliza para recuperar filas relevantes del conjunto de datos. Una clasificación es generada por el LLM utilizando el resumen de datos y las filas relevantes, asegurando una precisión satisfactoria incluso con datos complejos. El uso de resúmenes de datos y datos similares en DAP garantiza la toma de decisiones contextualmente consciente. El método propuesto utiliza las palabras "Actuar como un Modelo de Aprendizaje Automático Explicable" en la solicitud para mejorar la interpretabilidad de las predicciones al permitir a los usuarios revisar la lógica detrás de cada predicción. En algunos casos de prueba, el sistema obtuvo una precisión superior al 90%, demostrando la efectividad del sistema y su potencial para superar a los modelos de ML convencionales en varios escenarios. El código está disponible en https://github.com/Pro-GenAI/LML-DAP.

HDFlow: Mejorando la resolución de problemas complejos de LLM con Pensamiento Híbrido y Flujos de Trabajo Dinámicos
HDFlow: Enhancing LLM Complex Problem-Solving with Hybrid Thinking and Dynamic Workflows

Sep 25

ByWenlin Yao, Haitao Mi, Dong Yu

A pesar de los avances recientes en modelos de lenguaje grandes (LLMs, por sus siglas en inglés), su rendimiento en problemas de razonamiento complejo que requieren pensamiento de múltiples pasos y la combinación de varias habilidades sigue siendo limitado. Para abordar esto, proponemos un nuevo marco denominado HDFlow para el razonamiento complejo con LLMs que combina modos de pensamiento rápido y lento de manera adaptativa. Nuestro enfoque consta de dos componentes clave: 1) un nuevo enfoque para el razonamiento lento y deliberado llamado Flujo Dinámico, que descompone automáticamente problemas complejos en subtareas más manejables y diseña dinámicamente un flujo de trabajo para ensamblar LLMs especializados o herramientas de razonamiento simbólico para resolver las subtareas; 2) Pensamiento Híbrido, un marco general que combina dinámicamente el pensamiento rápido y lento según la complejidad del problema. Finalmente, proponemos un método fácil de escalar para sintetizar automáticamente un conjunto de datos a gran escala de 27K problemas de razonamiento desafiantes para el razonamiento complejo y un método de ajuste de pensamiento híbrido que entrena LLMs más pequeños en este conjunto de datos para interiorizar las estrategias de razonamiento híbrido rápido/lento. Experimentos en cuatro conjuntos de datos de referencia de razonamiento demuestran que nuestro pensamiento lento con flujos dinámicos supera significativamente a Chain-of-Thought, y el pensamiento híbrido logra la mayor precisión al proporcionar un equilibrio efectivo entre eficiencia computacional y rendimiento. El ajuste fino utilizando nuestro enfoque de pensamiento híbrido también aumenta significativamente las capacidades de razonamiento complejo de los modelos de lenguaje de código abierto. Los resultados muestran la promesa del pensamiento lento, los flujos dinámicos y el pensamiento híbrido en expandir la frontera de la resolución de problemas complejos con LLMs. El código y los datos se publicarán en \url{https://github.com/wenlinyao/HDFlow.}

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

MinerU: Una Solución de Código Abierto para la Extracción Precisa de Contenido de Documentos
MinerU: An Open-Source Solution for Precise Document Content Extraction

Sep 27

ByBin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He

VPTQ: Cuantificación de Post-Entrenamiento de Vectores de Bits Extremadamente Bajos para Modelos de Lenguaje Grandes
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models

Sep 25

ByYifei Liu, Jicheng Wen, Yang Wang, Shengyu Ye, Li Lyna Zhang, Ting Cao, Cheng Li, Mao Yang

PhysGen: Generación de Imágenes a Video Basada en Física de Cuerpos Rígidos
PhysGen: Rigid-Body Physics-Grounded Image-to-Video Generation

Sep 27

ByShaowei Liu, Zhongzheng Ren, Saurabh Gupta, Shenlong Wang

Optimización de Preferencia de Intervención Modulada (MIPO): Conservar lo Fácil, Refinar lo Difícil
Modulated Intervention Preference Optimization (MIPO): Keep the Easy, Refine the Difficult

Sep 26

ByCheolhun Jang

Agente MSI: Incorporando Perspectivas Multiescala en Agentes Incorporados para una Planificación y Toma de Decisiones Superiores
MSI-Agent: Incorporating Multi-Scale Insight into Embodied Agents for Superior Planning and Decision-Making

Sep 25

ByDayuan Fu, Biqing Qi, Yihuai Gao, Che Jiang, Guanting Dong, Bowen Zhou

LML: Aprendizaje de Modelo de Lenguaje en un Conjunto de Datos para Predicción con Datos Aumentados
LML: Language Model Learning a Dataset for Data-Augmented Prediction

Sep 27

ByPraneeth Vadlapati

HDFlow: Mejorando la resolución de problemas complejos de LLM con Pensamiento Híbrido y Flujos de Trabajo Dinámicos
HDFlow: Enhancing LLM Complex Problem-Solving with Hybrid Thinking and Dynamic Workflows

Sep 25

ByWenlin Yao, Haitao Mi, Dong Yu