Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Informe Técnico Baichuan-Omni
Baichuan-Omni Technical Report

Oct 11, 2024

Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen

888

Las destacadas capacidades multimodales y la experiencia interactiva de GPT-4o resaltan su papel crítico en aplicaciones prácticas, sin embargo, carece de un equivalente de código abierto de alto rendimiento. En este documento, presentamos Baichuan-Omni, el primer Modelo de Lenguaje Multimodal Grande (MLLM) de 7B de código abierto capaz de procesar y analizar simultáneamente modalidades de imagen, video, audio y texto, brindando una experiencia interactiva multimodal avanzada y un rendimiento sólido. Proponemos un esquema efectivo de entrenamiento multimodal que comienza con un modelo de 7B y avanza a través de dos etapas de alineación multimodal y ajuste fino de tareas múltiples en audio, imagen, video y texto. Este enfoque dota al modelo de lenguaje con la capacidad de manejar datos visuales y de audio de manera efectiva. Demostrando un sólido rendimiento en varios benchmarks omni-modales y multimodales, aspiramos a que esta contribución sirva como un punto de referencia competitivo para la comunidad de código abierto en el avance de la comprensión multimodal y la interacción en tiempo real.

Meissonic: Revitalizando los Transformadores Generativos Enmascarados para una Síntesis Eficiente de Texto a Imagen de Alta Resolución
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

Oct 10, 2024

Jinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan

532

Los modelos de difusión, como la Difusión Estable, han avanzado significativamente en la generación visual, sin embargo, su paradigma sigue siendo fundamentalmente diferente de los modelos de lenguaje autoregresivos, lo que complica el desarrollo de modelos unificados de lenguaje-visión. Esfuerzos recientes como LlamaGen han intentado la generación de imágenes autoregresivas utilizando tokens discretos VQVAE, pero el gran número de tokens involucrados hace que este enfoque sea ineficiente y lento. En este trabajo, presentamos Meissonic, que eleva la modelización de imágenes enmascaradas no autoregresivas (MIM) texto a imagen a un nivel comparable con los modelos de difusión de última generación como SDXL. Al incorporar una amplia gama de innovaciones arquitectónicas, estrategias avanzadas de codificación posicional y condiciones de muestreo optimizadas, Meissonic mejora sustancialmente el rendimiento y la eficiencia de MIM. Además, aprovechamos datos de entrenamiento de alta calidad, integramos microcondiciones informadas por puntuaciones de preferencia humana y empleamos capas de compresión de características para mejorar aún más la fidelidad y resolución de la imagen. Nuestro modelo no solo iguala, sino que a menudo supera el rendimiento de modelos existentes como SDXL en la generación de imágenes de alta calidad y alta resolución. Experimentos extensos validan las capacidades de Meissonic, demostrando su potencial como un nuevo estándar en la síntesis de texto a imagen. Publicamos un punto de control del modelo capaz de producir imágenes de resolución 1024 por 1024.

StructRAG: Mejorando el Razonamiento Intensivo en Conocimiento de LLMs a través de la Estructuración Híbrida de la Información en Tiempo de Inferencia
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

Oct 11, 2024

Zhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li

492

La generación aumentada por recuperación (RAG) es un medio clave para mejorar de manera efectiva los grandes modelos de lenguaje (LLMs) en muchas tareas basadas en el conocimiento. Sin embargo, los métodos de RAG existentes tienen dificultades con tareas de razonamiento intensivas en conocimiento, ya que la información útil requerida para estas tareas está dispersa de manera desordenada. Esta característica hace que sea difícil para los métodos de RAG existentes identificar con precisión la información clave y realizar un razonamiento global con dicha ampliación ruidosa. En este artículo, motivados por las teorías cognitivas que indican que los humanos convierten la información cruda en varios conocimientos estructurados al abordar tareas de razonamiento intensivas en conocimiento, proponemos un nuevo marco, StructRAG, que puede identificar el tipo de estructura óptimo para la tarea en cuestión, reconstruir documentos originales en este formato estructurado e inferir respuestas basadas en la estructura resultante. Experimentos extensos en diversas tareas intensivas en conocimiento muestran que StructRAG logra un rendimiento de vanguardia, destacándose especialmente en escenarios desafiantes, lo que demuestra su potencial como una solución efectiva para mejorar los LLMs en aplicaciones del mundo real complejas.

De Generalista a Especialista: Adaptando Modelos de Lenguaje Visual a través de Ajuste de Instrucciones Visuales Específicas de Tarea
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

Oct 9, 2024

Yang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu

382

Los modelos de lenguaje de visión a gran escala (VLMs) combinan grandes modelos de lenguaje con codificadores de visión, demostrando promesa en diversas tareas. Sin embargo, a menudo tienen un rendimiento inferior en aplicaciones específicas de tareas debido a las brechas de dominio entre el preentrenamiento y el ajuste fino. Presentamos VITask, un nuevo marco que mejora la adaptabilidad específica de la tarea de los VLMs mediante la integración de modelos específicos de la tarea (TSMs). VITask emplea tres estrategias clave: el estímulo de ejemplos (EP), la alineación de distribución de respuestas (RDA) y el ajuste de respuestas contrastivas (CRT) para mejorar el rendimiento específico de la tarea de los VLMs ajustando sus distribuciones de respuestas. EP permite que las características de TSM guíen a los VLMs, mientras que RDA permite que los VLMs se adapten sin TSMs durante la inferencia aprendiendo de modelos estimulados por ejemplos. CRT optimiza aún más la clasificación de pares de imagen-respuesta correctos, reduciendo así el riesgo de generar respuestas no deseadas. Experimentos en 12 conjuntos de datos de diagnóstico médico en 9 modalidades de imágenes muestran que VITask supera tanto a los VLMs ajustados con instrucciones básicas como a los TSMs, demostrando su capacidad para integrar de manera efectiva características complementarias de ambos modelos. Además, VITask ofrece ventajas prácticas como la integración flexible de TSM y la robustez a instrucciones incompletas, convirtiéndolo en una solución versátil y eficiente para el ajuste específico de VLMs para tareas. Nuestro código está disponible en https://github.com/baiyang4/VITask.

Selección de Datos Colaborativa entre Múltiples Agentes para el Preentrenamiento Eficiente de LLM
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

Oct 10, 2024

Tianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He

202

La selección eficiente de datos es crucial para acelerar el preentrenamiento de modelos de lenguaje grandes (MLL). Aunque se han propuesto varios métodos para mejorar la eficiencia de datos, hay una investigación limitada que ha abordado los conflictos inherentes entre estos enfoques para lograr una selección óptima de datos para el preentrenamiento de MLL. Para abordar este problema, proponemos un mecanismo novedoso de selección de datos colaborativo multiagente. En este marco, cada método de selección de datos actúa como un agente independiente, y se diseña una consola de agentes para integrar dinámicamente la información de todos los agentes a lo largo del proceso de entrenamiento de MLL. Realizamos extensos estudios empíricos para evaluar nuestro marco multiagente. Los resultados experimentales demuestran que nuestro enfoque mejora significativamente la eficiencia de datos, acelera la convergencia en el entrenamiento de MLL y logra una ganancia de rendimiento promedio del 10.5% en múltiples puntos de referencia de modelos de lenguaje en comparación con los métodos más avanzados.

Permutabilidad Mecánica: Coincidir Características a Través de Capas
Mechanistic Permutability: Match Features Across Layers

Oct 10, 2024

Nikita Balagansky, Ian Maksimov, Daniil Gavrilov

202

Comprender cómo evolucionan las características a lo largo de las capas en las redes neuronales profundas es un desafío fundamental en la interpretabilidad mecanicista, especialmente debido a la polisemanticidad y superposición de características. Si bien los Autoencoders Dispersos (SAEs) se han utilizado para extraer características interpretables de capas individuales, alinear estas características a lo largo de las capas ha seguido siendo un problema abierto. En este artículo, presentamos SAE Match, un método novedoso y sin datos para alinear características de SAE en diferentes capas de una red neuronal. Nuestro enfoque implica emparejar características minimizando el error cuadrático medio entre los parámetros plegados de los SAE, una técnica que incorpora umbrales de activación en los pesos del codificador y decodificador para tener en cuenta las diferencias en las escalas de características. A través de experimentos exhaustivos en el modelo de lenguaje Gemma 2, demostramos que nuestro método captura de manera efectiva la evolución de características a lo largo de las capas, mejorando la calidad del emparejamiento de características. También mostramos que las características persisten a lo largo de varias capas y que nuestro enfoque puede aproximar estados ocultos a lo largo de las capas. Nuestro trabajo avanza en la comprensión de la dinámica de características en redes neuronales y proporciona una nueva herramienta para estudios de interpretabilidad mecanicista.

EvolveDirector: Abordando la Generación Avanzada de Texto a Imagen con Modelos de Visión-Lenguaje Grandes
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Oct 9, 2024

Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou

192

Los avances recientes en modelos de generación han mostrado capacidades notables para producir contenido fantástico. Sin embargo, la mayoría de ellos se entrenan con datos propietarios de alta calidad, y algunos modelos retienen sus parámetros y solo ofrecen interfaces de programación de aplicaciones (APIs) accesibles, limitando sus beneficios para tareas posteriores. Para explorar la viabilidad de entrenar un modelo de generación de texto a imagen comparable a modelos avanzados utilizando recursos públicamente disponibles, presentamos EvolveDirector. Este marco interactúa con modelos avanzados a través de sus APIs públicas para obtener pares de datos texto-imagen y entrenar un modelo base. Nuestros experimentos con datos extensos indican que el modelo entrenado con datos generados por el modelo avanzado puede aproximar su capacidad de generación. Sin embargo, requiere muestras a gran escala de 10 millones o más. Esto conlleva gastos significativos en tiempo, recursos computacionales y especialmente los costos asociados con el uso de APIs de pago. Para abordar este problema, aprovechamos modelos pre-entrenados grandes de visión-lenguaje (VLMs) para guiar la evolución del modelo base. VLM evalúa continuamente el modelo base durante el entrenamiento y actualiza y perfecciona dinámicamente el conjunto de datos de entrenamiento mediante operaciones de discriminación, expansión, eliminación y mutación. Los resultados experimentales muestran que este paradigma reduce significativamente el volumen de datos requerido. Además, al acercarse a múltiples modelos avanzados, EvolveDirector puede seleccionar las mejores muestras generadas por ellos para aprender habilidades poderosas y equilibradas. Se demuestra que el modelo final entrenado, Edgen, supera a estos modelos avanzados. El código y los pesos del modelo están disponibles en https://github.com/showlab/EvolveDirector.

SuperCorrect: Supervisión y Corrección de Modelos de Lenguaje con Perspectivas Impulsadas por Errores
SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights

Oct 11, 2024

Ling Yang, Zhaochen Yu, Tianjun Zhang, Minkai Xu, Joseph E. Gonzalez, Bin Cui, Shuicheng Yan

173

Los modelos de lenguaje grandes (LLMs) como GPT-4, PaLM y LLaMA han demostrado mejoras significativas en diversas tareas de razonamiento. Sin embargo, modelos más pequeños como Llama-3-8B y DeepSeekMath-Base aún tienen dificultades con el razonamiento matemático complejo debido a que no logran identificar y corregir de manera efectiva los errores de razonamiento. Métodos recientes basados en la reflexión buscan abordar estos problemas al permitir la autorreflexión y autocorrección, pero aún enfrentan desafíos al detectar de forma independiente errores en sus pasos de razonamiento. Para superar estas limitaciones, proponemos SuperCorrect, un nuevo marco de trabajo de dos etapas que utiliza un gran modelo maestro para supervisar y corregir tanto los procesos de razonamiento como de reflexión de un modelo estudiante más pequeño. En la primera etapa, extraemos plantillas de pensamiento jerárquicas de alto nivel y detalladas del modelo maestro para guiar al modelo estudiante en la obtención de pensamientos de razonamiento más detallados. En la segunda etapa, introducimos la optimización de preferencia directa colaborativa entre modelos (DPO) para mejorar las habilidades de autocorrección del modelo estudiante siguiendo las trazas de corrección del maestro durante el entrenamiento. Este enfoque de DPO entre modelos enseña al modelo estudiante a localizar y resolver de manera efectiva pensamientos erróneos con ideas impulsadas por errores del modelo maestro, rompiendo el cuello de botella de sus pensamientos y adquiriendo nuevas habilidades y conocimientos para abordar problemas desafiantes. Experimentos extensos demuestran consistentemente nuestra superioridad sobre métodos anteriores. Notablemente, nuestro modelo SuperCorrect-7B supera significativamente a DeepSeekMath-7B en un 7.8%/5.3% y a Qwen2.5-Math-7B en un 15.1%/6.3% en los benchmarks MATH/GSM8K, logrando un nuevo rendimiento SOTA entre todos los modelos 7B. Código: https://github.com/YangLing0818/SuperCorrect-llm

PositionID: Las Máquinas de Aprendizaje Profundo pueden Controlar Longitudes, Copiar y Pegar con Conciencia Posicional Explícita
PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness

Oct 9, 2024

Zekun Wang, Feiyu Duan, Yibo Zhang, Wangchunshu Zhou, Ke Xu, Wenhao Huang, Jie Fu

172

Los Modelos de Lenguaje de Gran Tamaño (LLMs) demuestran capacidades impresionantes en diversos dominios, incluyendo juegos de rol, escritura creativa, razonamiento matemático y codificación. A pesar de estos avances, los LLMs todavía enfrentan desafíos con el control de longitud, a menudo sin lograr cumplir con restricciones específicas de longitud debido a sus operaciones a nivel de token y a un entrenamiento insuficiente en datos con limitaciones estrictas de longitud. Identificamos este problema como derivado de una falta de conciencia posicional y proponemos enfoques novedosos, como la Indicación de PosiciónID y el Ajuste Fino de PosiciónID, para abordarlo. Estos métodos mejoran la capacidad del modelo para monitorear y gestionar continuamente la longitud del texto durante la generación. Además, introducimos la Indicación de PosiciónID CP para permitir que los LLMs realicen operaciones de copiar y pegar con precisión. Asimismo, desarrollamos dos benchmarks para evaluar el control de longitud y las habilidades de copiar y pegar. Nuestros experimentos demuestran que nuestros métodos mejoran significativamente el cumplimiento del modelo con las restricciones de longitud y la precisión de copiar y pegar sin comprometer la calidad de la respuesta.

Muestreo de Destilación de Puntuación Semántica para Generación Texto-a-3D Compositiva
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

Oct 11, 2024

Ling Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang

142

La generación de activos 3D de alta calidad a partir de descripciones textuales sigue siendo un desafío fundamental en la investigación de gráficos por computadora y visión. Debido a la escasez de datos 3D, los enfoques de vanguardia utilizan precursores de difusión 2D pre-entrenados, optimizados a través de Muestreo de Destilación de Puntuación (SDS, por sus siglas en inglés). A pesar del progreso, crear escenas 3D complejas con múltiples objetos o interacciones intrincadas sigue siendo difícil. Para abordar esto, los métodos recientes han incorporado guías de caja o diseño. Sin embargo, estos métodos composicionales guiados por diseño a menudo tienen dificultades para proporcionar un control detallado, ya que suelen ser gruesos y carecen de expresividad. Para superar estos desafíos, presentamos un enfoque novedoso de SDS, Muestreo de Destilación de Puntuación Semántica (SemanticSDS), diseñado para mejorar de manera efectiva la expresividad y precisión de la generación de texto a 3D de composición. Nuestro enfoque integra nuevos incrustamientos semánticos que mantienen la consistencia en diferentes vistas de renderizado y diferencian claramente entre varios objetos y partes. Estos incrustamientos se transforman en un mapa semántico, que dirige un proceso de SDS específico de región, permitiendo una optimización precisa y generación composicional. Al aprovechar la orientación semántica explícita, nuestro método desbloquea las capacidades composicionales de los modelos de difusión pre-entrenados existentes, logrando así una calidad superior en la generación de contenido 3D, especialmente para objetos y escenas complejos. Los resultados experimentales demuestran que nuestro marco SemanticSDS es altamente efectivo para generar contenido 3D complejo de vanguardia. Código: https://github.com/YangLing0818/SemanticSDS-3D

Predicción de KV para Mejorar el Tiempo hasta el Primer Token
KV Prediction for Improved Time to First Token

Oct 10, 2024

Maxwell Horton, Qingqing Cao, Chenfan Sun, Yanzi Jin, Sachin Mehta, Mohammad Rastegari, Moin Nabi

122

La inferencia con modelos de lenguaje basados en transformadores comienza con un paso de procesamiento de la indicación. En este paso, el modelo genera el primer token de salida y almacena la caché KV necesaria para futuros pasos de generación. Este paso de procesamiento de la indicación puede ser computacionalmente costoso, tardando 10 segundos o más para modelos de mil millones de parámetros en dispositivos periféricos cuando las longitudes de las indicaciones o los tamaños de lote aumentan. Esto degrada la experiencia del usuario al introducir una latencia significativa en las salidas del modelo. Para reducir el tiempo dedicado a producir el primer resultado (conocido como el "tiempo hasta el primer token", o TTFT) de un modelo preentrenado, presentamos un método novedoso llamado Predicción KV. En nuestro método, se utiliza un pequeño modelo auxiliar para procesar la indicación y producir una aproximación de la caché KV utilizada por un modelo base. Esta caché KV aproximada se utiliza luego con el modelo base para generación autoregresiva sin necesidad de consultar nuevamente al modelo auxiliar. Demostramos que nuestro método produce un equilibrio óptimo entre eficiencia y precisión en comparación con los baselines. En TriviaQA, demostramos mejoras relativas de precisión en el rango del 15% al 50% en una variedad de presupuestos de FLOPs de TTFT. También demostramos mejoras de precisión de hasta el 30% en la finalización de código Python HumanEval en presupuestos fijos de FLOPs de TTFT. Además, evaluamos los modelos en una CPU Apple M2 Pro y demostramos que nuestra mejora en FLOPs se traduce en una aceleración de TTFT en el hardware. Publicamos nuestro código en https://github.com/apple/corenet/tree/main/projects/kv-prediction.

Pensar Mientras Generas: Difusión Discreta con Desruido Planificado
Think While You Generate: Discrete Diffusion with Planned Denoising

Oct 8, 2024

Sulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli

113

La difusión discreta ha logrado un rendimiento de vanguardia, superando o acercándose a los modelos autorregresivos en los benchmarks estándar. En este trabajo, presentamos la Difusión Discreta con Desruido Planificado (DDPD), un marco novedoso que separa el proceso de generación en dos modelos: un planificador y un desruidizador. En el momento de inferencia, el planificador selecciona qué posiciones desruidizar a continuación identificando las posiciones más corruptas que necesitan desruido, incluyendo tanto las inicialmente corruptas como aquellas que requieren refinamiento adicional. Este enfoque de planificación y desruido permite una reconstrucción más eficiente durante la generación al identificar y desruidizar de manera iterativa las corrupciones en el orden óptimo. DDPD supera a los métodos tradicionales de difusión de máscara solo desruidizadora, logrando resultados superiores en benchmarks de modelado de lenguaje como text8, OpenWebText y generación basada en tokens en ImageNet 256 veces 256. Es destacable que, en el modelado de lenguaje, DDPD reduce significativamente la brecha de rendimiento entre los métodos basados en difusión y los autorregresivos en términos de perplejidad generativa. El código está disponible en https://github.com/liusulin/DDPD.

ZeroComp: Composición de objetos sin etiquetas a partir de intrínsecos de imagen a través de Difusión
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

Oct 10, 2024

Zitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

Presentamos ZeroComp, un enfoque efectivo de composición de objetos 3D sin disparo que no requiere imágenes de escenas compuestas emparejadas durante el entrenamiento. Nuestro método aprovecha ControlNet para condicionar a partir de imágenes intrínsecas y lo combina con un modelo de Difusión Estable para utilizar sus precursores de escena, operando juntos como un motor de renderización efectivo. Durante el entrenamiento, ZeroComp utiliza imágenes intrínsecas basadas en geometría, albedo y sombreado enmascarado, todo sin la necesidad de imágenes emparejadas de escenas con y sin objetos compuestos. Una vez entrenado, integra sin problemas objetos virtuales 3D en escenas, ajustando el sombreado para crear composiciones realistas. Desarrollamos un conjunto de datos de evaluación de alta calidad y demostramos que ZeroComp supera a los métodos que utilizan estimaciones de iluminación explícitas y técnicas generativas en pruebas cuantitativas y de percepción humana. Además, ZeroComp se extiende a la composición de imágenes reales y al aire libre, incluso cuando se entrena únicamente con datos sintéticos en interiores, demostrando su efectividad en la composición de imágenes.

I-Max: Maximizar el Potencial de Resolución de Transformadores de Flujo Rectificado Pre-entrenados con Flujo Proyectado
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

Oct 10, 2024

Ruoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao

Los Transformadores de Flujo Rectificado (RFTs) ofrecen una eficiencia superior en entrenamiento e inferencia, lo que los convierte probablemente en la dirección más viable para escalar modelos de difusión. Sin embargo, el progreso en la resolución de generación ha sido relativamente lento debido a la calidad de los datos y los costos de entrenamiento. La extrapolación de resolución sin ajuste presenta una alternativa, pero los métodos actuales a menudo reducen la estabilidad generativa, limitando su aplicación práctica. En este documento, revisamos los métodos existentes de extrapolación de resolución e introducimos el marco I-Max para maximizar el potencial de resolución de los RFTs de Texto a Imagen. I-Max presenta: (i) una estrategia novedosa de Flujo Proyectado para una extrapolación estable y (ii) un kit de herramientas de inferencia avanzado para generalizar el conocimiento del modelo a resoluciones más altas. Experimentos con Lumina-Next-2K y Flux.1-dev demuestran la capacidad de I-Max para mejorar la estabilidad en la extrapolación de resolución y muestran que puede aportar la emergencia de detalles de imagen y la corrección de artefactos, confirmando el valor práctico de la extrapolación de resolución sin ajuste.

DA-Code: Agente de Generación de Código de Ciencia de Datos para Modelos de Lenguaje Grandes
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

Oct 9, 2024

Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu

Presentamos DA-Code, un banco de pruebas de generación de código diseñado específicamente para evaluar LLMs en tareas de ciencia de datos basadas en agentes. Este banco de pruebas presenta tres elementos principales: en primer lugar, las tareas dentro de DA-Code son inherentemente desafiantes, lo que las diferencia de las tareas tradicionales de generación de código y requiere habilidades avanzadas de codificación en fundamentos y planificación. En segundo lugar, los ejemplos en DA-Code se basan todos en datos reales y diversos, abarcando una amplia gama de tareas complejas de manipulación y análisis de datos. En tercer lugar, para resolver las tareas, los modelos deben utilizar lenguajes de programación complejos de ciencia de datos, para realizar un procesamiento de datos intrincado y derivar las respuestas. Configuramos el banco de pruebas en un entorno controlable y ejecutable que se alinea con escenarios de análisis de datos del mundo real y es escalable. Los anotadores diseñan meticulosamente el conjunto de evaluación para garantizar la precisión y robustez de la evaluación. Desarrollamos el punto de referencia DA-Agent. Los experimentos muestran que aunque el punto de referencia tiene un mejor rendimiento que otros marcos existentes, el uso de los LLMs actuales más avanzados solo logra una precisión del 30.5%, dejando un amplio margen para mejoras. Publicamos nuestro banco de pruebas en https://da-code-bench.github.io.

MiRAGeNews: Detección de Noticias Generadas por IA Multimodal Realistas
MiRAGeNews: Multimodal Realistic AI-Generated News Detection

Oct 11, 2024

Runsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch

La proliferación de contenido de noticias "falsas" inflamatorias o engañosas se ha vuelto cada vez más común en los últimos años. Al mismo tiempo, ha resultado más sencillo que nunca utilizar herramientas de IA para generar imágenes fotorrealistas que representen cualquier escena imaginable. La combinación de estos dos elementos, es decir, el contenido de noticias falsas generado por IA, resulta particularmente potente y peligrosa. Para combatir la propagación de noticias falsas generadas por IA, proponemos el Conjunto de Datos MiRAGeNews, un conjunto de datos de 12,500 pares de imágenes y subtítulos de alta calidad reales y generados por IA de generadores de última generación. Observamos que nuestro conjunto de datos plantea un desafío significativo para los humanos (60% F-1) y para los LLMs multimodales de última generación (<24% F-1). Utilizando nuestro conjunto de datos, entrenamos un detector multimodal (MiRAGe) que mejora en +5.1% F-1 sobre los resultados de referencia de última generación en pares de imágenes y subtítulos de generadores de imágenes y editores de noticias fuera del dominio. Publicamos nuestro código y datos para ayudar en futuros trabajos de detección de contenido generado por IA.

SimpleStrat: Diversificando la Generación de Modelos de Lenguaje con Estratificación
SimpleStrat: Diversifying Language Model Generation with Stratification

Oct 11, 2024

Justin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez

Generar respuestas diversas a partir de grandes modelos de lenguaje (LLMs) es crucial para aplicaciones como la planificación/búsqueda y la generación de datos sintéticos, donde la diversidad proporciona respuestas distintas a lo largo de las generaciones. Enfoques anteriores se basan en aumentar la temperatura para incrementar la diversidad. Sin embargo, en contra de la creencia popular, demostramos que este enfoque no solo produce generaciones individuales de menor calidad a medida que aumenta la temperatura, sino que depende de que las probabilidades del siguiente token del modelo sean similares a la verdadera distribución de respuestas. Proponemos un enfoque alternativo que utiliza el propio modelo de lenguaje para dividir el espacio en estratos. En la inferencia, se selecciona un estrato al azar y se extrae una muestra desde el estrato. Para medir la diversidad, presentamos CoverageQA, un conjunto de datos de preguntas subespecificadas con múltiples respuestas igualmente plausibles, y evaluamos la diversidad midiendo la Divergencia KL entre la distribución de salida y la distribución uniforme sobre las respuestas válidas verdaderas. Dado que calcular la probabilidad por respuesta/solución para modelos propietarios es inviable, medimos la recuperación en soluciones verdaderas. Nuestra evaluación muestra que el uso de SimpleStrat logra un mayor nivel de recuperación en 0.05 en comparación con GPT-4o y una reducción promedio de 0.36 en la Divergencia KL en comparación con Llama 3.

Mentor-KD: Mejorando los Modelos de Lenguaje Pequeños como Razonadores Multietapa
Mentor-KD: Making Small Language Models Better Multi-step Reasoners

Oct 11, 2024

Hojae Lee, Junho Kim, SangKeun Lee

Los Modelos de Lenguaje Grandes (LLMs) han demostrado un rendimiento notable en diversas tareas complejas al aprovechar el enfoque de Cadena de Pensamiento (CoT). Recientemente, estudios han propuesto un enfoque de Destilación de Conocimiento (KD), razonamiento de destilación, que transfiere dicha capacidad de razonamiento de los LLMs mediante el ajuste fino de modelos de lenguaje con razonamientos de múltiples pasos generados por los LLMs maestros. Sin embargo, han considerado de manera insuficiente dos desafíos relacionados con conjuntos de destilación insuficientes del modelo maestro LLM, en términos de 1) calidad de los datos y 2) provisión de etiquetas suaves. En este documento, proponemos Mentor-KD, que destila de manera efectiva la capacidad de razonamiento de múltiples pasos de los LLMs a LMs más pequeños mientras aborda los desafíos mencionados anteriormente. Específicamente, explotamos un mentor, un modelo intermedio de tamaño específico de tarea ajustado fino, para aumentar anotaciones de CoT adicionales y proporcionar etiquetas suaves al modelo estudiante durante la destilación del razonamiento. Realizamos experimentos extensos y confirmamos la efectividad de Mentor-KD en diversos modelos y tareas de razonamiento complejas.

GenARM: Generación Guiada por Recompensa con Modelo de Recompensa Autoregresivo para Alineación en Tiempo de Prueba
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

Oct 10, 2024

Yuancheng Xu, Udari Madhushani Sehwag, Alec Koppel, Sicheng Zhu, Bang An, Furong Huang, Sumitra Ganesh

Los Modelos de Lenguaje de Gran Tamaño (LLMs) exhiben capacidades impresionantes pero requieren una alineación cuidadosa con las preferencias humanas. Los métodos tradicionales de entrenamiento ajustan los LLMs utilizando conjuntos de datos de preferencias humanas, pero incurren en costos significativos de entrenamiento y requieren entrenamientos repetidos para manejar diversas preferencias de usuario. Los métodos de alineación en tiempo de prueba abordan esto utilizando modelos de recompensa (RMs) para guiar los LLMs congelados sin necesidad de volver a entrenarlos. Sin embargo, los enfoques existentes en tiempo de prueba se basan en RMs a nivel de trayectoria, diseñados para evaluar respuestas completas, lo que los hace inadecuados para la generación de texto autoregresivo que requiere calcular recompensas de siguiente token a partir de respuestas parciales. Para abordar esto, presentamos GenARM, un enfoque de alineación en tiempo de prueba que aprovecha el Modelo de Recompensa Autoregresivo, una parametrización de recompensa novedosa diseñada para predecir recompensas de siguiente token de manera eficiente y efectiva para la generación autoregresiva. Teóricamente, demostramos que esta parametrización puede guiar de manera demostrable a los LLMs congelados hacia cualquier distribución alcanzable por RMs tradicionales dentro del marco de aprendizaje por refuerzo regularizado por KL. Los resultados experimentales muestran que GenARM supera significativamente a los baselines de alineación en tiempo de prueba anteriores y se equipara al rendimiento de los métodos en tiempo de entrenamiento. Además, GenARM permite una guía eficiente de débil a fuerte, alineando LLMs más grandes con RMs más pequeños sin los altos costos de entrenar modelos más grandes. Además, GenARM admite la alineación multiobjetivo, permitiendo compensaciones en tiempo real entre dimensiones de preferencia y atendiendo a diversas preferencias de usuario sin necesidad de volver a entrenar.

Synth-SONAR: Síntesis de Imágenes Sonar con Mayor Diversidad y Realismo a través de Modelos de Difusión Dual y Estímulos de GPT
Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting

Oct 11, 2024

Purushothaman Natarajan, Kamal Basha, Athira Nambiar

La síntesis de imágenes de sonar es crucial para avanzar en aplicaciones en exploración submarina, biología marina y defensa. Los métodos tradicionales a menudo dependen de una recolección extensa y costosa de datos utilizando sensores de sonar, poniendo en peligro la calidad y diversidad de los datos. Para superar estas limitaciones, este estudio propone un nuevo marco de síntesis de imágenes de sonar, Synth-SONAR, aprovechando modelos de difusión y el uso de GPT para la generación de texto. Las principales novedades de Synth-SONAR son triples: Primero, al integrar técnicas de inyección de estilo basadas en IA generativa junto con datos reales/simulados disponibles públicamente, produciendo así uno de los mayores corpus de datos de sonar para la investigación en sonar. Segundo, una jerarquía de modelos de difusión de sonar condicionados por texto dual sintetiza imágenes de sonar gruesas y detalladas con una calidad y diversidad mejoradas. Tercero, métodos de generación de sonar basados en texto de alto nivel (grueso) y bajo nivel (detallado) aprovechan la información semántica avanzada disponible en modelos de lenguaje visual (VLMs) y el uso de GPT para la generación de texto. Durante la inferencia, el método genera imágenes de sonar diversas y realistas a partir de indicaciones textuales, cerrando la brecha entre descripciones textuales y generación de imágenes de sonar. Esto marca la aplicación del uso de GPT para la generación de imágenes de sonar por primera vez, hasta donde alcanza nuestro conocimiento. Synth-SONAR logra resultados de vanguardia en la producción de conjuntos de datos de sonar sintéticos de alta calidad, mejorando significativamente su diversidad y realismo.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Informe Técnico Baichuan-Omni
Baichuan-Omni Technical Report

Oct 11, 2024

888

Meissonic: Revitalizando los Transformadores Generativos Enmascarados para una Síntesis Eficiente de Texto a Imagen de Alta Resolución
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

Oct 10, 2024

Jinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan

532

StructRAG: Mejorando el Razonamiento Intensivo en Conocimiento de LLMs a través de la Estructuración Híbrida de la Información en Tiempo de Inferencia
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

Oct 11, 2024

Zhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li

492

De Generalista a Especialista: Adaptando Modelos de Lenguaje Visual a través de Ajuste de Instrucciones Visuales Específicas de Tarea
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

Oct 9, 2024

Yang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu

382

Selección de Datos Colaborativa entre Múltiples Agentes para el Preentrenamiento Eficiente de LLM
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

Oct 10, 2024

Tianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He

202

Permutabilidad Mecánica: Coincidir Características a Través de Capas
Mechanistic Permutability: Match Features Across Layers

Oct 10, 2024

Nikita Balagansky, Ian Maksimov, Daniil Gavrilov

202

EvolveDirector: Abordando la Generación Avanzada de Texto a Imagen con Modelos de Visión-Lenguaje Grandes
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Oct 9, 2024

Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou

192

SuperCorrect: Supervisión y Corrección de Modelos de Lenguaje con Perspectivas Impulsadas por Errores
SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights

Oct 11, 2024

Ling Yang, Zhaochen Yu, Tianjun Zhang, Minkai Xu, Joseph E. Gonzalez, Bin Cui, Shuicheng Yan

173

PositionID: Las Máquinas de Aprendizaje Profundo pueden Controlar Longitudes, Copiar y Pegar con Conciencia Posicional Explícita
PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness

Oct 9, 2024

Zekun Wang, Feiyu Duan, Yibo Zhang, Wangchunshu Zhou, Ke Xu, Wenhao Huang, Jie Fu

172

Muestreo de Destilación de Puntuación Semántica para Generación Texto-a-3D Compositiva
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

Oct 11, 2024

Ling Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang

142

Predicción de KV para Mejorar el Tiempo hasta el Primer Token
KV Prediction for Improved Time to First Token

Oct 10, 2024

Maxwell Horton, Qingqing Cao, Chenfan Sun, Yanzi Jin, Sachin Mehta, Mohammad Rastegari, Moin Nabi

122

Pensar Mientras Generas: Difusión Discreta con Desruido Planificado
Think While You Generate: Discrete Diffusion with Planned Denoising

Oct 8, 2024

Sulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli

113

ZeroComp: Composición de objetos sin etiquetas a partir de intrínsecos de imagen a través de Difusión
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

Oct 10, 2024

Zitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

I-Max: Maximizar el Potencial de Resolución de Transformadores de Flujo Rectificado Pre-entrenados con Flujo Proyectado
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

Oct 10, 2024

Ruoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao

DA-Code: Agente de Generación de Código de Ciencia de Datos para Modelos de Lenguaje Grandes
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

Oct 9, 2024

Yiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu

MiRAGeNews: Detección de Noticias Generadas por IA Multimodal Realistas
MiRAGeNews: Multimodal Realistic AI-Generated News Detection

Oct 11, 2024

Runsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch

SimpleStrat: Diversificando la Generación de Modelos de Lenguaje con Estratificación
SimpleStrat: Diversifying Language Model Generation with Stratification

Oct 11, 2024

Justin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez

Mentor-KD: Mejorando los Modelos de Lenguaje Pequeños como Razonadores Multietapa
Mentor-KD: Making Small Language Models Better Multi-step Reasoners

Oct 11, 2024

Hojae Lee, Junho Kim, SangKeun Lee

GenARM: Generación Guiada por Recompensa con Modelo de Recompensa Autoregresivo para Alineación en Tiempo de Prueba
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

Oct 10, 2024

Yuancheng Xu, Udari Madhushani Sehwag, Alec Koppel, Sicheng Zhu, Bang An, Furong Huang, Sumitra Ganesh

Synth-SONAR: Síntesis de Imágenes Sonar con Mayor Diversidad y Realismo a través de Modelos de Difusión Dual y Estímulos de GPT
Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting

Oct 11, 2024

Purushothaman Natarajan, Kamal Basha, Athira Nambiar