Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

MM1.5: Métodos, Análisis e Ideas de Ajuste Fino Multimodal de LLM
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

Sep 30

ByHaotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang

Presentamos MM1.5, una nueva familia de modelos de lenguaje multimodales grandes (MLLMs) diseñados para mejorar las capacidades en la comprensión de imágenes ricas en texto, la referencia y fundamentación visual, y el razonamiento multiimagen. Basándose en la arquitectura MM1, MM1.5 adopta un enfoque centrado en los datos para el entrenamiento del modelo, explorando sistemáticamente el impacto de diversas combinaciones de datos a lo largo de todo el ciclo de entrenamiento del modelo. Esto incluye datos de OCR de alta calidad y leyendas sintéticas para el preentrenamiento continuo, así como una mezcla de datos optimizada para el ajuste de instrucciones visuales en el ajuste fino supervisado. Nuestros modelos van desde 1B hasta 30B de parámetros, abarcando tanto variantes densas como de mezcla de expertos (MoE), y demuestran que una cuidadosa curación de datos y estrategias de entrenamiento pueden producir un rendimiento sólido incluso en escalas pequeñas (1B y 3B). Además, presentamos dos variantes especializadas: MM1.5-Video, diseñada para la comprensión de videos, y MM1.5-UI, adaptada para la comprensión de interfaces de usuario móviles. A través de extensos estudios empíricos y abstracciones, ofrecemos una visión detallada de los procesos de entrenamiento y decisiones que informan nuestros diseños finales, brindando orientación valiosa para futuras investigaciones en el desarrollo de MLLMs.

Regla: Un Método Agnóstico de Modelo para Controlar la Longitud Generada en Modelos de Lenguaje Grandes
Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models

Sep 27

ByJiaming Li, Lei Zhang, Yunshui Li, Ziqiang Liu, yuelin bai, Run Luo, Longze Chen, Min Yang

La capacidad de seguir instrucciones de los grandes modelos de lenguaje permite a los humanos interactuar con agentes de IA de manera natural. Sin embargo, al ser requeridos para generar respuestas de una longitud específica, a menudo los grandes modelos de lenguaje tienen dificultades para satisfacer las necesidades de los usuarios debido a su inherente dificultad para percibir con precisión las restricciones numéricas. Para explorar la capacidad de los grandes modelos de lenguaje para controlar la longitud de las respuestas generadas, proponemos la Tarea de Generación de Longitud Objetivo (TLG) y diseñamos dos métricas, Coincidencia Precisa (PM) y Coincidencia Flexible (FM) para evaluar el rendimiento del modelo en cumplir con las longitudes de respuesta especificadas. Además, presentamos un enfoque novedoso, independiente del modelo, llamado Ruler, que emplea Tokens de Longitud Meta (MLTs) para mejorar la capacidad de seguir instrucciones de los grandes modelos de lenguaje bajo instrucciones con restricciones de longitud. Específicamente, Ruler dota a los LLMs con la capacidad de generar respuestas de una longitud especificada basada en las restricciones de longitud dentro de las instrucciones. Además, Ruler puede generar automáticamente un MLT apropiado cuando las restricciones de longitud no se proporcionan explícitamente, demostrando una excelente versatilidad y generalización. Experimentos exhaustivos muestran la efectividad de Ruler en diferentes LLMs en la Tarea de Generación de Longitud Objetivo, por ejemplo, con una ganancia promedio de 27.97 en PM y 29.57 en FM. Además, realizamos extensos experimentos de ablación para corroborar aún más la eficacia y generalización de Ruler. Nuestro código y datos están disponibles en https://github.com/Geaming2002/Ruler.

Hiperconexiones
Hyper-Connections

Sep 29

ByDefa Zhu, Hongzhi Huang, Zihao Huang, Yutao Zeng, Yunyao Mao, Banggu Wu, Qiyang Min, Xun Zhou

Presentamos hiperconexiones, un método simple pero efectivo que puede servir como una alternativa a las conexiones residuales. Este enfoque aborda específicamente las desventajas comunes observadas en las variantes de conexiones residuales, como el efecto de vaivén entre la desaparición del gradiente y el colapso de la representación. Teóricamente, las hiperconexiones permiten que la red ajuste la fuerza de las conexiones entre características en diferentes profundidades y reorganice dinámicamente las capas. Realizamos experimentos centrados en el pre-entrenamiento de grandes modelos de lenguaje, incluyendo modelos densos y dispersos, donde las hiperconexiones muestran mejoras significativas en el rendimiento en comparación con las conexiones residuales. Experimentos adicionales realizados en tareas de visión también demuestran mejoras similares. Anticipamos que este método será ampliamente aplicable y beneficioso en una amplia gama de problemas de IA.

DiaSynth -- Marco de Generación de Diálogos Sintéticos
DiaSynth -- Synthetic Dialogue Generation Framework

Sep 25

BySathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng

La escasez de conjuntos de datos de diálogo específicos de dominio en diversos ámbitos, desde temas académicos hasta conversaciones cotidianas, limita el desarrollo de sistemas de diálogo para diversas aplicaciones. La investigación existente suele estar restringida ya sea por conjuntos de datos de diálogo demasiado generales o por conjuntos de datos de diálogo de dominio especializado cuya escala no coincide con la escala requerida para el entrenamiento de sistemas de diálogo. Para abordar esta brecha, presentamos DiaSynth, un marco de generación de diálogos sintéticos capaz de generar diálogos de alta calidad, ricos en contexto, en una amplia gama de dominios. Nuestro enfoque difiere de los marcos existentes al generar dinámicamente diálogos que incorporan personas simuladas, subtemas y diversas características conversacionales, utilizando un Gran Modelo de Lenguaje (GML) con razonamiento en Cadena de Pensamiento (CoT) para crear diálogos específicos de dominio ricos en contexto que imitan de cerca las interacciones humanas naturales. DiaSynth produce diálogos personalizados que emulan conversaciones realistas. Realizamos nuestros experimentos generando datos sintéticos utilizando diferentes GMLs y ejemplos de pocos disparos de DialogSum y SAMSum. Los modelos de lenguaje preentrenados ajustados con los datos sintéticos superan a los modelos base en un 16.47%, mientras que la comparación entre los modelos ajustados con datos dentro del dominio y datos sintéticos muestra que los datos sintéticos son capaces de capturar el 90.48% de la distribución de los datos dentro del dominio. La calidad de los datos generados también aumenta con el tamaño de los GMLs. Estos resultados validan el potencial de DiaSynth como una alternativa sólida a los métodos tradicionales de recopilación de datos.

Atención Coseno: Transformadores Lineales con Atención Coseno
Cottention: Linear Transformers With Cosine Attention

Sep 27

ByGabriel Mongaras, Trevor Dohm, Eric C. Larson

Los mecanismos de atención, en particular la atención softmax, han sido fundamentales en el éxito de los modelos basados en transformadores como GPT. Sin embargo, la complejidad cuadrática de la memoria de la atención softmax con respecto a la longitud de la secuencia plantea desafíos significativos para el procesamiento de secuencias más largas. Presentamos Cottention, un nuevo mecanismo de atención que reemplaza la operación softmax con similitud coseno. Al aprovechar las propiedades de la similitud coseno y reorganizar la ecuación de atención, Cottention logra una complejidad de memoria lineal nativa con respecto a la longitud de la secuencia, lo que lo hace inherentemente más eficiente en memoria que la atención softmax. Demostramos que Cottention puede reformularse como una red neuronal recurrente (RNN) con un estado oculto finito, lo que permite un uso de memoria constante durante la inferencia. Evaluamos Cottention en las tareas bidireccionales de BERT y GPT causal, demostrando un rendimiento comparable a la atención softmax mientras se reducen significativamente los requisitos de memoria. Para garantizar una computación eficiente, desarrollamos un kernel CUDA personalizado para Cottention. Nuestros resultados muestran que Cottention es una alternativa prometedora a la atención softmax, que permite el procesamiento de secuencias más largas sin sacrificar el rendimiento, debido a su complejidad de memoria lineal nativa y su capacidad para mantener una huella de memoria constante durante la inferencia.

UniAff: Una Representación Unificada de Oportunidades para el Uso de Herramientas y Articulación con Modelos de Visión-Lenguaje
UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

Sep 30

ByQiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu

Los estudios previos sobre la manipulación robótica se basan en una comprensión limitada de las restricciones de movimiento 3D subyacentes y las capacidades. Para abordar estos desafíos, proponemos un paradigma integral, denominado UniAff, que integra la manipulación centrada en objetos en 3D y la comprensión de tareas en una formulación unificada. Específicamente, construimos un conjunto de datos etiquetado con atributos clave relacionados con la manipulación, que incluye 900 objetos articulados de 19 categorías y 600 herramientas de 12 categorías. Además, aprovechamos los MLLMs para inferir representaciones centradas en objetos para tareas de manipulación, incluido el reconocimiento de capacidades y el razonamiento sobre las restricciones de movimiento en 3D. Experimentos exhaustivos tanto en simulación como en entornos del mundo real indican que UniAff mejora significativamente la generalización de la manipulación robótica para herramientas y objetos articulados. Esperamos que UniAff sirva como un punto de referencia general para tareas de manipulación robótica unificadas en el futuro. Las imágenes, videos, conjunto de datos y código se publican en el sitio web del proyecto en: https://sites.google.com/view/uni-aff/home

Detección de Copia de Imágenes para Modelos de Difusión
Image Copy Detection for Diffusion Models

Sep 30

ByWenhao Wang, Yifan Sun, Zhentao Tan, Yi Yang

Las imágenes producidas por modelos de difusión son cada vez más populares en el arte digital y el marketing visual. Sin embargo, dichas imágenes generadas podrían replicar contenido de existente y plantear el desafío de la originalidad del contenido. Los modelos existentes de Detección de Copia de Imágenes (DCI), aunque precisos en la detección de réplicas hechas a mano, pasan por alto el desafío de los modelos de difusión. Esto nos motiva a presentar ICDiff, la primera DCI especializada para modelos de difusión. Con este fin, construimos un conjunto de datos de Replicación de Difusión (D-Rep) y proponemos correspondientemente un nuevo método de incrustación profunda. D-Rep utiliza un modelo de difusión de última generación (Difusión Estable V1.5) para generar 40,000 pares de imágenes réplica, que son anotados manualmente en 6 niveles de replicación que van desde 0 (sin replicación) hasta 5 (replicación total). Nuestro método, Incrustación de PDF, transforma el nivel de replicación de cada par de imágenes réplica en una función de densidad de probabilidad (PDF) como señal de supervisión. La intuición es que la probabilidad de los niveles de replicación adyacentes debería ser continua y suave. Los resultados experimentales muestran que la Incrustación de PDF supera a los métodos impulsados por protocolos y a las elecciones no-PDF en el conjunto de pruebas de D-Rep. Además, al utilizar la Incrustación de PDF, descubrimos que las tasas de replicación de modelos de difusión conocidos frente a una galería de código abierto van desde el 10% al 20%.

Escalando el Aprendizaje Propioceptivo-Visual con Transformadores Pre-entrenados Heterogéneos
Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

Sep 30

ByLirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He

Uno de los obstáculos para entrenar modelos robóticos generalistas hoy en día es la heterogeneidad. Los métodos de aprendizaje de robots anteriores a menudo recopilan datos para entrenar con una encarnación específica para una tarea, lo cual es costoso y propenso al sobreajuste. Este trabajo estudia el problema de aprender representaciones de políticas a través de un preentrenamiento heterogéneo en datos de robots a través de diferentes encarnaciones y tareas a gran escala. Proponemos Transformadores Preentrenados Heterogéneos (HPT), que preentrenan un tronco grande y compartible de una red neuronal de políticas para aprender una representación compartida agnóstica de tarea y encarnación. Esta arquitectura general alinea las entradas específicas de la propiocepción y visión de distintas encarnaciones a una secuencia corta de tokens y luego procesa dichos tokens para mapear el control de robots para diferentes tareas. Aprovechando los recientes conjuntos de datos robóticos del mundo real a gran escala con múltiples encarnaciones, así como simulaciones, robots desplegados y conjuntos de datos de video humanos, investigamos el preentrenamiento de políticas a través de la heterogeneidad. Realizamos experimentos para investigar los comportamientos de escalado de los objetivos de entrenamiento, hasta un total de 52 conjuntos de datos. Los HPT superan a varios baselines y mejoran el rendimiento de la política ajustada en más del 20% en tareas no vistas en múltiples simuladores y entornos del mundo real. Consulte el sitio web del proyecto (https://liruiw.github.io/hpt/) para ver el código y los videos.

Coffee-Gym: Un entorno para evaluar y mejorar la retroalimentación en lenguaje natural sobre código erróneo
Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code

Sep 29

ByHyungjoo Chae, Taeyoon Kwon, Seungjun Moon, Yongho Song, Dongjin Kang, Kai Tzu-iunn Ong, Beong-woo Kwak, Seonghyeon Bae, Seung-won Hwang, Jinyoung Yeo

Este documento presenta Coffee-Gym, un entorno RL integral para entrenar modelos que proporcionan retroalimentación sobre la edición de código. Coffee-Gym incluye dos componentes principales: (1) Coffee, un conjunto de datos que contiene trazas de edición de código de humanos para preguntas de codificación y retroalimentación escrita por máquina para editar código erróneo; (2) CoffeeEval, una función de recompensa que refleja fielmente la utilidad de la retroalimentación al evaluar el rendimiento del código revisado en pruebas unitarias. Con ellos, Coffee-Gym aborda la falta de conjuntos de datos de alta calidad para entrenar modelos de retroalimentación con RL, y proporciona recompensas más precisas que el modelo de recompensa SOTA (es decir, GPT-4). Al aplicar Coffee-Gym, obtenemos modelos de retroalimentación que superan a los baselines en mejorar la edición de código de LLMs de código abierto, haciéndolos comparables con LLMs de código cerrado. Ponemos el conjunto de datos y el punto de control del modelo a disposición del público.

¿Pueden los modelos aprender la composición de habilidades a partir de ejemplos?
Can Models Learn Skill Composition from Examples?

Sep 29

ByHaoyu Zhao, Simran Kaur, Dingli Yu, Anirudh Goyal, Sanjeev Arora

A medida que los modelos de lenguaje grandes (LLMs) se vuelven cada vez más avanzados, su capacidad para exhibir generalización composicional, es decir, la capacidad de combinar habilidades aprendidas de formas novedosas no encontradas durante el entrenamiento, ha recibido una atención significativa. Este tipo de generalización, especialmente en escenarios más allá de los datos de entrenamiento, también es de gran interés en el estudio de la seguridad y alineación de la IA. Un estudio reciente introdujo la evaluación SKILL-MIX, donde se encomienda a los modelos componer un breve párrafo que demuestre el uso de un k-uplo especificado de habilidades lingüísticas. Mientras que los modelos pequeños tuvieron dificultades para componer incluso con k=3, modelos más grandes como GPT-4 se desempeñaron razonablemente bien con k=5 y 6. En este documento, empleamos una configuración similar a SKILL-MIX para evaluar la capacidad de los modelos más pequeños para aprender generalización composicional a partir de ejemplos. Utilizando un conjunto diverso de habilidades lingüísticas, que incluyen retórica, literatura, razonamiento, teoría de la mente y sentido común, se utilizó GPT-4 para generar muestras de texto que exhiben subconjuntos aleatorios de k habilidades. El ajuste fino subsiguiente de modelos de parámetros 7B y 13B en estos textos de habilidades combinadas, para valores crecientes de k, reveló los siguientes hallazgos: (1) El entrenamiento en combinaciones de k=2 y 3 habilidades resulta en mejoras notables en la capacidad de componer textos con k=4 y 5 habilidades, a pesar de que los modelos nunca hayan visto tales ejemplos durante el entrenamiento. (2) Cuando las categorías de habilidades se dividen en grupos de entrenamiento y retenidos, los modelos mejoran significativamente en la composición de textos con habilidades retenidas durante las pruebas a pesar de haber visto solo habilidades de entrenamiento durante el ajuste fino, lo que ilustra la eficacia del enfoque de entrenamiento incluso con habilidades previamente no vistas. Este estudio también sugiere que la incorporación de texto rico en habilidades (potencialmente sintético) en el entrenamiento puede mejorar sustancialmente las capacidades de composición de los modelos.

Descomposición de Preguntas Visuales en Modelos de Lenguaje Multimodales de Gran Escala
Visual Question Decomposition on Multimodal Large Language Models

Sep 28

ByHaowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu

La descomposición de preguntas ha surgido como una estrategia efectiva para incitar a los Modelos de Lenguaje de Gran Escala (LLMs) a responder preguntas complejas. Sin embargo, mientras que los métodos existentes se centran principalmente en modelos de lenguaje unimodales, la capacidad de descomposición de preguntas de los Modelos de Lenguaje de Gran Escala Multimodales (MLLMs) aún no ha sido explorada. Con este fin, este documento explora la descomposición visual de preguntas en MLLMs. Específicamente, presentamos un marco de evaluación sistemático que incluye un conjunto de datos y varios criterios de evaluación para evaluar la calidad de las subpreguntas descompuestas, revelando que los MLLMs existentes tienen dificultades para producir subpreguntas de alta calidad. Para abordar esta limitación, proponemos un conjunto de datos específico para el ajuste fino, DecoVQA+, para mejorar la capacidad de descomposición de preguntas del modelo. Con el objetivo de permitir que los modelos realicen una descomposición selectiva apropiada, proponemos un eficiente proceso de ajuste fino. El proceso de ajuste fino consta de nuestro conjunto de datos propuesto y un objetivo de entrenamiento para la descomposición selectiva. Los MLLMs ajustados muestran mejoras significativas en la calidad de las subpreguntas y en la política de descomposición selectiva de preguntas. Además, los modelos también logran una mayor precisión con la descomposición selectiva en conjuntos de datos de referencia de VQA.

IDEAW: Marcado de agua de audio neural robusto con incrustación dual invertible.
IDEAW: Robust Neural Audio Watermarking with Invertible Dual-Embedding

Sep 29

ByPengcheng Li, Xulong Zhang, Jing Xiao, Jianzong Wang

La técnica de marca de agua de audio incrusta mensajes en el audio y extrae con precisión mensajes del audio marcado. Los métodos tradicionales desarrollan algoritmos basados en la experiencia de expertos para incrustar marcas de agua en el dominio temporal o de transformación de las señales. Con el desarrollo de redes neuronales profundas, ha surgido la marca de agua de audio neural basada en aprendizaje profundo. En comparación con los algoritmos tradicionales, la marca de agua de audio neural logra una mejor robustez al considerar varios ataques durante el entrenamiento. Sin embargo, los métodos actuales de marca de agua neural sufren de baja capacidad e imperceptibilidad insatisfactoria. Además, el problema de la localización de la marca de agua, que es extremadamente importante y aún más pronunciado en la marca de agua de audio neural, no ha sido estudiado adecuadamente. En este documento, diseñamos un modelo de marca de agua de doble incrustación para una localización eficiente. También consideramos el impacto de la capa de ataque en la red neuronal invertible en el entrenamiento de robustez, mejorando el modelo para mejorar tanto su razonabilidad como su estabilidad. Los experimentos muestran que el modelo propuesto, IDEAW, puede resistir varios ataques con una mayor capacidad y una capacidad de localización más eficiente en comparación con los métodos existentes.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

MM1.5: Métodos, Análisis e Ideas de Ajuste Fino Multimodal de LLM
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

Sep 30

Regla: Un Método Agnóstico de Modelo para Controlar la Longitud Generada en Modelos de Lenguaje Grandes
Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models

Sep 27

ByJiaming Li, Lei Zhang, Yunshui Li, Ziqiang Liu, yuelin bai, Run Luo, Longze Chen, Min Yang

Hiperconexiones
Hyper-Connections

Sep 29

ByDefa Zhu, Hongzhi Huang, Zihao Huang, Yutao Zeng, Yunyao Mao, Banggu Wu, Qiyang Min, Xun Zhou

DiaSynth -- Marco de Generación de Diálogos Sintéticos
DiaSynth -- Synthetic Dialogue Generation Framework

Sep 25

BySathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng

Atención Coseno: Transformadores Lineales con Atención Coseno
Cottention: Linear Transformers With Cosine Attention

Sep 27

ByGabriel Mongaras, Trevor Dohm, Eric C. Larson

UniAff: Una Representación Unificada de Oportunidades para el Uso de Herramientas y Articulación con Modelos de Visión-Lenguaje
UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

Sep 30

ByQiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu

Detección de Copia de Imágenes para Modelos de Difusión
Image Copy Detection for Diffusion Models

Sep 30

ByWenhao Wang, Yifan Sun, Zhentao Tan, Yi Yang

Escalando el Aprendizaje Propioceptivo-Visual con Transformadores Pre-entrenados Heterogéneos
Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

Sep 30

ByLirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He

Coffee-Gym: Un entorno para evaluar y mejorar la retroalimentación en lenguaje natural sobre código erróneo
Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code

Sep 29

ByHyungjoo Chae, Taeyoon Kwon, Seungjun Moon, Yongho Song, Dongjin Kang, Kai Tzu-iunn Ong, Beong-woo Kwak, Seonghyeon Bae, Seung-won Hwang, Jinyoung Yeo

¿Pueden los modelos aprender la composición de habilidades a partir de ejemplos?
Can Models Learn Skill Composition from Examples?

Sep 29

ByHaoyu Zhao, Simran Kaur, Dingli Yu, Anirudh Goyal, Sanjeev Arora

Descomposición de Preguntas Visuales en Modelos de Lenguaje Multimodales de Gran Escala
Visual Question Decomposition on Multimodal Large Language Models

Sep 28

ByHaowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu

IDEAW: Marcado de agua de audio neural robusto con incrustación dual invertible.
IDEAW: Robust Neural Audio Watermarking with Invertible Dual-Embedding

Sep 29

ByPengcheng Li, Xulong Zhang, Jing Xiao, Jianzong Wang