Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos MM1.5, una nueva familia de modelos de lenguaje multimodales grandes (MLLMs) diseñados para mejorar las capacidades en la comprensión de imágenes ricas en texto, la referencia y fundamentación visual, y el razonamiento multiimagen. Basándose en la arquitectura MM1, MM1.5 adopta un enfoque centrado en los datos para el entrenamiento del modelo, explorando sistemáticamente el impacto de diversas combinaciones de datos a lo largo de todo el ciclo de entrenamiento del modelo. Esto incluye datos de OCR de alta calidad y leyendas sintéticas para el preentrenamiento continuo, así como una mezcla de datos optimizada para el ajuste de instrucciones visuales en el ajuste fino supervisado. Nuestros modelos van desde 1B hasta 30B de parámetros, abarcando tanto variantes densas como de mezcla de expertos (MoE), y demuestran que una cuidadosa curación de datos y estrategias de entrenamiento pueden producir un rendimiento sólido incluso en escalas pequeñas (1B y 3B). Además, presentamos dos variantes especializadas: MM1.5-Video, diseñada para la comprensión de videos, y MM1.5-UI, adaptada para la comprensión de interfaces de usuario móviles. A través de extensos estudios empíricos y abstracciones, ofrecemos una visión detallada de los procesos de entrenamiento y decisiones que informan nuestros diseños finales, brindando orientación valiosa para futuras investigaciones en el desarrollo de MLLMs.
La capacidad de seguir instrucciones de los grandes modelos de lenguaje permite a los humanos interactuar con agentes de IA de manera natural. Sin embargo, al ser requeridos para generar respuestas de una longitud específica, a menudo los grandes modelos de lenguaje tienen dificultades para satisfacer las necesidades de los usuarios debido a su inherente dificultad para percibir con precisión las restricciones numéricas. Para explorar la capacidad de los grandes modelos de lenguaje para controlar la longitud de las respuestas generadas, proponemos la Tarea de Generación de Longitud Objetivo (TLG) y diseñamos dos métricas, Coincidencia Precisa (PM) y Coincidencia Flexible (FM) para evaluar el rendimiento del modelo en cumplir con las longitudes de respuesta especificadas. Además, presentamos un enfoque novedoso, independiente del modelo, llamado Ruler, que emplea Tokens de Longitud Meta (MLTs) para mejorar la capacidad de seguir instrucciones de los grandes modelos de lenguaje bajo instrucciones con restricciones de longitud. Específicamente, Ruler dota a los LLMs con la capacidad de generar respuestas de una longitud especificada basada en las restricciones de longitud dentro de las instrucciones. Además, Ruler puede generar automáticamente un MLT apropiado cuando las restricciones de longitud no se proporcionan explícitamente, demostrando una excelente versatilidad y generalización. Experimentos exhaustivos muestran la efectividad de Ruler en diferentes LLMs en la Tarea de Generación de Longitud Objetivo, por ejemplo, con una ganancia promedio de 27.97 en PM y 29.57 en FM. Además, realizamos extensos experimentos de ablación para corroborar aún más la eficacia y generalización de Ruler. Nuestro código y datos están disponibles en https://github.com/Geaming2002/Ruler.
Presentamos hiperconexiones, un método simple pero efectivo que puede servir como una alternativa a las conexiones residuales. Este enfoque aborda específicamente las desventajas comunes observadas en las variantes de conexiones residuales, como el efecto de vaivén entre la desaparición del gradiente y el colapso de la representación. Teóricamente, las hiperconexiones permiten que la red ajuste la fuerza de las conexiones entre características en diferentes profundidades y reorganice dinámicamente las capas. Realizamos experimentos centrados en el pre-entrenamiento de grandes modelos de lenguaje, incluyendo modelos densos y dispersos, donde las hiperconexiones muestran mejoras significativas en el rendimiento en comparación con las conexiones residuales. Experimentos adicionales realizados en tareas de visión también demuestran mejoras similares. Anticipamos que este método será ampliamente aplicable y beneficioso en una amplia gama de problemas de IA.
La escasez de conjuntos de datos de diálogo específicos de dominio en diversos ámbitos, desde temas académicos hasta conversaciones cotidianas, limita el desarrollo de sistemas de diálogo para diversas aplicaciones. La investigación existente suele estar restringida ya sea por conjuntos de datos de diálogo demasiado generales o por conjuntos de datos de diálogo de dominio especializado cuya escala no coincide con la escala requerida para el entrenamiento de sistemas de diálogo. Para abordar esta brecha, presentamos DiaSynth, un marco de generación de diálogos sintéticos capaz de generar diálogos de alta calidad, ricos en contexto, en una amplia gama de dominios. Nuestro enfoque difiere de los marcos existentes al generar dinámicamente diálogos que incorporan personas simuladas, subtemas y diversas características conversacionales, utilizando un Gran Modelo de Lenguaje (GML) con razonamiento en Cadena de Pensamiento (CoT) para crear diálogos específicos de dominio ricos en contexto que imitan de cerca las interacciones humanas naturales. DiaSynth produce diálogos personalizados que emulan conversaciones realistas. Realizamos nuestros experimentos generando datos sintéticos utilizando diferentes GMLs y ejemplos de pocos disparos de DialogSum y SAMSum. Los modelos de lenguaje preentrenados ajustados con los datos sintéticos superan a los modelos base en un 16.47%, mientras que la comparación entre los modelos ajustados con datos dentro del dominio y datos sintéticos muestra que los datos sintéticos son capaces de capturar el 90.48% de la distribución de los datos dentro del dominio. La calidad de los datos generados también aumenta con el tamaño de los GMLs. Estos resultados validan el potencial de DiaSynth como una alternativa sólida a los métodos tradicionales de recopilación de datos.
Los mecanismos de atención, en particular la atención softmax, han sido fundamentales en el éxito de los modelos basados en transformadores como GPT. Sin embargo, la complejidad cuadrática de la memoria de la atención softmax con respecto a la longitud de la secuencia plantea desafíos significativos para el procesamiento de secuencias más largas. Presentamos Cottention, un nuevo mecanismo de atención que reemplaza la operación softmax con similitud coseno. Al aprovechar las propiedades de la similitud coseno y reorganizar la ecuación de atención, Cottention logra una complejidad de memoria lineal nativa con respecto a la longitud de la secuencia, lo que lo hace inherentemente más eficiente en memoria que la atención softmax. Demostramos que Cottention puede reformularse como una red neuronal recurrente (RNN) con un estado oculto finito, lo que permite un uso de memoria constante durante la inferencia. Evaluamos Cottention en las tareas bidireccionales de BERT y GPT causal, demostrando un rendimiento comparable a la atención softmax mientras se reducen significativamente los requisitos de memoria. Para garantizar una computación eficiente, desarrollamos un kernel CUDA personalizado para Cottention. Nuestros resultados muestran que Cottention es una alternativa prometedora a la atención softmax, que permite el procesamiento de secuencias más largas sin sacrificar el rendimiento, debido a su complejidad de memoria lineal nativa y su capacidad para mantener una huella de memoria constante durante la inferencia.
Los estudios previos sobre la manipulación robótica se basan en una comprensión limitada de las restricciones de movimiento 3D subyacentes y las capacidades. Para abordar estos desafíos, proponemos un paradigma integral, denominado UniAff, que integra la manipulación centrada en objetos en 3D y la comprensión de tareas en una formulación unificada. Específicamente, construimos un conjunto de datos etiquetado con atributos clave relacionados con la manipulación, que incluye 900 objetos articulados de 19 categorías y 600 herramientas de 12 categorías. Además, aprovechamos los MLLMs para inferir representaciones centradas en objetos para tareas de manipulación, incluido el reconocimiento de capacidades y el razonamiento sobre las restricciones de movimiento en 3D. Experimentos exhaustivos tanto en simulación como en entornos del mundo real indican que UniAff mejora significativamente la generalización de la manipulación robótica para herramientas y objetos articulados. Esperamos que UniAff sirva como un punto de referencia general para tareas de manipulación robótica unificadas en el futuro. Las imágenes, videos, conjunto de datos y código se publican en el sitio web del proyecto en: https://sites.google.com/view/uni-aff/home
Uno de los obstáculos para entrenar modelos robóticos generalistas hoy en día es la heterogeneidad. Los métodos de aprendizaje de robots anteriores a menudo recopilan datos para entrenar con una encarnación específica para una tarea, lo cual es costoso y propenso al sobreajuste. Este trabajo estudia el problema de aprender representaciones de políticas a través de un preentrenamiento heterogéneo en datos de robots a través de diferentes encarnaciones y tareas a gran escala. Proponemos Transformadores Preentrenados Heterogéneos (HPT), que preentrenan un tronco grande y compartible de una red neuronal de políticas para aprender una representación compartida agnóstica de tarea y encarnación. Esta arquitectura general alinea las entradas específicas de la propiocepción y visión de distintas encarnaciones a una secuencia corta de tokens y luego procesa dichos tokens para mapear el control de robots para diferentes tareas. Aprovechando los recientes conjuntos de datos robóticos del mundo real a gran escala con múltiples encarnaciones, así como simulaciones, robots desplegados y conjuntos de datos de video humanos, investigamos el preentrenamiento de políticas a través de la heterogeneidad. Realizamos experimentos para investigar los comportamientos de escalado de los objetivos de entrenamiento, hasta un total de 52 conjuntos de datos. Los HPT superan a varios baselines y mejoran el rendimiento de la política ajustada en más del 20% en tareas no vistas en múltiples simuladores y entornos del mundo real. Consulte el sitio web del proyecto (https://liruiw.github.io/hpt/) para ver el código y los videos.
Las imágenes producidas por modelos de difusión son cada vez más populares en el arte digital y el marketing visual. Sin embargo, dichas imágenes generadas podrían replicar contenido de existente y plantear el desafío de la originalidad del contenido. Los modelos existentes de Detección de Copia de Imágenes (DCI), aunque precisos en la detección de réplicas hechas a mano, pasan por alto el desafío de los modelos de difusión. Esto nos motiva a presentar ICDiff, la primera DCI especializada para modelos de difusión. Con este fin, construimos un conjunto de datos de Replicación de Difusión (D-Rep) y proponemos correspondientemente un nuevo método de incrustación profunda. D-Rep utiliza un modelo de difusión de última generación (Difusión Estable V1.5) para generar 40,000 pares de imágenes réplica, que son anotados manualmente en 6 niveles de replicación que van desde 0 (sin replicación) hasta 5 (replicación total). Nuestro método, Incrustación de PDF, transforma el nivel de replicación de cada par de imágenes réplica en una función de densidad de probabilidad (PDF) como señal de supervisión. La intuición es que la probabilidad de los niveles de replicación adyacentes debería ser continua y suave. Los resultados experimentales muestran que la Incrustación de PDF supera a los métodos impulsados por protocolos y a las elecciones no-PDF en el conjunto de pruebas de D-Rep. Además, al utilizar la Incrustación de PDF, descubrimos que las tasas de replicación de modelos de difusión conocidos frente a una galería de código abierto van desde el 10% al 20%.
Este documento presenta Coffee-Gym, un entorno RL integral para entrenar modelos que proporcionan retroalimentación sobre la edición de código. Coffee-Gym incluye dos componentes principales: (1) Coffee, un conjunto de datos que contiene trazas de edición de código de humanos para preguntas de codificación y retroalimentación escrita por máquina para editar código erróneo; (2) CoffeeEval, una función de recompensa que refleja fielmente la utilidad de la retroalimentación al evaluar el rendimiento del código revisado en pruebas unitarias. Con ellos, Coffee-Gym aborda la falta de conjuntos de datos de alta calidad para entrenar modelos de retroalimentación con RL, y proporciona recompensas más precisas que el modelo de recompensa SOTA (es decir, GPT-4). Al aplicar Coffee-Gym, obtenemos modelos de retroalimentación que superan a los baselines en mejorar la edición de código de LLMs de código abierto, haciéndolos comparables con LLMs de código cerrado. Ponemos el conjunto de datos y el punto de control del modelo a disposición del público.
A medida que los modelos de lenguaje grandes (LLMs) se vuelven cada vez más avanzados, su capacidad para exhibir generalización composicional, es decir, la capacidad de combinar habilidades aprendidas de formas novedosas no encontradas durante el entrenamiento, ha recibido una atención significativa. Este tipo de generalización, especialmente en escenarios más allá de los datos de entrenamiento, también es de gran interés en el estudio de la seguridad y alineación de la IA. Un estudio reciente introdujo la evaluación SKILL-MIX, donde se encomienda a los modelos componer un breve párrafo que demuestre el uso de un k-uplo especificado de habilidades lingüísticas. Mientras que los modelos pequeños tuvieron dificultades para componer incluso con k=3, modelos más grandes como GPT-4 se desempeñaron razonablemente bien con k=5 y 6. En este documento, empleamos una configuración similar a SKILL-MIX para evaluar la capacidad de los modelos más pequeños para aprender generalización composicional a partir de ejemplos. Utilizando un conjunto diverso de habilidades lingüísticas, que incluyen retórica, literatura, razonamiento, teoría de la mente y sentido común, se utilizó GPT-4 para generar muestras de texto que exhiben subconjuntos aleatorios de k habilidades. El ajuste fino subsiguiente de modelos de parámetros 7B y 13B en estos textos de habilidades combinadas, para valores crecientes de k, reveló los siguientes hallazgos: (1) El entrenamiento en combinaciones de k=2 y 3 habilidades resulta en mejoras notables en la capacidad de componer textos con k=4 y 5 habilidades, a pesar de que los modelos nunca hayan visto tales ejemplos durante el entrenamiento. (2) Cuando las categorías de habilidades se dividen en grupos de entrenamiento y retenidos, los modelos mejoran significativamente en la composición de textos con habilidades retenidas durante las pruebas a pesar de haber visto solo habilidades de entrenamiento durante el ajuste fino, lo que ilustra la eficacia del enfoque de entrenamiento incluso con habilidades previamente no vistas. Este estudio también sugiere que la incorporación de texto rico en habilidades (potencialmente sintético) en el entrenamiento puede mejorar sustancialmente las capacidades de composición de los modelos.
La descomposición de preguntas ha surgido como una estrategia efectiva para incitar a los Modelos de Lenguaje de Gran Escala (LLMs) a responder preguntas complejas. Sin embargo, mientras que los métodos existentes se centran principalmente en modelos de lenguaje unimodales, la capacidad de descomposición de preguntas de los Modelos de Lenguaje de Gran Escala Multimodales (MLLMs) aún no ha sido explorada. Con este fin, este documento explora la descomposición visual de preguntas en MLLMs. Específicamente, presentamos un marco de evaluación sistemático que incluye un conjunto de datos y varios criterios de evaluación para evaluar la calidad de las subpreguntas descompuestas, revelando que los MLLMs existentes tienen dificultades para producir subpreguntas de alta calidad. Para abordar esta limitación, proponemos un conjunto de datos específico para el ajuste fino, DecoVQA+, para mejorar la capacidad de descomposición de preguntas del modelo. Con el objetivo de permitir que los modelos realicen una descomposición selectiva apropiada, proponemos un eficiente proceso de ajuste fino. El proceso de ajuste fino consta de nuestro conjunto de datos propuesto y un objetivo de entrenamiento para la descomposición selectiva. Los MLLMs ajustados muestran mejoras significativas en la calidad de las subpreguntas y en la política de descomposición selectiva de preguntas. Además, los modelos también logran una mayor precisión con la descomposición selectiva en conjuntos de datos de referencia de VQA.
La técnica de marca de agua de audio incrusta mensajes en el audio y extrae con precisión mensajes del audio marcado. Los métodos tradicionales desarrollan algoritmos basados en la experiencia de expertos para incrustar marcas de agua en el dominio temporal o de transformación de las señales. Con el desarrollo de redes neuronales profundas, ha surgido la marca de agua de audio neural basada en aprendizaje profundo. En comparación con los algoritmos tradicionales, la marca de agua de audio neural logra una mejor robustez al considerar varios ataques durante el entrenamiento. Sin embargo, los métodos actuales de marca de agua neural sufren de baja capacidad e imperceptibilidad insatisfactoria. Además, el problema de la localización de la marca de agua, que es extremadamente importante y aún más pronunciado en la marca de agua de audio neural, no ha sido estudiado adecuadamente. En este documento, diseñamos un modelo de marca de agua de doble incrustación para una localización eficiente. También consideramos el impacto de la capa de ataque en la red neuronal invertible en el entrenamiento de robustez, mejorando el modelo para mejorar tanto su razonabilidad como su estabilidad. Los experimentos muestran que el modelo propuesto, IDEAW, puede resistir varios ataques con una mayor capacidad y una capacidad de localización más eficiente en comparación con los métodos existentes.