Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Seed-Music, un conjunto de sistemas de generación musical capaces de producir música de alta calidad con un control de estilo detallado. Nuestro marco unificado aprovecha tanto la modelización del lenguaje auto-regresivo como enfoques de difusión para respaldar dos flujos de trabajo clave en la creación musical: generación de música controlada y edición en postproducción. Para la generación de música controlada, nuestro sistema permite la generación de música vocal con controles de rendimiento a partir de entradas multimodales, que incluyen descripciones de estilo, referencias de audio, partituras musicales y indicaciones de voz. Para la edición en postproducción, ofrece herramientas interactivas para editar letras y melodías vocales directamente en el audio generado. Animamos a los lectores a escuchar ejemplos de audio de demostración en https://team.doubao.com/seed-music.
Los Transformers son la piedra angular del aprendizaje profundo moderno. Tradicionalmente, estos modelos dependen de capas de perceptrón multicapa (MLP) para mezclar la información entre canales. En este artículo, presentamos el Transformador Kolmogorov-Arnold (KAT), una arquitectura novedosa que reemplaza las capas MLP con capas de Red Kolmogorov-Arnold (KAN) para mejorar la expresividad y el rendimiento del modelo. Sin embargo, integrar KANs en los transformers no es tarea fácil, especialmente al escalar. Identificamos tres desafíos clave: (C1) Función base. La función estándar de B-spline utilizada en KANs no está optimizada para la computación paralela en hardware moderno, lo que resulta en velocidades de inferencia más lentas. (C2) Ineficiencia de parámetros y computación. KAN requiere una función única para cada par de entrada-salida, lo que hace que la computación sea extremadamente grande. (C3) Inicialización de pesos. La inicialización de pesos en KANs es particularmente desafiante debido a sus funciones de activación aprendibles, que son fundamentales para lograr la convergencia en redes neuronales profundas. Para superar los desafíos mencionados, proponemos tres soluciones clave: (S1) Base racional. Reemplazamos las funciones de B-spline con funciones racionales para mejorar la compatibilidad con las GPU modernas. Al implementar esto en CUDA, logramos cálculos más rápidos. (S2) Grupo KAN. Compartimos los pesos de activación a través de un grupo de neuronas para reducir la carga computacional sin sacrificar el rendimiento. (S3) Inicialización preservando la varianza. Inicializamos cuidadosamente los pesos de activación para asegurarnos de que la varianza de activación se mantenga en todas las capas. Con estos diseños, KAT escala de manera efectiva y supera fácilmente a los transformers tradicionales basados en MLP.
Los Modelos de Lenguaje basados en Transformadores de gran tamaño (LLMs) se vuelven cada vez más importantes en varios dominios. Sin embargo, la complejidad temporal cuadrática de la operación de atención plantea un desafío significativo para escalar a contextos más largos debido a la latencia de inferencia extremadamente alta y al consumo de memoria de la GPU para almacenar en caché los vectores clave-valor (KV). Este documento propone RetrievalAttention, un enfoque sin entrenamiento para acelerar el cálculo de atención. Para aprovechar la propiedad dinámica dispersa de la atención, RetrievalAttention construye índices de búsqueda de vecinos más cercanos aproximados (ANNS) sobre los vectores KV en la memoria de la CPU y recupera los más relevantes a través de la búsqueda de vectores durante la generación. Debido a la distribución fuera de distribución (OOD) entre los vectores de consulta y los vectores clave, los índices ANNS listos para usar aún necesitan escanear O(N) (generalmente el 30% de todas las claves) datos para una recuperación precisa, lo que no logra explotar la alta dispersión. RetrievalAttention identifica primero el desafío OOD de la atención basada en ANNS, y lo aborda a través de un algoritmo de búsqueda de vectores consciente de la atención que puede adaptarse a las consultas y acceder solo al 1-3% de los datos, logrando así una complejidad temporal sublineal. RetrievalAttention reduce en gran medida el costo de inferencia de LLM de largo contexto con requisitos de memoria de GPU mucho más bajos, manteniendo la precisión del modelo. Especialmente, RetrievalAttention solo necesita 16GB de memoria GPU para servir 128K tokens en LLMs con 8B de parámetros, lo que es capaz de generar un token en 0.188 segundos en una sola NVIDIA RTX4090 (24GB).
Presentamos jina-embeddings-v3, un modelo novedoso de incrustación de texto con 570 millones de parámetros, que logra un rendimiento de vanguardia en datos multilingües y tareas de recuperación de contexto largo, admitiendo longitudes de contexto de hasta 8192 tokens. El modelo incluye un conjunto de adaptadores de Baja Rango Adaptativo (LoRA) específicos para la tarea para generar incrustaciones de alta calidad para la recuperación de consultas-documentos, agrupamiento, clasificación y coincidencia de textos. Además, el Aprendizaje de Representación Matryoshka se integra en el proceso de entrenamiento, permitiendo la truncación flexible de dimensiones de incrustación sin comprometer el rendimiento. La evaluación en el banco de pruebas MTEB muestra que jina-embeddings-v3 supera a las últimas incrustaciones propietarias de OpenAI y Cohere en tareas en inglés, al tiempo que logra un rendimiento superior en comparación con multilingual-e5-large-instruct en todas las tareas multilingües.
Los modelos de visión y lenguaje han evolucionado recientemente en sistemas versátiles capaces de un alto rendimiento en una variedad de tareas, como comprensión de documentos, respuesta a preguntas visuales y fundamentos, a menudo en entornos de cero disparo. La comprensión de cómics, un campo complejo y multifacético, tiene mucho que beneficiarse de estos avances. Los cómics, como medio, combinan narrativas visuales y textuales ricas, desafiando a los modelos de IA con tareas que abarcan desde clasificación de imágenes, detección de objetos, segmentación de instancias, hasta una comprensión narrativa más profunda a través de viñetas secuenciales. Sin embargo, la estructura única de los cómics, caracterizada por variaciones creativas en estilo, orden de lectura y narrativa no lineal, presenta un conjunto de desafíos distintos de los de otros dominios de visión y lenguaje. En esta encuesta, presentamos una revisión exhaustiva de la Comprensión de Cómics desde las perspectivas de conjunto de datos y tarea. Nuestras contribuciones son cinco: (1) Analizamos la estructura del medio de los cómics, detallando sus elementos compositivos distintivos; (2) Revisamos los conjuntos de datos y tareas ampliamente utilizados en la investigación de cómics, enfatizando su papel en el avance del campo; (3) Presentamos el marco de trabajo Capa de Comprensión de Cómics (LoCU), una taxonomía novedosa que redefine las tareas de visión y lenguaje dentro de los cómics y sienta las bases para trabajos futuros; (4) Proporcionamos una revisión detallada y categorización de los métodos existentes siguiendo el marco de LoCU; (5) Finalmente, destacamos los desafíos actuales de investigación y proponemos direcciones para futuras exploraciones, especialmente en el contexto de modelos de visión y lenguaje aplicados a cómics. Esta encuesta es la primera en proponer un marco de trabajo orientado a tareas para la inteligencia en cómics y tiene como objetivo guiar la investigación futura abordando brechas críticas en la disponibilidad de datos y definición de tareas. Un proyecto asociado con esta encuesta está disponible en https://github.com/emanuelevivoli/awesome-comics-understanding.
Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) se han vuelto indispensables en numerosas aplicaciones del mundo real. Desafortunadamente, ajustar estos modelos a gran escala, especialmente en entornos federados donde la privacidad de los datos y la eficiencia de la comunicación son críticas, presenta desafíos significativos. Los métodos existentes a menudo recurren al ajuste eficiente de parámetros (PEFT, por sus siglas en inglés) para mitigar la sobrecarga de comunicación, pero esto suele implicar un costo en la precisión del modelo. Para abordar estas limitaciones, proponemos el ajuste federado de todos los parámetros a gran escala para LLMs (Ferret), el primer método de primer orden con aleatoriedad compartida que permite el ajuste escalable de todos los parámetros de LLMs a través de fuentes de datos descentralizadas, manteniendo al mismo tiempo una precisión de modelo competitiva. Ferret logra esto a través de tres aspectos: (1) emplea métodos de primer orden ampliamente aplicados para actualizaciones locales eficientes; (2) proyecta estas actualizaciones en un espacio de baja dimensionalidad para reducir considerablemente la sobrecarga de comunicación; y (3) reconstruye las actualizaciones locales desde este espacio de baja dimensionalidad con aleatoriedad compartida para facilitar una agregación global efectiva de todos los parámetros, asegurando una convergencia rápida y un rendimiento final competitivo. Nuestros rigurosos análisis teóricos y perspicacias, junto con experimentos extensos, muestran que Ferret mejora significativamente la escalabilidad de los enfoques existentes de ajuste federado de todos los parámetros al lograr una alta eficiencia computacional, una reducción en la sobrecarga de comunicación y una convergencia rápida, todo ello manteniendo una precisión de modelo competitiva. Nuestra implementación está disponible en https://github.com/allen4747/Ferret.
Presentamos Diagram of Thought (DoT), un marco que modela el razonamiento iterativo en grandes modelos de lenguaje (LLMs) como la construcción de un grafo dirigido acíclico (DAG) dentro de un único modelo. A diferencia de enfoques tradicionales que representan el razonamiento como cadenas lineales o árboles, DoT organiza proposiciones, críticas, refinamientos y verificaciones en una estructura cohesiva de DAG, permitiendo que el modelo explore trayectorias de razonamiento complejas manteniendo la consistencia lógica. Cada nodo en el diagrama corresponde a una proposición que ha sido propuesta, criticada, refinada o verificada, permitiendo al LLM mejorar iterativamente su razonamiento a través de retroalimentación en lenguaje natural. Al aprovechar la predicción auto-regresiva del siguiente token con tokens específicos de rol, DoT facilita transiciones fluidas entre proponer ideas y evaluarlas críticamente, ofreciendo una retroalimentación más rica que señales binarias. Además, formalizamos el marco DoT utilizando la Teoría de Topos, proporcionando un fundamento matemático que garantiza la consistencia lógica y solidez en el proceso de razonamiento. Este enfoque mejora tanto los procesos de entrenamiento como de inferencia dentro de un único LLM, eliminando la necesidad de múltiples modelos o mecanismos de control externos. DoT ofrece un marco conceptual para diseñar modelos especializados en razonamiento de próxima generación, enfatizando la eficiencia en el entrenamiento, las capacidades de razonamiento robustas y el fundamento teórico. El código está disponible en https://github.com/diagram-of-thought/diagram-of-thought.
Los modelos de lenguaje de audio de vocabulario abierto, como CLAP, ofrecen un enfoque prometedor para la clasificación de audio de cero disparo (ZSAC) al permitir la clasificación con cualquier conjunto arbitrario de categorías especificadas con indicaciones en lenguaje natural. En este artículo, proponemos un método simple pero efectivo para mejorar ZSAC con CLAP. Específicamente, nos alejamos del método convencional de utilizar indicaciones con etiquetas de categoría abstractas (por ejemplo, Sonido de un órgano) a indicaciones que describen sonidos utilizando sus características descriptivas inherentes en un contexto diverso (por ejemplo, Los tonos profundos y resonantes del órgano llenaron la catedral). Para lograr esto, primero proponemos ReCLAP, un modelo CLAP entrenado con leyendas de audio reescritas para una mejor comprensión de los sonidos en entornos naturales. Estas leyendas reescritas describen cada evento de sonido en la leyenda original utilizando sus características discriminativas únicas. ReCLAP supera a todos los puntos de referencia tanto en la recuperación de audio-texto multimodal como en ZSAC. A continuación, para mejorar la clasificación de audio de cero disparo con ReCLAP, proponemos la ampliación de indicaciones. En contraste con el método tradicional de emplear indicaciones de plantilla escritas a mano, generamos indicaciones personalizadas para cada etiqueta única en el conjunto de datos. Estas indicaciones personalizadas describen primero el evento de sonido en la etiqueta y luego los emplean en escenas diversas. Nuestro método propuesto mejora el rendimiento de ReCLAP en ZSAC en un 1%-18% y supera a todos los puntos de referencia en un 1%-55%.
La Pregunta-Respuesta Visual (VQA) se ha convertido en un caso de uso clave en varias aplicaciones para mejorar la experiencia del usuario, especialmente después de que los Modelos Visión-Lenguaje (VLMs) lograran buenos resultados en inferencia sin datos. Sin embargo, evaluar diferentes VLMs para un requisito de aplicación utilizando un marco estandarizado en entornos prácticos sigue siendo un desafío. Este artículo introduce un marco integral para evaluar VLMs adaptado a tareas de VQA en entornos prácticos. Presentamos un conjunto de datos novedoso derivado de benchmarks de VQA establecidos, anotado con tipos de tarea, dominios de aplicación y tipos de conocimiento, tres aspectos prácticos clave en los que las tareas pueden variar. También presentamos GoEval, una métrica de evaluación multimodal desarrollada utilizando GPT-4o, logrando un factor de correlación del 56.71% con juicios humanos. Nuestros experimentos con diez VLMs de última generación revelan que ningún modelo individual sobresale universalmente, lo que convierte a la selección apropiada en una decisión de diseño clave. Modelos propietarios como Gemini-1.5-Pro y GPT-4o-mini generalmente superan a otros, aunque modelos de código abierto como InternVL-2-8B y CogVLM-2-Llama-3-19B demuestran fortalezas competitivas en contextos específicos, al tiempo que ofrecen ventajas adicionales. Este estudio guía la selección de VLMs basada en requisitos de tarea específicos y limitaciones de recursos, y también puede extenderse a otras tareas de visión-lenguaje.
El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es una de las técnicas clave que ayuda a los modelos de lenguaje grandes (LLMs) a seguir instrucciones y proporcionar respuestas útiles e inofensivas. Si bien existen métodos de optimización de políticas directas, los LLMs de vanguardia adoptan métodos basados en RL (generalmente PPO) en RLHF para entrenar la política y generar buenas respuestas guiadas por un modelo de recompensa aprendido a partir de datos de preferencia. El principal desafío de estos métodos es la inexactitud del modelo de recompensa intermedio, especialmente en tareas de generación de código que requieren un razonamiento largo y complejo para puntuar una respuesta. Observamos que la confiabilidad del modelo de recompensa varía entre respuestas asignadas con diferentes recompensas. Esto nos motiva a filtrar las muestras cuyas recompensas pueden ser poco confiables para mejorar la relación señal-ruido durante el aprendizaje de políticas, lo que resulta en Filtración de Política para la Optimización de Política Proximal (PF-PPO). Para elegir una estrategia de filtración de política adecuada para un modelo de recompensa dado, el coeficiente de determinación (R^2) entre las recompensas y las puntuaciones reales en las muestras filtradas sirve como una buena métrica y nos ayuda a encontrar varias estrategias prometedoras. Realizamos experimentos extensos para validar la efectividad de PF-PPO en tareas de generación de código, y encontramos que algunas variantes de PF-PPO son altamente efectivas y logran un nuevo rendimiento de vanguardia en modelos de 7 mil millones de parámetros en HumanEval, MBPP y un nuevo y desafiante benchmark del concurso LeetCode.
Nuestro trabajo examina la eficacia de emplear métodos avanzados de aprendizaje automático para resolver captchas del sistema reCAPTCHAv2 de Google. Evaluamos la efectividad de los sistemas automatizados en resolver captchas mediante el uso de modelos YOLO avanzados para segmentación y clasificación de imágenes. Nuestro resultado principal es que podemos resolver el 100% de los captchas, mientras que trabajos anteriores solo resolvieron el 68-71%. Además, nuestros hallazgos sugieren que no hay una diferencia significativa en el número de desafíos que humanos y bots deben resolver para pasar los captchas en reCAPTCHAv2. Esto implica que las tecnologías de IA actuales pueden explotar captchas avanzados basados en imágenes. También analizamos en detalle reCAPTCHAv2 y encontramos evidencia de que reCAPTCHAv2 se basa en gran medida en datos de cookies e historial del navegador al evaluar si un usuario es humano o no. El código se proporciona junto con este documento.
Estudios recientes han identificado que los modelos de lenguaje, preentrenados en conjuntos de datos solo de texto, a menudo carecen de conocimientos visuales elementales, por ejemplo, los colores de objetos cotidianos. Motivados por esta observación, nos preguntamos si existe una deficiencia similar en términos de conocimiento auditivo. Para responder a esta pregunta, construimos un nuevo conjunto de datos llamado AuditoryBench, que consta de dos tareas novedosas para evaluar el conocimiento auditivo. Según nuestro análisis utilizando el banco de pruebas, encontramos que los modelos de lenguaje también sufren de una grave falta de conocimiento auditivo. Para abordar esta limitación, proponemos AudioBERT, un método novedoso para aumentar el conocimiento auditivo de BERT a través de un enfoque basado en recuperación. Primero, detectamos fragmentos de conocimiento auditivo en las indicaciones para consultar eficientemente nuestro modelo de recuperación. Luego, inyectamos conocimiento auditivo en BERT y activamos la adaptación de rango bajo para una adaptación efectiva cuando se requiere conocimiento auditivo. Nuestros experimentos demuestran que AudioBERT es bastante efectivo, logrando un rendimiento superior en AuditoryBench. El conjunto de datos y el código están disponibles en https://github.com/HJ-Ok/AudioBERT.
La imagen de rayos X de tórax (CXR) es una herramienta diagnóstica importante utilizada en hospitales para evaluar las condiciones de los pacientes y monitorear los cambios con el tiempo. Los modelos generativos, específicamente los modelos basados en difusión, han demostrado promesa en la generación de rayos X sintéticos realistas. Sin embargo, estos modelos se centran principalmente en la generación condicional utilizando datos de un único punto temporal, es decir, típicamente CXRs tomados en un momento específico con sus informes correspondientes, lo que limita su utilidad clínica, especialmente para capturar cambios temporales. Para abordar esta limitación, proponemos un nuevo marco, EHRXDiff, que predice imágenes futuras de CXR integrando CXRs anteriores con eventos médicos posteriores, como prescripciones, medidas de laboratorio, etc. Nuestro marco realiza un seguimiento dinámico y predice la progresión de la enfermedad basándose en un modelo de difusión latente, condicionado a la imagen de CXR previa y un historial de eventos médicos. Evaluamos exhaustivamente el rendimiento de nuestro marco en tres aspectos clave, incluyendo consistencia clínica, consistencia demográfica y realismo visual. Demostramos que nuestro marco genera imágenes futuras de alta calidad y realistas que capturan posibles cambios temporales, lo que sugiere su potencial para un mayor desarrollo como herramienta de simulación clínica. Esto podría ofrecer información valiosa para el monitoreo de pacientes y la planificación del tratamiento en el campo médico.
Los sistemas de recomendación a menudo utilizan información textual para mejorar sus predicciones, especialmente en escenarios de recomendación de inicio en frío o de cero disparos, donde no se pueden utilizar enfoques tradicionales de filtrado colaborativo. En los últimos años, se han propuesto muchos enfoques para extraer información textual para sistemas de recomendación, siendo los Transformers de oraciones los más prominentes. Sin embargo, estos modelos están entrenados para predecir similitud semántica sin utilizar datos de interacción con patrones ocultos específicos de los sistemas de recomendación. En este documento, proponemos beeFormer, un marco para entrenar modelos de Transformers de oraciones con datos de interacción. Demostramos que nuestros modelos entrenados con beeFormer pueden transferir conocimiento entre conjuntos de datos, superando no solo a los Transformers de oraciones de similitud semántica, sino también a los métodos tradicionales de filtrado colaborativo. También mostramos que el entrenamiento en múltiples conjuntos de datos de diferentes dominios acumula conocimiento en un solo modelo, desbloqueando la posibilidad de entrenar modelos universales de Transformers de oraciones, agnósticos al dominio, para extraer representaciones textuales para sistemas de recomendación. Publicamos el código fuente, los modelos entrenados y detalles adicionales que permiten replicar nuestros experimentos en https://github.com/recombee/beeformer.
La conversión grafema-fonema (G2P) es crucial en el procesamiento del habla, especialmente para aplicaciones como la síntesis del habla. Los sistemas G2P deben poseer comprensión lingüística y conciencia contextual de idiomas con palabras polifónicas y fonemas dependientes del contexto. Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han demostrado recientemente un potencial significativo en diversas tareas lingüísticas, lo que sugiere que su conocimiento fonético podría ser aprovechado para G2P. En este artículo, evaluamos el rendimiento de los LLMs en la conversión G2P e introducimos métodos de solicitud y post-procesamiento que mejoran las salidas de los LLMs sin necesidad de entrenamiento adicional o datos etiquetados. También presentamos un conjunto de datos de referencia diseñado para evaluar el rendimiento G2P en desafíos fonéticos a nivel de oraciones del idioma persa. Nuestros resultados muestran que al aplicar los métodos propuestos, los LLMs pueden superar a las herramientas G2P tradicionales, incluso en un idioma subrepresentado como el persa, resaltando el potencial de desarrollar sistemas G2P asistidos por LLMs.