Artículos de investigación en IA seleccionados diariamente con traducciones
Este trabajo presenta Weaver, nuestra primera familia de modelos de lenguaje de gran escala (LLMs) dedicada a la creación de contenido. Weaver se pre-entrena en un corpus cuidadosamente seleccionado que se enfoca en mejorar las capacidades de escritura de los modelos de lenguaje de gran escala. Luego, afinamos Weaver para fines de escritura creativa y profesional y lo alineamos con las preferencias de escritores profesionales utilizando un conjunto de métodos novedosos para la síntesis de datos de instrucción y la alineación de LLMs, lo que le permite producir textos más humanos y seguir instrucciones más diversas para la creación de contenido. La familia Weaver consta de modelos de los tamaños Weaver Mini (1.8B), Weaver Base (6B), Weaver Pro (14B) y Weaver Ultra (34B), adecuados para diferentes aplicaciones y que pueden ser despachados dinámicamente por un agente de enrutamiento según la complejidad de la consulta para equilibrar la calidad de la respuesta y el costo computacional. La evaluación en un benchmark cuidadosamente seleccionado para evaluar las capacidades de escritura de los LLMs muestra que los modelos Weaver de todos los tamaños superan a los LLMs generalistas varias veces más grandes que ellos. Notablemente, nuestro modelo más capaz, Weaver Ultra, supera a GPT-4, un LLM generalista de última generación, en varios escenarios de escritura, demostrando la ventaja de entrenar LLMs especializados para propósitos de escritura. Además, Weaver admite de forma nativa la generación aumentada por recuperación (RAG) y la llamada de funciones (uso de herramientas). Presentamos varios casos de uso de estas capacidades para mejorar los sistemas de escritura asistida por IA, incluyendo la integración de bases de conocimiento externas, herramientas o APIs, y la provisión de asistencia de escritura personalizada. Además, discutimos y resumimos una guía y mejores prácticas para el pre-entrenamiento y afinamiento de LLMs específicos de dominio.
La serie de detectores You Only Look Once (YOLO) se ha consolidado como una herramienta eficiente y práctica. Sin embargo, su dependencia de categorías de objetos predefinidas y entrenadas limita su aplicabilidad en escenarios abiertos. Para abordar esta limitación, presentamos YOLO-World, un enfoque innovador que mejora YOLO con capacidades de detección de vocabulario abierto mediante modelado visión-lenguaje y preentrenamiento en conjuntos de datos a gran escala. Específicamente, proponemos una nueva Red de Agregación de Rutas Visión-Lenguaje Re-parametrizable (RepVL-PAN) y una función de pérdida de contraste región-texto para facilitar la interacción entre la información visual y lingüística. Nuestro método destaca en la detección de una amplia gama de objetos de manera zero-shot con alta eficiencia. En el desafiante conjunto de datos LVIS, YOLO-World alcanza 35.4 AP con 52.0 FPS en V100, superando a muchos métodos de última generación tanto en precisión como en velocidad. Además, la versión ajustada de YOLO-World logra un rendimiento notable en varias tareas posteriores, incluyendo detección de objetos y segmentación de instancias con vocabulario abierto.
Presentamos BlockFusion, un modelo basado en difusión que genera escenas 3D como bloques unitarios e incorpora nuevos bloques de manera fluida para extender la escena. BlockFusion se entrena utilizando conjuntos de datos de bloques 3D que se recortan aleatoriamente de mallas completas de escenas 3D. Mediante un ajuste por bloque, todos los bloques de entrenamiento se convierten en campos neuronales híbridos: con un tri-plano que contiene las características geométricas, seguido de un Perceptrón Multicapa (MLP) para decodificar los valores de distancia con signo. Se emplea un auto-codificador variacional para comprimir los tri-planos en el espacio latente de tri-planos, sobre el cual se realiza el proceso de difusión de eliminación de ruido. La difusión aplicada a las representaciones latentes permite la generación de escenas 3D de alta calidad y diversidad. Para expandir una escena durante la generación, solo es necesario añadir bloques vacíos que se superpongan con la escena actual y extrapolar los tri-planos latentes existentes para poblar los nuevos bloques. La extrapolación se realiza condicionando el proceso de generación con muestras de características de los tri-planos superpuestos durante las iteraciones de eliminación de ruido. La extrapolación de tri-planos latentes produce transiciones semántica y geométricamente significativas que se integran armoniosamente con la escena existente. Se utiliza un mecanismo de condicionamiento de diseño 2D para controlar la ubicación y disposición de los elementos de la escena. Los resultados experimentales indican que BlockFusion es capaz de generar escenas 3D grandes, diversas, geométricamente consistentes y de alta calidad sin precedentes, tanto en escenarios interiores como exteriores.
Para aprovechar los LLM en la síntesis visual, los métodos tradicionales convierten la información de imágenes raster en tokens de cuadrícula discretos mediante módulos visuales especializados, lo que interrumpe la capacidad del modelo para capturar la verdadera representación semántica de las escenas visuales. Este artículo propone que una representación alternativa de las imágenes, los gráficos vectoriales, puede superar eficazmente esta limitación al permitir una segmentación más natural y semánticamente coherente de la información de la imagen. Así, presentamos StrokeNUWA, un trabajo pionero que explora una mejor representación visual llamada "tokens de trazo" en gráficos vectoriales, que es intrínsecamente rica en semántica visual, naturalmente compatible con los LLM y altamente comprimida. Equipado con tokens de trazo, StrokeNUWA puede superar significativamente a los métodos tradicionales basados en LLM y en optimización en diversas métricas en la tarea de generación de gráficos vectoriales. Además, StrokeNUWA logra una aceleración de hasta 94x en la inferencia respecto a la velocidad de métodos anteriores, con una excepcional tasa de compresión de código SVG del 6,9%.
En el campo en rápida evolución de los modelos generativos de voz, existe una necesidad urgente de garantizar la autenticidad del audio frente a los riesgos de clonación de voz. Presentamos AudioSeal, la primera técnica de marca de agua de audio diseñada específicamente para la detección localizada de voz generada por IA. AudioSeal emplea una arquitectura generador/detector entrenada conjuntamente con una función de pérdida de localización que permite la detección localizada de la marca de agua hasta el nivel de muestra, y una novedosa función de pérdida perceptual inspirada en el enmascaramiento auditivo, que permite a AudioSeal lograr una mejor imperceptibilidad. AudioSeal alcanza un rendimiento de vanguardia en términos de robustez frente a manipulaciones de audio de la vida real y de imperceptibilidad, basándose en métricas de evaluación automáticas y humanas. Además, AudioSeal está diseñado con un detector rápido de una sola pasada, que supera significativamente a los modelos existentes en velocidad, logrando detecciones hasta dos órdenes de magnitud más rápidas, lo que lo hace ideal para aplicaciones a gran escala y en tiempo real.
Presentamos H2O-Danube-1.8B, un modelo de lenguaje de 1.8B entrenado en 1T de tokens siguiendo los principios fundamentales de LLama 2 y Mistral. Aprovechamos y refinamos diversas técnicas para el preentrenamiento de modelos de lenguaje grandes. Aunque nuestro modelo se entrenó con un número significativamente menor de tokens totales en comparación con modelos de referencia de tamaño similar, exhibe métricas altamente competitivas en una multitud de benchmarks. Además, lanzamos un modelo de chat entrenado con ajuste fino supervisado seguido de optimización directa de preferencias. Hacemos que H2O-Danube-1.8B esté disponible abiertamente bajo la licencia Apache 2.0, democratizando aún más los LLM para un público más amplio de manera económica.
En este informe, exploramos el potencial de la difusión de texto para reemplazar la decodificación autorregresiva (AR) en el entrenamiento y despliegue de modelos de lenguaje de gran escala (LLMs). Estamos particularmente interesados en ver si los modelos AR preentrenados pueden transformarse en modelos de difusión de texto mediante un procedimiento de adaptación ligero que denominamos ``AR2Diff''. Comenzamos estableciendo una configuración de referencia sólida para el entrenamiento de modelos de difusión de texto. Al comparar múltiples arquitecturas y objetivos de preentrenamiento, encontramos que entrenar un modelo de solo decodificación con un objetivo de lenguaje con prefijo es el mejor o casi el mejor en varias tareas. Basándonos en este hallazgo, probamos diversas configuraciones de transferencia de aprendizaje para modelos de difusión de texto. En traducción automática, encontramos que la difusión de texto tiene un rendimiento inferior al enfoque AR estándar. Sin embargo, en síntesis de código y QA extractivo, encontramos que los modelos de difusión entrenados desde cero superan a los modelos AR en muchos casos. También observamos mejoras en la calidad con AR2Diff: la adaptación de modelos AR para usar decodificación por difusión. Estos resultados son prometedores, dado que la difusión de texto está relativamente poco explorada y puede ser significativamente más rápida que la decodificación AR para la generación de textos largos.
Aunque se han dedicado esfuerzos significativos a alinear los modelos de lenguaje de gran escala (LLMs), los informes de pruebas de resistencia sugieren que estos LLMs cuidadosamente alineados aún podrían ser vulnerables a ataques de "jailbreaking" mediante indicaciones adversarias, ajustes o decodificación. Al examinar la vulnerabilidad de jailbreaking en los LLMs alineados, observamos que las distribuciones de decodificación de los modelos vulnerados y los alineados difieren solo en las generaciones iniciales. Esta observación nos motiva a proponer el ataque de jailbreaking de "débil a fuerte", donde los adversarios pueden utilizar LLMs más pequeños no seguros/alimentados (por ejemplo, de 7B) para guiar el jailbreaking contra LLMs alineados significativamente más grandes (por ejemplo, de 70B). Para realizar el jailbreaking, solo se necesita decodificar adicionalmente dos LLMs más pequeños una vez, lo que implica un mínimo de cálculo y latencia en comparación con la decodificación de los LLMs más grandes. La eficacia de este ataque se demuestra mediante experimentos realizados en cinco modelos de tres organizaciones diferentes. Nuestro estudio revela una forma previamente inadvertida pero eficiente de realizar jailbreaking, exponiendo un problema de seguridad urgente que debe considerarse al alinear LLMs. Como un intento inicial, proponemos una estrategia de defensa para protegerse contra tales ataques, pero crear defensas más avanzadas sigue siendo un desafío. El código para replicar el método está disponible en https://github.com/XuandongZhao/weak-to-strong.
La manipulación de imágenes actual se centra principalmente en la manipulación estática, como reemplazar regiones específicas dentro de una imagen o alterar su estilo general. En este artículo, presentamos una innovadora tarea de manipulación dinámica: el reposicionamiento de sujetos. Esta tarea implica trasladar un sujeto especificado por el usuario a una posición deseada mientras se preserva la fidelidad de la imagen. Nuestra investigación revela que las sub-tareas fundamentales del reposicionamiento de sujetos, que incluyen rellenar el vacío dejado por el sujeto reposicionado, reconstruir las partes ocultas del sujeto y mezclar el sujeto para que sea coherente con las áreas circundantes, pueden reformularse eficazmente como una tarea unificada de inpainting guiado por prompts. En consecuencia, podemos emplear un único modelo generativo de difusión para abordar estas sub-tareas utilizando varios prompts de tarea aprendidos a través de nuestra técnica propuesta de inversión de tareas. Además, integramos técnicas de preprocesamiento y postprocesamiento para mejorar aún más la calidad del reposicionamiento de sujetos. Estos elementos juntos forman nuestro marco SEgment-gEnerate-and-bLEnd (SEELE). Para evaluar la eficacia de SEELE en el reposicionamiento de sujetos, hemos creado un conjunto de datos del mundo real llamado ReS. Nuestros resultados en ReS demuestran la calidad de la generación de imágenes reposicionadas.
Estudios recientes han abogado por modelos base completamente abiertos para promover la transparencia y la ciencia abierta. Como un primer paso, el Modelo de Habla al Estilo Whisper Abierto (OWSM, por sus siglas en inglés) reprodujo el Whisper de OpenAI utilizando datos disponibles públicamente y herramientas de código abierto. Con el objetivo de reproducir Whisper, los modelos anteriores OWSM v1 a v3 aún se basaban en Transformer, lo que podría resultar en un rendimiento inferior en comparación con otros codificadores de habla de última generación. En este trabajo, buscamos mejorar el rendimiento y la eficiencia de OWSM sin utilizar datos de entrenamiento adicionales. Presentamos los modelos OWSM v3.1 basados en E-Branchformer en dos escalas, es decir, 100M y 1B. El modelo de 1B es el modelo de habla basado en E-Branchformer más grande que se ha puesto a disposición del público. Supera al anterior OWSM v3 en la gran mayoría de los puntos de referencia de evaluación, mientras demuestra una velocidad de inferencia hasta un 25% más rápida. Publicamos los scripts de preparación de datos, los modelos preentrenados y los registros de entrenamiento.
La restauración de imágenes es un problema fundamental que implica recuperar una imagen limpia de alta calidad a partir de una observación degradada. Los modelos de restauración "todo en uno" pueden restaurar eficazmente imágenes de diversos tipos y niveles de degradación utilizando información específica de la degradación como indicaciones para guiar el modelo de restauración. En este trabajo, presentamos el primer enfoque que utiliza instrucciones escritas por humanos para guiar el modelo de restauración de imágenes. Dadas indicaciones en lenguaje natural, nuestro modelo puede recuperar imágenes de alta calidad a partir de sus versiones degradadas, considerando múltiples tipos de degradación. Nuestro método, InstructIR, logra resultados de vanguardia en varias tareas de restauración, incluyendo eliminación de ruido, eliminación de lluvia, eliminación de desenfoque, eliminación de neblina y mejora de imágenes (en condiciones de poca luz). InstructIR mejora en +1dB respecto a los métodos anteriores de restauración "todo en uno". Además, nuestro conjunto de datos y resultados representan un nuevo punto de referencia para la investigación en restauración y mejora de imágenes guiada por texto. Nuestro código, conjuntos de datos y modelos están disponibles en: https://github.com/mv-lab/InstructIR.
Si bien los modelos de lenguaje de gran escala (LLMs) se utilizan cada vez más para la síntesis de programas, carecen de la visión global necesaria para desarrollar abstracciones útiles; generalmente predicen programas uno por uno, repitiendo con frecuencia la misma funcionalidad. Generar código redundante desde cero es tanto ineficiente como propenso a errores. Para abordar esto, proponemos Refactoring for Generalizable Abstraction Learning (ReGAL), un método sin gradientes para aprender una biblioteca de funciones reutilizables mediante la refactorización de código, es decir, reestructurar el código sin cambiar su salida de ejecución. ReGAL aprende a partir de un pequeño conjunto de programas existentes, verificando y refinando iterativamente sus abstracciones mediante la ejecución. Descubrimos que las bibliotecas de funciones compartidas descubiertas por ReGAL hacen que los programas sean más fáciles de predecir en diversos dominios. En tres conjuntos de datos (generación de gráficos LOGO, razonamiento de fechas y TextCraft, un juego de texto basado en Minecraft), tanto los LLMs de código abierto como los propietarios mejoran en precisión al predecir programas con funciones de ReGAL. Para CodeLlama-13B, ReGAL resulta en aumentos absolutos de precisión del 11.5% en gráficos, 26.1% en comprensión de fechas y 8.1% en TextCraft, superando a GPT-3.5 en dos de los tres dominios. Nuestro análisis revela que las abstracciones de ReGAL encapsulan subrutinas de uso frecuente, así como dinámicas del entorno.
Los modelos actuales de visión y lenguaje a gran escala (VLMs, por sus siglas en inglés) suelen enfrentar desafíos como capacidades insuficientes de un único componente visual y tokens visuales excesivamente largos. Estos problemas pueden limitar la eficacia del modelo para interpretar con precisión información visual compleja y contextual demasiado extensa. Abordar estos desafíos es crucial para mejorar el rendimiento y la aplicabilidad de los VLMs. Este artículo propone el uso de la técnica de ensamblaje de expertos para potenciar sinérgicamente las capacidades de codificadores visuales individuales, incluyendo aquellos especializados en emparejamiento de imagen-texto, OCR, segmentación de imágenes, etc. Esta técnica introduce una red de fusión para unificar el procesamiento de las salidas de diferentes expertos visuales, al mismo tiempo que reduce la brecha entre los codificadores de imágenes y los modelos de lenguaje preentrenados (LLMs). Además, exploramos diferentes esquemas de codificación posicional para mitigar el desperdicio de codificación posicional causado por secuencias de características de imagen demasiado largas, abordando efectivamente el problema de desbordamiento posicional y limitaciones de longitud. Por ejemplo, en nuestra implementación, esta técnica reduce significativamente la ocupación posicional en modelos como SAM, pasando de un sustancial 4096 a un valor más eficiente y manejable de 64 o incluso hasta 1. Los resultados experimentales demuestran que los VLMs con múltiples expertos exhiben un rendimiento consistentemente superior en comparación con codificadores visuales aislados y marcan un aumento significativo en el rendimiento a medida que se integran más expertos. Hemos liberado el código de entrenamiento utilizado en este informe. Todos estos recursos pueden encontrarse en el sitio web de nuestro proyecto.
Los modelos de lenguaje a gran escala dependen cada vez más de técnicas distribuidas para su entrenamiento e inferencia. Estas técnicas requieren comunicación entre dispositivos, lo que puede reducir la eficiencia de escalabilidad a medida que aumenta el número de dispositivos. Si bien algunas técnicas distribuidas pueden superponerse y, por lo tanto, ocultar esta comunicación con cálculos independientes, técnicas como el Paralelismo de Tensores (TP) serializan inherentemente la comunicación con la ejecución del modelo. Un enfoque para ocultar esta comunicación serializada es intercalarla con la operación del productor (de los datos comunicados) de manera granular. Sin embargo, esta intercalación granular de comunicación y cálculo en software puede ser difícil. Además, como con cualquier ejecución concurrente, requiere que los recursos de cálculo y memoria se compartan entre el cálculo y la comunicación, lo que provoca contención de recursos que reduce la eficacia de la superposición. Para superar estos desafíos, proponemos T3, que aplica un co-diseño hardware-software para superponer transparentemente la comunicación serializada mientras minimiza la contención de recursos con el cálculo. T3 fusiona transparentemente las operaciones del productor con la comunicación subsiguiente mediante una configuración simple del espacio de direcciones de salida del productor y requiere cambios menores en el software. A nivel de hardware, T3 añade un mecanismo ligero de seguimiento y activación para orquestar el cálculo y la comunicación del productor. Además, utiliza memorias mejoradas con capacidad de cálculo para el procesamiento asociado a la comunicación. Como resultado, T3 reduce la contención de recursos y superpone eficientemente la comunicación serializada con el cálculo. Para modelos importantes de Transformers como T-NLG, T3 acelera las subcapas intensivas en comunicación en un 30% en media geométrica (máximo 47%) y reduce el movimiento de datos en un 22% en media geométrica (máximo 36%). Además, los beneficios de T3 persisten a medida que los modelos escalan: media geométrica del 29% para subcapas en modelos simulados de 500 mil millones de parámetros, como PALM y MT-NLG.