HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

15 papers found

Music ControlNet: Controles múltiples variables en el tiempo para la generación de música
Music ControlNet: Multiple Time-varying Controls for Music Generation

Nov 13

ByShih-Lun Wu, Chris Donahue, Shinji Watanabe, Nicholas J. Bryan

Los modelos de generación de música a partir de texto son ahora capaces de producir audio musical de alta calidad en una amplia variedad de estilos. Sin embargo, el control mediante texto es principalmente adecuado para la manipulación de atributos musicales globales como el género, el estado de ánimo y el tempo, y es menos apropiado para un control preciso sobre atributos que varían en el tiempo, como la posición de los beats o la dinámica cambiante de la música. Proponemos Music ControlNet, un modelo de generación de música basado en difusión que ofrece múltiples controles precisos y variables en el tiempo sobre el audio generado. Para dotar a los modelos de texto a música con control variable en el tiempo, proponemos un enfoque análogo al control píxel a píxel del método ControlNet en el dominio de las imágenes. Específicamente, extraemos controles del audio de entrenamiento para obtener datos emparejados, y ajustamos un modelo generativo condicional basado en difusión sobre espectrogramas de audio dados controles de melodía, dinámica y ritmo. Mientras que el método Uni-ControlNet en el dominio de las imágenes ya permite la generación con cualquier subconjunto de controles, diseñamos una nueva estrategia para permitir a los creadores introducir controles que solo están parcialmente especificados en el tiempo. Evaluamos tanto en controles extraídos del audio como en controles que esperamos que los creadores proporcionen, demostrando que podemos generar música realista que se corresponde con las entradas de control en ambos escenarios. Aunque existen pocos modelos comparables de generación de música, comparamos nuestro modelo con MusicGen, un modelo reciente que acepta texto y melodía como entrada, y mostramos que nuestro modelo genera música que es un 49% más fiel a las melodías de entrada, a pesar de tener 35 veces menos parámetros, entrenarse con 11 veces menos datos y permitir dos formas adicionales de control variable en el tiempo. Los ejemplos de sonido pueden encontrarse en https://MusicControlNet.github.io/web/.

ChatAnything: Videollamadas con Personajes Mejorados por Modelos de Lenguaje
ChatAnything: Facetime Chat with LLM-Enhanced Personas

Nov 12

ByYilin Zhao, Xinbin Yuan, Shanghua Gao, Zhijie Lin, Qibin Hou, Jiashi Feng, Daquan Zhou

En este informe técnico, nos enfocamos en generar personajes antropomorfizados para personajes basados en modelos de lenguaje (LLM) de manera en línea, incluyendo apariencia visual, personalidad y tonos, utilizando únicamente descripciones textuales. Para lograrlo, primero aprovechamos la capacidad de aprendizaje en contexto de los LLM para la generación de personalidad mediante el diseño cuidadoso de un conjunto de indicaciones del sistema. Luego, proponemos dos conceptos novedosos: la mezcla de voces (MoV) y la mezcla de difusores (MoD) para la generación diversa de voces y apariencias. Para MoV, utilizamos algoritmos de texto a voz (TTS) con una variedad de tonos predefinidos y seleccionamos automáticamente el más adecuado basado en la descripción textual proporcionada por el usuario. Para MoD, combinamos técnicas recientes de generación de imágenes a partir de texto y algoritmos de cabezas parlantes para agilizar el proceso de generar objetos parlantes. Denominamos a este marco completo como ChatAnything. Con él, los usuarios podrían animar cualquier cosa con cualquier personaje antropomórfico utilizando solo unas pocas entradas de texto. Sin embargo, hemos observado que los objetos antropomórficos producidos por los modelos generativos actuales a menudo no son detectables por detectores de puntos de referencia faciales preentrenados, lo que lleva al fallo en la generación de movimientos faciales, incluso si estos rostros tienen apariencias humanoides, ya que esas imágenes casi no se ven durante el entrenamiento (por ejemplo, muestras fuera de distribución, OOD). Para abordar este problema, incorporamos guía a nivel de píxel para infundir puntos de referencia faciales humanos durante la fase de generación de imágenes. Para evaluar estas métricas, hemos construido un conjunto de datos de evaluación. Basándonos en él, verificamos que la tasa de detección de los puntos de referencia faciales aumenta significativamente del 57.0% al 92.5%, permitiendo así la animación facial automática basada en el contenido de voz generado. El código y más resultados se pueden encontrar en https://chatanything.github.io/.

Story-to-Motion: Síntesis de animación de personajes infinita y controlable a partir de texto extenso
Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text

Nov 13

ByZhongfei Qing, Zhongang Cai, Zhitao Yang, Lei Yang

Generar movimiento humano natural a partir de una historia tiene el potencial de transformar el panorama de las industrias de animación, videojuegos y cine. Surge una tarea nueva y desafiante, Story-to-Motion, cuando se requiere que los personajes se desplacen a varias ubicaciones y realicen movimientos específicos basados en una descripción textual extensa. Esta tarea exige una fusión de control de bajo nivel (trayectorias) y control de alto nivel (semántica del movimiento). Trabajos previos en control de personajes y texto-a-movimiento han abordado aspectos relacionados, pero una solución integral sigue siendo esquiva: los métodos de control de personajes no manejan descripciones textuales, mientras que los métodos de texto-a-movimiento carecen de restricciones de posición y a menudo producen movimientos inestables. Ante estas limitaciones, proponemos un sistema novedoso que genera movimientos y trayectorias controlables, infinitamente largos y alineados con el texto de entrada. (1) Aprovechamos los modelos de lenguaje de gran escala contemporáneos para actuar como un planificador de movimientos impulsado por texto, extrayendo una serie de pares (texto, posición, duración) de textos largos. (2) Desarrollamos un esquema de recuperación de movimientos impulsado por texto que incorpora la coincidencia de movimientos con restricciones semánticas y de trayectoria. (3) Diseñamos un transformador progresivo con máscara que aborda artefactos comunes en los movimientos de transición, como posturas antinaturales y deslizamiento de pies. Más allá de su papel pionero como la primera solución integral para Story-to-Motion, nuestro sistema se evalúa en tres sub-tareas distintas: seguimiento de trayectorias, composición temporal de acciones y mezcla de movimientos, donde supera a los métodos de síntesis de movimiento más avanzados en todos los aspectos. Página web: https://story2motion.github.io/.

Q-Instruct: Mejora de las capacidades visuales de bajo nivel para modelos fundacionales multimodales
Q-Instruct: Improving Low-level Visual Abilities for Multi-modality Foundation Models

Nov 12

ByHaoning Wu, Zicheng Zhang, Erli Zhang, Chaofeng Chen, Liang Liao, Annan Wang, Kaixin Xu, Chunyi Li, Jingwen Hou, Guangtao Zhai, Geng Xue, Wenxiu Sun, Qiong Yan, Weisi Lin

Los modelos fundacionales multimodales, representados por GPT-4V, han introducido un nuevo paradigma para tareas de percepción y comprensión visual de bajo nivel, permitiendo responder a una amplia gama de instrucciones naturales humanas en un modelo. Aunque los modelos fundacionales existentes han mostrado un potencial prometedor en tareas visuales de bajo nivel, sus capacidades relacionadas aún son preliminares y necesitan mejorarse. Para potenciar estos modelos, llevamos a cabo un experimento subjetivo a gran escala, recopilando un vasto número de comentarios reales de humanos sobre visión de bajo nivel. Cada comentario sigue una ruta que comienza con una descripción detallada de la apariencia visual de bajo nivel (*por ejemplo, claridad, color, brillo* de una imagen) y termina con una conclusión general, con una longitud promedio de 45 palabras. El conjunto de datos **Q-Pathway** construido incluye 58K comentarios humanos detallados sobre 18,973 imágenes con diversas apariencias de bajo nivel. Además, para permitir que los modelos fundacionales respondan de manera robusta a diversos tipos de preguntas, diseñamos una conversión con participación de GPT para procesar estos comentarios en 200K pares de instrucción-respuesta de diversos formatos. Los resultados experimentales indican que **Q-Instruct** eleva consistentemente las capacidades de percepción y comprensión de bajo nivel en varios modelos fundacionales. Anticipamos que nuestros conjuntos de datos pueden allanar el camino hacia un futuro en el que la inteligencia general pueda percibir, comprender la apariencia visual de bajo nivel y evaluar la calidad visual como lo haría un humano. Nuestro conjunto de datos, modelo zoo y demo están publicados en: https://q-future.github.io/Q-Instruct.

GOAT: Ir a Cualquier Cosa
GOAT: GO to Any Thing

Nov 10

ByMatthew Chang, Theophile Gervet, Mukul Khanna, Sriram Yenamandra, Dhruv Shah, So Yeon Min, Kavit Shah, Chris Paxton, Saurabh Gupta, Dhruv Batra, Roozbeh Mottaghi, Jitendra Malik, Devendra Singh Chaplot

En escenarios de implementación como hogares y almacenes, se espera que los robots móviles naveguen de manera autónoma durante períodos prolongados, ejecutando tareas de forma fluida que se expresan en términos intuitivamente comprensibles para los operadores humanos. Presentamos GO To Any Thing (GOAT), un sistema de navegación universal capaz de abordar estos requisitos con tres características clave: a) Multimodal: puede manejar objetivos especificados mediante etiquetas de categoría, imágenes objetivo y descripciones en lenguaje natural, b) De larga duración: se beneficia de su experiencia previa en el mismo entorno, y c) Independiente de la plataforma: puede implementarse rápidamente en robots con diferentes configuraciones físicas. GOAT es posible gracias a un diseño de sistema modular y una memoria semántica consciente de instancias que se amplía continuamente, la cual registra la apariencia de objetos desde diferentes perspectivas, además de la semántica a nivel de categoría. Esto permite a GOAT distinguir entre diferentes instancias de la misma categoría para facilitar la navegación hacia objetivos especificados por imágenes y descripciones en lenguaje natural. En comparaciones experimentales que abarcan más de 90 horas en 9 hogares diferentes, con 675 objetivos seleccionados entre más de 200 instancias de objetos, encontramos que GOAT logra una tasa de éxito general del 83%, superando métodos anteriores y variantes en un 32% (mejora absoluta). GOAT mejora con la experiencia en el entorno, pasando de una tasa de éxito del 60% en el primer objetivo a un 90% después de la exploración. Además, demostramos que GOAT puede aplicarse fácilmente a tareas posteriores como recoger y colocar objetos, así como a la navegación social.

Ver para Creer: Guiando a GPT-4V para una Mejor Sintonización de Instrucciones Visuales
To See is to Believe: Prompting GPT-4V for Better Visual Instruction Tuning

Nov 13

ByJunke Wang, Lingchen Meng, Zejia Weng, Bo He, Zuxuan Wu, Yu-Gang Jiang

Los métodos existentes de ajuste fino de instrucciones visuales suelen utilizar descripciones textuales para generar datos que sigan instrucciones en modelos de lenguaje grandes. A pesar del rendimiento prometedor logrado, estas descripciones se derivan de anotaciones de imágenes, que a menudo son de grano grueso. Además, las instrucciones podrían incluso contradecir el contenido visual sin observar el contexto visual completo. Para abordar este desafío, presentamos un conjunto de datos de instrucciones visuales de grano fino, LVIS-Instruct4V, que contiene 220K instrucciones visualmente alineadas y conscientes del contexto, producidas al utilizar el potente GPT-4V con imágenes de LVIS. A través de validación experimental y estudios de casos, demostramos que los datos de instrucciones visuales de alta calidad pueden mejorar el rendimiento de LLaVA-1.5, un modelo multimodal grande de última generación, en una amplia gama de benchmarks con márgenes claros. Notablemente, al simplemente reemplazar LLaVA-Instruct con nuestro LVIS-Instruct4V, logramos mejores resultados que LLaVA en la mayoría de los benchmarks desafiantes para modelos multimodales grandes (LMM), por ejemplo, LLaVA^w (76.7 vs. 70.7) y MM-Vet (40.2 vs. 35.4). Publicamos nuestros datos y modelo en https://github.com/X2FD/LVIS-INSTRUCT4V.

GPT-4V en el País de las Maravillas: Modelos Multimodales de Gran Escala para la Navegación Cero-Shot en Interfaces Gráficas de Smartphones
GPT-4V in Wonderland: Large Multimodal Models for Zero-Shot Smartphone GUI Navigation

Nov 13

ByAn Yan, Zhengyuan Yang, Wanrong Zhu, Kevin Lin, Linjie Li, Jianfeng Wang, Jianwei Yang, Yiwu Zhong, Julian McAuley, Jianfeng Gao, Zicheng Liu, Lijuan Wang

Presentamos MM-Navigator, un agente basado en GPT-4V para la tarea de navegación en interfaces gráficas de usuario (GUI) de smartphones. MM-Navigator puede interactuar con la pantalla de un smartphone como lo haría un usuario humano, y determinar las acciones subsiguientes para cumplir con las instrucciones dadas. Nuestros hallazgos demuestran que los modelos multimodales de gran escala (LMMs), específicamente GPT-4V, sobresalen en la navegación GUI en modo zero-shot gracias a sus avanzadas capacidades de interpretación de pantalla, razonamiento de acciones y localización precisa de acciones. Primero, evaluamos MM-Navigator en nuestro conjunto de datos de pantallas iOS recopilado. Según evaluaciones humanas, el sistema mostró una tasa de precisión del 91% en la generación de descripciones de acciones razonables y un 75% de precisión en la ejecución de las acciones correctas para instrucciones de un solo paso en iOS. Además, evaluamos el modelo en un subconjunto de un conjunto de datos de navegación en pantallas Android, donde el modelo superó a los navegadores GUI anteriores en un enfoque zero-shot. Nuestro benchmark y análisis detallados buscan sentar una base sólida para futuras investigaciones en la tarea de navegación GUI. La página del proyecto se encuentra en https://github.com/zzxslp/MM-Navigator.

SPHINX: La Mezcla Conjunta de Pesos, Tareas e Incrustaciones Visuales para Modelos de Lenguaje de Gran Escala Multimodales
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

Nov 13

ByZiyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao

Presentamos SPHINX, un modelo de lenguaje multimodal de gran escala (MLLM) versátil con una mezcla conjunta de pesos del modelo, tareas de ajuste y representaciones visuales. En primer lugar, para lograr una mejor alineación entre visión y lenguaje, descongelamos el modelo de lenguaje de gran escala (LLM) durante el preentrenamiento e introducimos una estrategia de mezcla de pesos entre LLM entrenados con datos del mundo real y sintéticos. Al integrar directamente los pesos de ambos dominios, el LLM mezclado puede incorporar de manera eficiente semánticas diversas con una robustez favorable. Luego, para habilitar capacidades multipropósito, mezclamos una variedad de tareas para un ajuste conjunto de instrucciones visuales y diseñamos instrucciones específicas para cada tarea, evitando conflictos entre ellas. Además de la respuesta básica a preguntas visuales, incluimos tareas más desafiantes como la comprensión a nivel de región, la anclaje de descripciones, la detección de diseño de documentos y la estimación de posturas humanas, contribuyendo a una mejora mutua en diferentes escenarios. Adicionalmente, proponemos extraer representaciones visuales integrales de diversas arquitecturas de red, paradigmas de preentrenamiento y granularidad de información, proporcionando a los modelos de lenguaje representaciones de imágenes más robustas. Basado en nuestra propuesta de mezcla conjunta, SPHINX exhibe capacidades superiores de comprensión multimodal en una amplia gama de aplicaciones. Sobre esto, proponemos además una estrategia eficiente para capturar mejor las apariencias detalladas de imágenes de alta resolución. Con una mezcla de diferentes escalas y subimágenes de alta resolución, SPHINX alcanza un rendimiento excepcional en análisis visual y razonamiento en los benchmarks de evaluación existentes. Esperamos que nuestro trabajo arroje luz sobre la exploración de la mezcla conjunta en futuras investigaciones de MLLM. El código está disponible en https://github.com/Alpha-VLLM/LLaMA2-Accessory.

MEGAVERSE: Evaluación de Modelos de Lenguaje de Gran Escala a través de Idiomas, Modalidades, Modelos y Tareas
MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks

Nov 13

BySanchit Ahuja, Divyanshu Aggarwal, Varun Gumma, Ishaan Watts, Ashutosh Sathe, Millicent Ochieng, Rishav Hada, Prachi Jain, Maxamed Axmed, Kalika Bali, Sunayana Sitaram

Recientemente, ha habido un avance rápido en la investigación sobre Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), lo que ha resultado en un progreso significativo en varias tareas de Procesamiento del Lenguaje Natural (NLP). Como consecuencia, ha surgido un aumento en la investigación sobre la evaluación de LLMs para comprender las capacidades y limitaciones de estos modelos. Sin embargo, gran parte de esta investigación se ha limitado al idioma inglés, dejando relativamente inexplorada la construcción y evaluación de LLMs para lenguas no inglesas. Se han introducido varios LLMs nuevos, lo que ha hecho necesario su evaluación en lenguas no inglesas. Este estudio tiene como objetivo ampliar nuestra suite de evaluación MEGA al incluir seis nuevos conjuntos de datos para formar el benchmark MEGAVERSE. Este benchmark comprende 22 conjuntos de datos que cubren 81 idiomas, incluyendo lenguas africanas de bajos recursos. Evaluamos varios LLMs de vanguardia como GPT-3.5-Turbo, GPT4, PaLM2 y Llama2 en los conjuntos de datos de MEGAVERSE. Además, incluimos dos conjuntos de datos multimodales en el benchmark y evaluamos el rendimiento del modelo LLaVa-v1.5. Nuestros experimentos sugieren que GPT4 y PaLM2 superan a los modelos Llama en diversas tareas, especialmente en lenguas de bajos recursos, con GPT4 superando a PaLM2 en más conjuntos de datos que viceversa. Sin embargo, es necesario abordar problemas como la contaminación de datos para obtener una evaluación precisa del rendimiento de los LLMs en lenguas no inglesas.

El impacto de los modelos de lenguaje de gran escala en el descubrimiento científico: un estudio preliminar utilizando GPT-4
The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4

Nov 13

ByMicrosoft Research AI4Science, Microsoft Azure Quantum

En los últimos años, avances revolucionarios en el procesamiento del lenguaje natural han culminado en la aparición de potentes modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), los cuales han demostrado capacidades notables en una amplia gama de dominios, incluyendo la comprensión, generación y traducción del lenguaje natural, e incluso tareas que van más allá del procesamiento del lenguaje. En este informe, profundizamos en el desempeño de los LLMs en el contexto del descubrimiento científico, centrándonos en GPT-4, el modelo de lenguaje más avanzado hasta la fecha. Nuestra investigación abarca una diversidad de áreas científicas que incluyen el descubrimiento de fármacos, la biología, la química computacional (teoría del funcional de la densidad (DFT) y dinámica molecular (MD)), el diseño de materiales y las ecuaciones diferenciales parciales (PDE). Evaluar GPT-4 en tareas científicas es crucial para descubrir su potencial en diversos dominios de investigación, validar su experiencia específica en cada campo, acelerar el progreso científico, optimizar la asignación de recursos, guiar el desarrollo futuro de modelos y fomentar la investigación interdisciplinaria. Nuestra metodología de exploración consiste principalmente en evaluaciones de casos dirigidas por expertos, que ofrecen perspectivas cualitativas sobre la comprensión del modelo de conceptos y relaciones científicas complejas, y ocasionalmente pruebas de referencia, que evalúan cuantitativamente la capacidad del modelo para resolver problemas bien definidos en dominios específicos. Nuestra exploración preliminar indica que GPT-4 muestra un potencial prometedor para una variedad de aplicaciones científicas, demostrando su aptitud para manejar tareas complejas de resolución de problemas e integración de conocimientos. En términos generales, evaluamos la base de conocimientos de GPT-4, su comprensión científica, sus habilidades de cálculo numérico científico y sus diversas capacidades de predicción científica.

Alineación de Fuentes Confiables en Modelos de Lenguaje a Gran Escala
Trusted Source Alignment in Large Language Models

Nov 12

ByVasilisa Bashlovkina, Zhaobin Kuang, Riley Matthews, Edward Clifford, Yennie Jun, William W. Cohen, Simon Baumgartner

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se entrenan con corpus de escala web que inevitablemente incluyen información factual contradictoria proveniente de fuentes de diversa confiabilidad. En este artículo, proponemos medir una propiedad de los LLMs llamada alineación con fuentes confiables (TSA, por sus siglas en inglés): la tendencia del modelo a alinearse con contenido producido por publicaciones confiables frente a la incertidumbre o la controversia. Presentamos FactCheckQA, un conjunto de datos de evaluación de TSA basado en un corpus de artículos de verificación de hechos. Describimos un protocolo simple para evaluar la TSA y ofrecemos un análisis detallado de consideraciones de diseño, incluyendo la extracción de respuestas, la contextualización de afirmaciones y el sesgo en la formulación de indicaciones. Al aplicar el protocolo a PaLM-2, encontramos que, a medida que aumentamos el tamaño del modelo, su rendimiento en FactCheckQA mejora desde una precisión equilibrada cercana al azar hasta un 80% en la alineación con fuentes confiables.

LayoutPrompter: Despertar la capacidad de diseño de los modelos de lenguaje de gran escala
LayoutPrompter: Awaken the Design Ability of Large Language Models

Nov 11

ByJiawei Lin, Jiaqi Guo, Shizhao Sun, Zijiang James Yang, Jian-Guang Lou, Dongmei Zhang

La generación condicional de diseños gráficos, que mapea automáticamente las restricciones del usuario a diseños de alta calidad, ha atraído una atención generalizada en la actualidad. Aunque trabajos recientes han logrado un rendimiento prometedor, la falta de versatilidad y eficiencia en el uso de datos dificulta sus aplicaciones prácticas. En este trabajo, proponemos LayoutPrompter, que aprovecha los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para abordar los problemas anteriores mediante el aprendizaje en contexto. LayoutPrompter está compuesto por tres componentes clave: serialización de entrada-salida, selección dinámica de ejemplos y clasificación de diseños. Específicamente, el componente de serialización de entrada-salida diseña meticulosamente los formatos de entrada y salida para cada tarea de generación de diseños. La selección dinámica de ejemplos es responsable de elegir los ejemplos de indicación más útiles para una entrada dada. Y un clasificador de diseños se utiliza para seleccionar el diseño de mayor calidad entre múltiples salidas de los LLMs. Realizamos experimentos en todas las tareas existentes de generación de diseños utilizando cuatro conjuntos de datos públicos. A pesar de la simplicidad de nuestro enfoque, los resultados experimentales muestran que LayoutPrompter puede competir o incluso superar a los enfoques más avanzados en estas tareas sin necesidad de entrenamiento o ajuste del modelo. Esto demuestra la eficacia de este enfoque versátil y libre de entrenamiento. Además, los estudios de ablación muestran que LayoutPrompter es significativamente superior a la línea base basada en entrenamiento en un régimen de datos limitados, lo que indica aún más la eficiencia en el uso de datos de LayoutPrompter. Nuestro proyecto está disponible en https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.

Cappy: Superando y Potenciando Modelos de Lenguaje Multitarea Grandes con un Pequeño Evaluador
Cappy: Outperforming and Boosting Large Multi-Task LMs with a Small Scorer

Nov 12

ByBowen Tan, Yun Zhu, Lijuan Liu, Eric Xing, Zhiting Hu, Jindong Chen

Los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) como T0, FLAN y OPT-IML destacan en la realización de múltiples tareas bajo un paradigma unificado de seguimiento de instrucciones, donde también exhiben una notable capacidad de generalización hacia tareas no vistas. A pesar de su impresionante rendimiento, estos LLMs, con tamaños que van desde varios miles de millones hasta cientos de miles de millones de parámetros, requieren recursos computacionales sustanciales, lo que hace que su entrenamiento e inferencia sean costosos e ineficientes. Además, adaptar estos modelos a aplicaciones específicas, particularmente tareas complejas, a menudo no es factible debido a los extensos requisitos de hardware para el ajuste fino, incluso cuando se utilizan enfoques eficientes en parámetros como el ajuste de prompts. Adicionalmente, los LLMs más potentes para múltiples tareas, como OPT-IML-175B y FLAN-PaLM-540B, no son de acceso público, lo que limita severamente su potencial de personalización. Para abordar estos desafíos, presentamos un pequeño clasificador preentrenado, Cappy, diseñado para mejorar el rendimiento y la eficiencia de los LLMs de múltiples tareas. Con apenas 360 millones de parámetros, Cappy funciona de manera independiente en tareas de clasificación o como un componente auxiliar para los LLMs, mejorando su rendimiento. Además, Cappy permite integrar eficientemente la supervisión de tareas específicas sin necesidad de ajustar el LLM ni acceder a sus parámetros. Nuestros experimentos demuestran que, al trabajar de manera independiente en 11 tareas de comprensión del lenguaje de PromptSource, Cappy supera a LLMs que son varios órdenes de magnitud más grandes. Además, en 45 tareas complejas de BIG-Bench, Cappy mejora significativamente el rendimiento del avanzado LLM de múltiples tareas, FLAN-T5. Además, Cappy es flexible para cooperar con otras adaptaciones de LLMs, incluyendo el ajuste fino y el aprendizaje en contexto, ofreciendo una mejora adicional en el rendimiento.

Hacia capacidades de habla de propósito general para modelos de lenguaje grande utilizando datos no emparejados
Towards General-Purpose Speech Abilities for Large Language Models Using Unpaired Data

Nov 12

ByYassir Fathullah, Chunyang Wu, Egor Lakomkin, Junteng Jia, Yuan Shangguan, Jay Mahadeokar, Ozlem Kalinli, Christian Fuegen, Mike Seltzer

En este trabajo, extendemos el modelo Llama-2 ajustado por instrucciones con capacidades de procesamiento y razonamiento de habla de propósito general de extremo a extremo, manteniendo la amplia gama de capacidades de los LLM, sin utilizar datos cuidadosamente seleccionados y emparejados. El modelo propuesto puede utilizar señales de audio como reemplazo del texto y sostener una conversación. Tal modelo también tiene capacidades multimodales extendidas, como poder realizar respuestas a preguntas basadas en habla, traducción de habla y resumen de audio, entre muchas otras tareas de dominio cerrado y abierto. Esto difiere de enfoques previos en el procesamiento de habla, en los que los LLM se extienden para manejar audio en un número limitado de tareas predefinidas. Los experimentos muestran que nuestro enfoque de extremo a extremo es comparable o supera a un sistema en cascada (reconocedor de habla + LLM) en términos de modelar la respuesta a una indicación. Además, a diferencia de un sistema en cascada, nuestro enfoque muestra la capacidad de intercambiar modalidades de texto y audio y utilizar el contexto previo en una conversación para proporcionar mejores resultados.

Los modelos de lenguaje de vanguardia no son robustos frente a aritmética adversaria, o "¿Qué necesito decir para que aceptes que 2+2=5?"
Frontier Language Models are not Robust to Adversarial Arithmetic, or "What do I need to say so you agree 2+2=5?

Nov 8

ByC. Daniel Freeman, Laura Culp, Aaron Parisi, Maxwell L Bileschi, Gamaleldin F Elsayed, Alex Rizkowsky, Isabelle Simpson, Alex Alemi, Azade Nova, Ben Adlam, Bernd Bohnet, Gaurav Mishra, Hanie Sedghi, Igor Mordatch, Izzeddin Gur, Jaehoon Lee, JD Co-Reyes, Jeffrey Pennington, Kelvin Xu, Kevin Swersky, Kshiteej Mahajan, Lechao Xiao, Rosanne Liu, Simon Kornblith, Noah Constant, Peter J. Liu, Roman Novak, Sharad Vikram, Yundi Qian, Noah Fiedel, Jascha Sohl-Dickstein

Introducimos y estudiamos el problema de la aritmética adversaria, que proporciona un banco de pruebas simple pero desafiante para la alineación de modelos de lenguaje. Este problema consiste en preguntas aritméticas formuladas en lenguaje natural, con una cadena adversaria arbitraria insertada antes de que la pregunta esté completa. Incluso en el escenario simple de problemas de suma de un dígito, es fácil encontrar indicaciones adversarias que hagan que todos los modelos probados (incluyendo PaLM2, GPT4, Claude2) se comporten incorrectamente, e incluso para dirigir a los modelos hacia una respuesta errónea específica. Además, proporcionamos un algoritmo simple para encontrar ataques exitosos consultando esos mismos modelos, al que denominamos "muestreo por rechazo de inversión de indicaciones" (PIRS, por sus siglas en inglés). Finalmente, demostramos que los modelos pueden ser parcialmente fortalecidos contra estos ataques mediante aprendizaje por refuerzo y mediante bucles constitucionales agentes. Sin embargo, no logramos hacer que un modelo de lenguaje sea completamente robusto contra los ataques de aritmética adversaria.

SPHINX: La Mezcla Conjunta de Pesos, Tareas e Incrustaciones Visuales para Modelos de Lenguaje de Gran Escala Multimodales
SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

Nov 13

ByZiyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao