Artículos de investigación en IA seleccionados diariamente con traducciones
Los métodos de ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés) buscan adaptar modelos grandes mediante actualizaciones a un número reducido de pesos. Sin embargo, gran parte del trabajo previo en interpretabilidad ha demostrado que las representaciones codifican información semántica rica, lo que sugiere que editar representaciones podría ser una alternativa más poderosa. Aquí, exploramos esta hipótesis desarrollando una familia de métodos de Ajuste Fino de Representaciones (ReFT, por sus siglas en inglés). Los métodos ReFT operan sobre un modelo base congelado y aprenden intervenciones específicas para la tarea en las representaciones ocultas. Definimos una instancia sólida de la familia ReFT, el Ajuste Fino de Subespacio Lineal de Bajo Rango (LoReFT, por sus siglas en inglés). LoReFT es un reemplazo directo para los PEFTs existentes y aprende intervenciones que son 10x-50x más eficientes en parámetros que los PEFTs más avanzados anteriores. Mostramos LoReFT en ocho tareas de razonamiento de sentido común, cuatro tareas de razonamiento aritmético, Alpaca-Eval v1.0 y GLUE. En todas estas evaluaciones, LoReFT ofrece el mejor equilibrio entre eficiencia y rendimiento, y casi siempre supera a los PEFTs más avanzados. Publicamos una biblioteca genérica de entrenamiento ReFT en https://github.com/stanfordnlp/pyreft.
Los modelos de difusión han demostrado un gran éxito en el campo de la generación de imágenes a partir de texto. Sin embargo, mitigar la desalineación entre las indicaciones de texto y las imágenes sigue siendo un desafío. La razón fundamental detrás de esta desalineación no ha sido investigada exhaustivamente. Observamos que la desalineación es causada por una activación inadecuada de la atención en los tokens. Además, atribuimos este fenómeno a la utilización insuficiente de la condición por parte del modelo de difusión, lo cual es causado por su paradigma de entrenamiento. Para abordar este problema, proponemos CoMat, una estrategia de ajuste fino de modelos de difusión de extremo a extremo con un mecanismo de coincidencia de conceptos de imagen a texto. Utilizamos un modelo de generación de subtítulos de imágenes para medir la alineación entre imagen y texto y guiar al modelo de difusión a revisar los tokens ignorados. También se propone un módulo de concentración de atributos novedoso para abordar el problema de vinculación de atributos. Sin utilizar datos de imágenes o preferencias humanas, empleamos solo 20K indicaciones de texto para ajustar SDXL y obtener CoMat-SDXL. Experimentos extensivos muestran que CoMat-SDXL supera significativamente al modelo base SDXL en dos benchmarks de alineación de texto a imagen y logra un rendimiento de vanguardia.
Este artículo presenta MiniGPT4-Video, un modelo de lenguaje multimodal de gran escala (LLM) diseñado específicamente para la comprensión de videos. El modelo es capaz de procesar tanto datos visuales temporales como textuales, lo que lo hace experto en entender las complejidades de los videos. Basándose en el éxito de MiniGPT-v2, que destacó en la traducción de características visuales al espacio LLM para imágenes individuales y obtuvo resultados impresionantes en varios benchmarks de imagen-texto, este artículo amplía las capacidades del modelo para procesar una secuencia de fotogramas, permitiéndole comprender videos. MiniGPT4-video no solo considera el contenido visual, sino que también incorpora conversaciones textuales, lo que permite al modelo responder eficazmente a consultas que involucran tanto componentes visuales como textuales. El modelo propuesto supera a los métodos más avanzados existentes, registrando mejoras del 4.22%, 1.13%, 20.82% y 13.1% en los benchmarks MSVD, MSRVTT, TGIF y TVQA, respectivamente. Nuestros modelos y código han sido puestos a disposición del público en https://vision-cair.github.io/MiniGPT4-video/.
En el panorama en rápida evolución de la inteligencia artificial, los modelos de lenguaje multimodal de gran escala están surgiendo como un área de interés significativa. Estos modelos, que combinan diversas formas de entrada de datos, están ganando cada vez más popularidad. Sin embargo, comprender sus mecanismos internos sigue siendo una tarea compleja. Se han logrado numerosos avances en el campo de las herramientas y mecanismos de explicabilidad, pero aún queda mucho por explorar. En este trabajo, presentamos una aplicación interactiva novedosa destinada a comprender los mecanismos internos de los modelos de visión y lenguaje de gran escala. Nuestra interfaz está diseñada para mejorar la interpretabilidad de los fragmentos de imagen, que son fundamentales para generar una respuesta, y evaluar la eficacia del modelo de lenguaje al fundamentar su salida en la imagen. Con nuestra aplicación, un usuario puede investigar sistemáticamente el modelo y descubrir limitaciones del sistema, allanando el camino para mejoras en las capacidades del sistema. Finalmente, presentamos un estudio de caso sobre cómo nuestra aplicación puede ayudar a comprender los mecanismos de falla en un modelo multimodal popular de gran escala: LLaVA.
En este artículo, exploramos la idea de entrenar modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sobre texto altamente comprimido. Mientras que los tokenizadores estándar basados en subpalabras comprimen el texto en un factor pequeño, los compresores neuronales de texto pueden lograr tasas de compresión mucho más altas. Si fuera posible entrenar LLMs directamente sobre texto comprimido neuronalmente, esto ofrecería ventajas en la eficiencia del entrenamiento y la inferencia, así como un manejo más sencillo de secuencias de texto largas. El principal obstáculo para este objetivo es que una compresión fuerte tiende a producir salidas opacas que no son adecuadas para el aprendizaje. En particular, encontramos que el texto comprimido de manera ingenua mediante Codificación Aritmética no es fácilmente aprendible por los LLMs. Para superar esto, proponemos Ventanas de Información Igual (Equal-Info Windows), una técnica novedosa de compresión en la que el texto se segmenta en bloques que se comprimen a la misma longitud en bits. Utilizando este método, demostramos un aprendizaje efectivo sobre texto comprimido neuronalmente que mejora con la escala, y supera ampliamente a los baselines a nivel de byte en métricas de perplejidad y velocidad de inferencia. Si bien nuestro método ofrece una perplejidad peor que los tokenizadores de subpalabras para modelos entrenados con el mismo número de parámetros, tiene el beneficio de longitudes de secuencia más cortas. Las secuencias más cortas requieren menos pasos de generación autoregresiva y reducen la latencia. Finalmente, proporcionamos un análisis exhaustivo de las propiedades que contribuyen a la capacidad de aprendizaje y ofrecemos sugerencias concretas para mejorar aún más el rendimiento de los tokenizadores de alta compresión.
Los Modelos de Lenguaje de Gran Escala (LLMs) para código están evolucionando rápidamente, con la edición de código emergiendo como una capacidad crítica. Presentamos CodeEditorBench, un marco de evaluación diseñado para evaluar rigurosamente el rendimiento de los LLMs en tareas de edición de código, incluyendo depuración, traducción, pulido y cambio de requisitos. A diferencia de los puntos de referencia existentes que se centran únicamente en la generación de código, CodeEditorBench enfatiza escenarios del mundo real y aspectos prácticos del desarrollo de software. Hemos seleccionado diversos desafíos y escenarios de programación de cinco fuentes, cubriendo varios lenguajes de programación, niveles de complejidad y tareas de edición. La evaluación de 19 LLMs revela que los modelos de código cerrado (particularmente Gemini-Ultra y GPT-4) superan a los modelos de código abierto en CodeEditorBench, destacando diferencias en el rendimiento del modelo según los tipos de problemas y las sensibilidades de los prompts. CodeEditorBench tiene como objetivo catalizar avances en los LLMs al proporcionar una plataforma robusta para evaluar las capacidades de edición de código. Liberaremos todos los prompts y conjuntos de datos para permitir que la comunidad amplíe el conjunto de datos y evalúe los LLMs emergentes. Al introducir CodeEditorBench, contribuimos al avance de los LLMs en la edición de código y proporcionamos un recurso valioso para investigadores y profesionales.
Presentamos PointInfinity, una familia eficiente de modelos de difusión para nubes de puntos. Nuestra idea central es utilizar una arquitectura basada en transformadores con una representación latente de tamaño fijo e invariante a la resolución. Esto permite un entrenamiento eficiente con nubes de puntos de baja resolución, al mismo tiempo que posibilita la generación de nubes de puntos de alta resolución durante la inferencia. Más importante aún, demostramos que escalar la resolución en tiempo de prueba más allá de la resolución de entrenamiento mejora la fidelidad de las nubes de puntos y superficies generadas. Analizamos este fenómeno y establecemos una conexión con la guía sin clasificador comúnmente utilizada en modelos de difusión, demostrando que ambos permiten equilibrar fidelidad y variabilidad durante la inferencia. Los experimentos en CO3D muestran que PointInfinity puede generar eficientemente nubes de puntos de alta resolución (hasta 131k puntos, 31 veces más que Point-E) con una calidad de vanguardia.
Se han propuesto diversos ataques de jailbreak para realizar pruebas de red teaming en Modelos de Lenguaje de Gran Escala (LLMs), revelando las vulnerabilidades en sus salvaguardas. Además, algunos métodos no se limitan a la modalidad textual y extienden el ataque de jailbreak a Modelos Multimodales de Lenguaje de Gran Escala (MLLMs) mediante la perturbación de entradas visuales. Sin embargo, la ausencia de un benchmark de evaluación universal complica la reproducción del rendimiento y la comparación justa. Asimismo, existe una falta de evaluación exhaustiva de modelos de última generación (SOTA) de código cerrado, especialmente MLLMs, como GPT-4V. Para abordar estos problemas, este trabajo primero construye un conjunto de datos de evaluación de jailbreak con 1445 preguntas dañinas que cubren 11 políticas de seguridad diferentes. Basado en este conjunto de datos, se realizan extensos experimentos de red teaming en 11 LLMs y MLLMs diferentes, incluyendo tanto modelos propietarios SOTA como modelos de código abierto. Luego, llevamos a cabo un análisis profundo de los resultados evaluados y encontramos que: (1) GPT-4 y GPT-4V demuestran una mayor robustez frente a ataques de jailbreak en comparación con LLMs y MLLMs de código abierto. (2) Llama2 y Qwen-VL-Chat son más robustos en comparación con otros modelos de código abierto. (3) La transferibilidad de los métodos de jailbreak visual es relativamente limitada en comparación con los métodos de jailbreak textual. El conjunto de datos y el código se pueden encontrar aquí: https://anonymous.4open.science/r/red_teaming_gpt4-C1CE/README.md.
Presentamos RALL-E, un método robusto de modelado del lenguaje para la síntesis de texto a voz (TTS). Si bien trabajos previos basados en modelos de lenguaje grandes (LLMs) muestran un rendimiento impresionante en TTS de cero disparos (zero-shot), dichos métodos suelen sufrir de una baja robustez, como una prosodia inestable (tono y ritmo/duración extraños) y una alta tasa de error de palabras (WER), debido al estilo de predicción autoregresivo de los modelos de lenguaje. La idea central detrás de RALL-E es el prompting de cadena de pensamiento (CoT), que descompone la tarea en pasos más simples para mejorar la robustez del TTS basado en LLMs. Para lograr esto, RALL-E primero predice las características de prosodia (tono y duración) del texto de entrada y las utiliza como condiciones intermedias para predecir los tokens de voz en un estilo CoT. En segundo lugar, RALL-E utiliza el prompt de duración predicho para guiar el cálculo de los pesos de autoatención en el Transformer, obligando al modelo a centrarse en los fonemas y características de prosodia correspondientes al predecir los tokens de voz. Los resultados de evaluaciones objetivas y subjetivas exhaustivas demuestran que, en comparación con un método de referencia potente, VALL-E, RALL-E mejora significativamente el WER del TTS de cero disparos, reduciéndolo de 6.3% (sin reranking) y 2.1% (con reranking) a 2.8% y 1.0%, respectivamente. Además, demostramos que RALL-E sintetiza correctamente oraciones que son difíciles para VALL-E y reduce la tasa de error del 68% al 4%.