Artículos de investigación en IA seleccionados diariamente con traducciones
Los grandes modelos de lenguaje están construidos sobre una arquitectura basada en transformadores para procesar entradas textuales. Por ejemplo, LLaMA destaca entre muchas implementaciones de código abierto. ¿Se puede utilizar el mismo transformador para procesar imágenes 2D? En este artículo, respondemos a esta pregunta presentando un transformador visual similar a LLaMA en formas plana y piramidal, denominado VisionLLaMA, que está diseñado específicamente para este propósito. VisionLLaMA es un marco de modelado unificado y genérico para resolver la mayoría de las tareas de visión. Evaluamos exhaustivamente su eficacia utilizando paradigmas típicos de preentrenamiento en una amplia gama de tareas posteriores de percepción de imágenes y, especialmente, de generación de imágenes. En muchos casos, VisionLLaMA ha mostrado mejoras significativas sobre los transformadores visuales más avanzados anteriores. Creemos que VisionLLaMA puede servir como un nuevo modelo de referencia sólido para la generación y comprensión visual. Nuestro código se publicará en https://github.com/Meituan-AutoML/VisionLLaMA.
La Arquitectura Predictiva de Incrustación Conjunta (JEPA, por sus siglas en inglés) ha surgido como un enfoque prometedor de aprendizaje autosupervisado que aprende aprovechando un modelo del mundo. Aunque anteriormente se limitaba a predecir partes faltantes de una entrada, exploramos cómo generalizar la tarea de predicción de JEPA a un conjunto más amplio de corrupciones. Introducimos Modelos del Mundo de Imágenes (IWM, por sus siglas en inglés), un enfoque que va más allá del modelado de imágenes enmascaradas y aprende a predecir el efecto de transformaciones fotométricas globales en el espacio latente. Estudiamos la receta para aprender IWM eficaces y demostramos que se basa en tres aspectos clave: condicionamiento, dificultad de predicción y capacidad. Además, mostramos que el modelo del mundo predictivo aprendido por IWM puede adaptarse mediante ajuste fino para resolver diversas tareas; un modelo del mundo IWM ajustado iguala o supera el rendimiento de métodos autosupervisados anteriores. Finalmente, demostramos que el aprendizaje con un IWM permite controlar el nivel de abstracción de las representaciones aprendidas, aprendiendo representaciones invariantes como los métodos contrastivos, o representaciones equivariantes como el modelado de imágenes enmascaradas.
Este artículo aborda el desafío de los escenarios de entrenamiento-corto-prueba-larga (TSTL, por sus siglas en inglés) en Modelos de Lenguaje de Gran Escala (LLMs) equipados con Incrustación de Posición Rotatoria (RoPE), donde los modelos preentrenados en secuencias más cortas enfrentan dificultades con posiciones de tokens fuera de distribución (OOD) en secuencias más largas. Introducimos Resonance RoPE, un enfoque novedoso diseñado para reducir la brecha de generalización en escenarios TSTL mediante el refinamiento de la interpolación de características RoPE para posiciones OOD, mejorando significativamente el rendimiento del modelo sin costos computacionales adicionales en línea. Además, presentamos PosGen, un nuevo benchmark sintético específicamente diseñado para el análisis de comportamiento detallado en escenarios TSTL, con el objetivo de aislar la dificultad constantemente creciente de la generación de tokens en contextos largos de los desafíos de reconocer nuevas posiciones de tokens. Nuestros experimentos en tareas sintéticas muestran que, tras aplicar Resonance RoPE, los Transformers reconocen las posiciones OOD de manera más efectiva y robusta. Nuestros extensos experimentos con LLMs también muestran un rendimiento superior después de aplicar Resonance RoPE al método actual de escalado RoPE de última generación, YaRN, tanto en tareas de modelado de lenguaje de nivel superior como en una variedad de aplicaciones de texto largo de nivel inferior.
La personalización de texto a imagen, que busca sintetizar imágenes guiadas por texto para sujetos dados, ha revolucionado recientemente la creación de contenido. Los trabajos existentes siguen el paradigma de las pseudopalabras, es decir, representan los sujetos dados como pseudopalabras y luego las combinan con el texto proporcionado. Sin embargo, el alcance de influencia inherentemente entrelazado de las pseudopalabras con el texto dado resulta en una paradoja de doble óptimo, es decir, la similitud de los sujetos dados y la controlabilidad del texto proporcionado no pueden ser óptimas simultáneamente. Presentamos RealCustom que, por primera vez, desenreda la similitud de la controlabilidad al limitar precisamente la influencia del sujeto solo a las partes relevantes, logrado al reducir gradualmente la palabra de texto real desde su connotación general al sujeto específico y utilizando su atención cruzada para distinguir la relevancia. Específicamente, RealCustom introduce un novedoso marco desacoplado "entrenamiento-inferencia": (1) durante el entrenamiento, RealCustom aprende la alineación general entre las condiciones visuales y las condiciones textuales originales mediante un módulo de puntuación adaptativa para modular adaptativamente la cantidad de influencia; (2) durante la inferencia, se propone una novedosa estrategia de guía de máscara adaptativa para actualizar iterativamente el alcance de influencia y la cantidad de influencia de los sujetos dados para reducir gradualmente la generación de la palabra de texto real. Experimentos exhaustivos demuestran la capacidad superior de personalización en tiempo real de RealCustom en el dominio abierto, logrando por primera vez una similitud sin precedentes de los sujetos dados y una controlabilidad del texto proporcionado. La página del proyecto es https://corleone-huang.github.io/realcustom/.
La Parcheo de Activación es un método para calcular directamente las atribuciones causales del comportamiento a los componentes del modelo. Sin embargo, aplicarlo de manera exhaustiva requiere un barrido con un costo que escala linealmente con el número de componentes del modelo, lo que puede ser prohibitivamente costoso para los modelos de lenguaje de última generación (LLMs, por sus siglas en inglés). Investigamos el Parcheo de Atribución (AtP, por sus siglas en inglés), una aproximación rápida basada en gradientes al Parcheo de Activación, y encontramos dos clases de modos de falla de AtP que conducen a falsos negativos significativos. Proponemos una variante de AtP llamada AtP*, con dos cambios para abordar estos modos de falla mientras se mantiene la escalabilidad. Presentamos el primer estudio sistemático de AtP y métodos alternativos para un parcheo de activación más rápido, y demostramos que AtP supera significativamente a todos los demás métodos investigados, con AtP* proporcionando una mejora adicional significativa. Finalmente, proporcionamos un método para acotar la probabilidad de falsos negativos restantes en las estimaciones de AtP*.