Artículos de investigación en IA seleccionados diariamente con traducciones
Las costosas capas de auto-atención en los Transformers modernos requieren memoria y cómputo cuadráticos en función de la longitud de la secuencia. Los métodos de aproximación existentes generalmente tienen un rendimiento inferior y no logran obtener mejoras significativas de velocidad en la práctica. Aquí presentamos SwitchHead, un método novedoso que reduce tanto los requisitos de cómputo como de memoria y logra una aceleración en tiempo real, mientras iguala el rendimiento en modelado de lenguaje de los Transformers de referencia con el mismo presupuesto de parámetros. SwitchHead utiliza capas de Mezcla de Expertos (MoE) para las proyecciones de valor y salida, y requiere de 4 a 8 veces menos matrices de atención que los Transformers estándar. Nuestra nueva atención también puede combinarse con capas MLP de MoE, dando como resultado un modelo Transformer completamente MoE, denominado "SwitchAll", altamente eficiente. Nuestro código es público.
Aunque la generación de videos basada en difusión ha experimentado un rápido progreso, los resultados de inferencia de los modelos existentes aún muestran una consistencia temporal insatisfactoria y dinámicas poco naturales. En este artículo, profundizamos en la inicialización del ruido en los modelos de difusión de video y descubrimos una brecha implícita entre el entrenamiento y la inferencia que contribuye a la calidad insatisfactoria de la inferencia. Nuestros hallazgos clave son: 1) la distribución de frecuencia espacio-temporal del latente inicial en la inferencia es intrínsecamente diferente a la del entrenamiento, y 2) el proceso de eliminación de ruido se ve significativamente influenciado por los componentes de baja frecuencia del ruido inicial. Motivados por estas observaciones, proponemos una estrategia de muestreo de inferencia concisa pero efectiva, FreeInit, que mejora significativamente la consistencia temporal de los videos generados por modelos de difusión. Al refinar iterativamente los componentes de baja frecuencia espacio-temporal del latente inicial durante la inferencia, FreeInit es capaz de compensar la brecha de inicialización entre el entrenamiento y la inferencia, mejorando así efectivamente la apariencia del sujeto y la consistencia temporal de los resultados de generación. Experimentos extensos demuestran que FreeInit mejora consistentemente los resultados de generación de varios modelos de texto a video sin necesidad de entrenamiento adicional.
Los modelos de lenguaje visual (VLMs) han avanzado rápidamente con el reciente éxito de los modelos de lenguaje grandes (LLMs). Ha habido un creciente interés en la afinación de instrucciones visuales para extender los LLMs con entradas visuales, pero falta un estudio en profundidad del proceso de pre-entrenamiento de lenguaje visual, donde el modelo aprende a realizar un modelado conjunto en ambas modalidades. En este trabajo, examinamos las opciones de diseño para el pre-entrenamiento de VLMs al aumentar los LLMs hacia VLMs mediante comparaciones controladas paso a paso. Introducimos tres hallazgos principales: (1) congelar los LLMs durante el pre-entrenamiento puede lograr un rendimiento decente en zero-shot, pero carece de capacidad de aprendizaje en contexto, lo que requiere descongelar el LLM; (2) los datos de pre-entrenamiento intercalados son beneficiosos, mientras que los pares de imagen-texto por sí solos no son óptimos; (3) re-mezclar datos de instrucciones de solo texto con datos de imagen-texto durante la afinación de instrucciones no solo corrige la degradación de las tareas de solo texto, sino que también aumenta la precisión en las tareas de VLM. Con una receta mejorada de pre-entrenamiento, construimos VILA, una familia de modelos de lenguaje visual que supera consistentemente a los modelos más avanzados, como LLaVA-1.5, en los principales benchmarks sin elementos adicionales. El pre-entrenamiento multimodal también ayuda a revelar propiedades atractivas de VILA, incluyendo razonamiento con múltiples imágenes, aprendizaje en contexto mejorado y un mayor conocimiento del mundo.
Los modelos de difusión han logrado una calidad notable en la generación de imágenes, superando a modelos generativos anteriores. Sin embargo, una limitación significativa de los modelos de difusión, en comparación con las GAN, es su dificultad para interpolar suavemente entre dos muestras de imágenes, debido a su espacio latente altamente desestructurado. Dicha interpolación suave es intrigante, ya que sirve naturalmente como solución para la tarea de morphing de imágenes con muchas aplicaciones. En este trabajo, presentamos DiffMorpher, el primer enfoque que permite una interpolación de imágenes suave y natural utilizando modelos de difusión. Nuestra idea clave es capturar la semántica de las dos imágenes ajustando dos LoRAs respectivamente, e interpolar tanto los parámetros de LoRA como los ruidos latentes para garantizar una transición semántica suave, donde la correspondencia emerge automáticamente sin necesidad de anotación. Además, proponemos una técnica de interpolación e inyección de atención y un nuevo esquema de muestreo para mejorar aún más la suavidad entre imágenes consecutivas. Experimentos extensos demuestran que DiffMorpher logra efectos de morphing de imágenes notablemente mejores que los métodos anteriores en una variedad de categorías de objetos, cerrando una brecha funcional crítica que distinguía a los modelos de difusión de las GAN.
Enfoques recientes como ControlNet ofrecen a los usuarios un control espacial detallado sobre los modelos de difusión de texto a imagen (T2I). Sin embargo, es necesario entrenar módulos auxiliares para cada tipo de condición espacial, arquitectura de modelo y punto de control, lo que los pone en desventaja frente a las diversas intenciones y preferencias que un diseñador humano desearía transmitir a los modelos de IA durante el proceso de creación de contenido. En este trabajo, presentamos FreeControl, un enfoque sin entrenamiento para la generación controlada de T2I que admite múltiples condiciones, arquitecturas y puntos de control simultáneamente. FreeControl diseña una guía de estructura para facilitar la alineación estructural con una imagen de referencia, y una guía de apariencia para permitir el intercambio de apariencia entre imágenes generadas utilizando la misma semilla. Experimentos cualitativos y cuantitativos exhaustivos demuestran el rendimiento superior de FreeControl en una variedad de modelos T2I preentrenados. En particular, FreeControl facilita un control conveniente sin entrenamiento sobre muchas arquitecturas y puntos de control diferentes, permite condiciones de entrada desafiantes en las que la mayoría de los métodos sin entrenamiento existentes fallan, y logra una calidad de síntesis competitiva con enfoques basados en entrenamiento.
La evaluación de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) es crucial para valorar su rendimiento y mitigar posibles riesgos de seguridad. En este artículo, presentamos PromptBench, una biblioteca unificada para evaluar LLMs. Esta consta de varios componentes clave que son fáciles de usar y extender por parte de los investigadores: construcción de prompts, ingeniería de prompts, carga de conjuntos de datos y modelos, ataques adversarios mediante prompts, protocolos de evaluación dinámica y herramientas de análisis. PromptBench está diseñado para ser un código abierto, general y flexible con fines de investigación, que puede facilitar estudios originales en la creación de nuevos puntos de referencia, el despliegue de aplicaciones derivadas y el diseño de nuevos protocolos de evaluación. El código está disponible en: https://github.com/microsoft/promptbench y será continuamente actualizado.
En este trabajo, examinamos las aplicaciones de los modelos base preentrenados en robótica. Los modelos tradicionales de aprendizaje profundo en robótica se entrenan con conjuntos de datos pequeños adaptados a tareas específicas, lo que limita su adaptabilidad en diversas aplicaciones. En contraste, los modelos base preentrenados con datos a escala de internet parecen tener capacidades de generalización superiores y, en algunos casos, muestran una habilidad emergente para encontrar soluciones de cero disparos a problemas que no están presentes en los datos de entrenamiento. Estos modelos base podrían tener el potencial de mejorar varios componentes de la pila de autonomía robótica, desde la percepción hasta la toma de decisiones y el control. Por ejemplo, los modelos de lenguaje de gran escala pueden generar código o proporcionar razonamiento de sentido común, mientras que los modelos de visión y lenguaje permiten el reconocimiento visual de vocabulario abierto. Sin embargo, persisten importantes desafíos de investigación, particularmente en torno a la escasez de datos de entrenamiento relevantes para robótica, las garantías de seguridad y la cuantificación de incertidumbre, y la ejecución en tiempo real. En este estudio, analizamos trabajos recientes que han utilizado o desarrollado modelos base para resolver problemas de robótica. Exploramos cómo estos modelos contribuyen a mejorar las capacidades robóticas en los dominios de percepción, toma de decisiones y control. Discutimos los desafíos que dificultan la adopción de modelos base en la autonomía robótica y ofrecemos oportunidades y posibles vías para avances futuros. El proyecto de GitHub correspondiente a este artículo (Versión preliminar. Estamos comprometidos a mejorar y actualizar este trabajo para garantizar su calidad y relevancia) se puede encontrar aquí: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models.
Debido a la escala considerable de los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés), la aplicación directa de metodologías convencionales de compresión resulta impracticable. Las demandas computacionales asociadas incluso con actualizaciones mínimas de gradientes presentan desafíos, particularmente en hardware de grado consumidor. Este artículo introduce un enfoque innovador para la compresión paramétrica y práctica de LLMs basado en modelado de orden reducido, que implica descomposición de bajo rango dentro del espacio de características y re-parametrización en el espacio de pesos. Cabe destacar que esta técnica de compresión opera de manera capa por capa, eliminando la necesidad de un dispositivo GPU y permitiendo la compresión de modelos de escala de miles de millones bajo restricciones estrictas tanto de memoria como de tiempo. Nuestro método representa un avance significativo en la compresión de modelos al aprovechar la descomposición matricial, demostrando una eficacia superior en comparación con el método predominante de poda estructurada del estado del arte.
Investigaciones recientes han logrado avances significativos en la aplicación de técnicas de alineación para mejorar la utilidad y la inocuidad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) de acuerdo con las intenciones humanas. En este artículo, argumentamos la importancia de la alineación para la honestidad, asegurando que los LLMs se nieguen proactivamente a responder preguntas cuando carecen de conocimiento, sin ser excesivamente conservadores. Sin embargo, un aspecto fundamental de la alineación para la honestidad implica discernir los límites del conocimiento de un LLM, lo cual dista de ser sencillo. Este desafío exige soluciones integrales en términos de desarrollo de métricas, creación de puntos de referencia y metodologías de entrenamiento. En este trabajo, abordamos estos desafíos estableciendo primero una definición precisa del problema y definiendo la "honestidad" inspirada en los Analectos de Confucio. Esto sirve como piedra angular para desarrollar métricas que midan efectivamente la honestidad de un LLM al cuantificar su progreso tras la alineación. Además, presentamos un marco de entrenamiento flexible que se instancia mediante varias técnicas eficientes de ajuste fino que enfatizan la honestidad sin sacrificar el rendimiento en otras tareas. Nuestros extensos experimentos revelan que estos modelos alineados muestran un aumento notable en la honestidad, según lo indican nuestras métricas propuestas. Hemos liberado una gran cantidad de recursos para facilitar investigaciones futuras en https://github.com/GAIR-NLP/alignment-for-honesty, incluyendo modelos alineados para la honestidad, conjuntos de datos de entrenamiento y evaluación para la alineación de la honestidad, un glosario de conceptos, así como todo el código fuente relevante.
Presentamos FIND, una interfaz generalizada para alinear los embeddings de modelos fundacionales. Como se muestra en la figura introductoria, una interfaz ligera basada en transformadores, sin ajustar los pesos del modelo fundacional, es suficiente para lograr una comprensión unificada a nivel de imagen (segmentación) y de conjunto de datos (recuperación). La interfaz propuesta tiene los siguientes atributos favorables: (1) Generalizable. Se aplica a diversas tareas que abarcan recuperación, segmentación, etc., bajo la misma arquitectura y pesos. (2) Prototipable. Diferentes tareas pueden implementarse mediante la creación de prototipos de máscaras de atención y tipos de embeddings. (3) Extensible. La interfaz propuesta es adaptable a nuevas tareas y nuevos modelos. (4) Intercalable. Con el beneficio del entrenamiento multimodal y multitarea, la interfaz propuesta crea un espacio de embeddings compartido intercalado. En vista de este espacio de embeddings intercalado, introducimos FIND-Bench, que añade nuevas anotaciones de entrenamiento y evaluación al conjunto de datos COCO para la segmentación y recuperación intercaladas. Nuestro enfoque logra un rendimiento de vanguardia en FIND-Bench y un rendimiento competitivo en configuraciones estándar de recuperación y segmentación. El código de entrenamiento, evaluación y demostración, así como el conjunto de datos, han sido publicados en https://github.com/UX-Decoder/FIND.
Si bien el renderizado neuronal ha llevado a avances impresionantes en la reconstrucción de escenas y la síntesis de nuevas vistas, depende en gran medida de poses de cámara precalculadas con precisión. Para relajar esta restricción, se han realizado múltiples esfuerzos para entrenar Campos de Radiancia Neuronal (NeRFs) sin poses de cámara preprocesadas. Sin embargo, las representaciones implícitas de los NeRFs presentan desafíos adicionales para optimizar simultáneamente la estructura 3D y las poses de la cámara. Por otro lado, el recientemente propuesto 3D Gaussian Splatting ofrece nuevas oportunidades gracias a sus representaciones explícitas de nubes de puntos. Este artículo aprovecha tanto la representación geométrica explícita como la continuidad del flujo de video de entrada para realizar la síntesis de nuevas vistas sin ningún preprocesamiento de SfM. Procesamos los fotogramas de entrada de manera secuencial y aumentamos progresivamente el conjunto de Gaussianas 3D tomando un fotograma de entrada a la vez, sin necesidad de precalcular las poses de la cámara. Nuestro método mejora significativamente sobre enfoques anteriores en la síntesis de vistas y la estimación de poses de cámara bajo grandes cambios de movimiento. Nuestra página del proyecto es https://oasisyang.github.io/colmap-free-3dgs.
Los Modelos de Consistencia (CMs, por sus siglas en inglés) han demostrado ser prometedores en la creación de contenido visual de manera eficiente y con alta calidad. Sin embargo, la forma de agregar nuevos controles condicionales a los CMs preentrenados no ha sido explorada. En este informe técnico, consideramos estrategias alternativas para añadir controles condicionales similares a ControlNet en los CMs y presentamos tres hallazgos significativos. 1) ControlNet, entrenado para modelos de difusión (DMs), puede aplicarse directamente a los CMs para controles semánticos de alto nivel, pero presenta dificultades con detalles de bajo nivel y control de realismo. 2) Los CMs representan una clase independiente de modelos generativos, sobre la cual se puede entrenar ControlNet desde cero utilizando el Entrenamiento de Consistencia propuesto por Song et al. 3) Un adaptador ligero puede optimizarse conjuntamente bajo múltiples condiciones mediante el Entrenamiento de Consistencia, permitiendo la transferencia rápida de ControlNet basado en DMs a los CMs. Estudiamos estas tres soluciones en diversos controles condicionales, incluyendo bordes, profundidad, postura humana, imágenes de baja resolución e imágenes enmascaradas con modelos de consistencia latente de texto a imagen.
Presentamos la Adición de Activación Contrastiva (CAA, por sus siglas en inglés), un método innovador para dirigir modelos de lenguaje mediante la modificación de activaciones durante sus pasos hacia adelante. CAA calcula "vectores de dirección" promediando la diferencia en las activaciones del flujo residual entre pares de ejemplos positivos y negativos de un comportamiento particular, como respuestas factuales versus alucinatorias. Durante la inferencia, estos vectores de dirección se suman en todas las posiciones de tokens posteriores al prompt del usuario con un coeficiente positivo o negativo, permitiendo un control preciso sobre el grado del comportamiento objetivo. Evaluamos la efectividad de CAA en Llama 2 Chat utilizando tanto conjuntos de datos de preguntas de comportamiento de opción múltiple como tareas de generación abierta. Demostramos que CAA altera significativamente el comportamiento del modelo, supera métodos tradicionales como el ajuste fino y el prompting de pocos ejemplos, y reduce mínimamente las capacidades. Además, al emplear diversos métodos de interpretación del espacio de activaciones, obtenemos una comprensión más profunda de los mecanismos de CAA. CAA no solo dirige con precisión las salidas del modelo, sino que también arroja luz sobre cómo se representan los conceptos de alto nivel en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés).
En los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés), un proyector visual desempeña un papel crucial al conectar codificadores visuales preentrenados con los MLLMs, permitiendo una comprensión visual profunda mientras se aprovechan las robustas capacidades de los MLLMs. A pesar de la importancia del proyector visual, este ha sido relativamente menos explorado. En este estudio, primero identificamos dos propiedades esenciales del proyector: (i) la flexibilidad para gestionar el número de tokens visuales, crucial para la eficiencia general de los MLLMs, y (ii) la preservación del contexto local a partir de las características visuales, vital para la comprensión espacial. Basándonos en estos hallazgos, proponemos un diseño novedoso de proyector que es tanto flexible como mejorado en localidad, satisfaciendo efectivamente las dos propiedades deseables. Además, presentamos estrategias integrales para utilizar eficazmente múltiples y variados conjuntos de datos de instrucciones. A través de extensos experimentos, examinamos el impacto de las decisiones de diseño individuales. Finalmente, nuestro MLLM propuesto, Honeybee, supera notablemente a los métodos anteriores más avanzados en varios puntos de referencia, incluyendo MME, MMBench, SEED-Bench y LLaVA-Bench, logrando una eficiencia significativamente mayor. El código y los modelos están disponibles en https://github.com/kakaobrain/honeybee.
Recientemente ha habido un progreso significativo en la generación de texto a video, con modelos de última generación capaces de producir videos de alta calidad y realistas. Sin embargo, estos modelos carecen de la capacidad para que los usuarios controlen y generen videos de manera interactiva, lo que podría desbloquear nuevas áreas de aplicación. Como primer paso hacia este objetivo, abordamos el problema de dotar a los modelos de generación de videos basados en difusión con control espacio-temporal interactivo sobre su salida. Para ello, nos inspiramos en los avances recientes en la literatura de segmentación para proponer un nuevo módulo de atención enmascarada espacio-temporal: Peekaboo. Este módulo es una adición sin necesidad de entrenamiento y sin sobrecarga en la inferencia a los modelos de generación de video disponibles, lo que permite el control espacio-temporal. También proponemos un punto de referencia de evaluación para la tarea de generación de video interactivo. A través de una extensa evaluación cualitativa y cuantitativa, establecemos que Peekaboo permite la generación de video controlado e incluso obtiene una mejora de hasta 3.8x en mIoU sobre los modelos de referencia.
En el aprendizaje automático, la generalización frente a cambios de distribución —donde las condiciones de despliegue divergen de los escenarios de entrenamiento— es crucial, especialmente en campos como la modelización climática, la biomedicina y la conducción autónoma. La aparición de modelos fundacionales, caracterizados por su extenso preentrenamiento y versatilidad en tareas, ha generado un creciente interés en su adaptabilidad a cambios de distribución. GPT-4V(isión) se erige como el modelo fundacional multimodal más avanzado de acceso público, con amplias aplicaciones en diversos dominios, incluyendo detección de anomalías, comprensión de vídeos, generación de imágenes y diagnóstico médico. Sin embargo, su robustez frente a distribuciones de datos sigue siendo en gran parte inexplorada. Para abordar esta brecha, este estudio evalúa rigurosamente la adaptabilidad y capacidades de generalización de GPT-4V en entornos dinámicos, comparándolo con modelos destacados como CLIP y LLaVA. Profundizamos en la generalización zero-shot de GPT-4V a través de 13 conjuntos de datos diversos que abarcan dominios naturales, médicos y moleculares. Además, investigamos su adaptabilidad a perturbaciones controladas de datos y examinamos la eficacia del aprendizaje en contexto como herramienta para mejorar su adaptación. Nuestros hallazgos delinean los límites de capacidad de GPT-4V frente a cambios de distribución, arrojando luz sobre sus fortalezas y limitaciones en diversos escenarios. Es importante destacar que esta investigación contribuye a nuestra comprensión de cómo los modelos fundacionales de IA generalizan frente a cambios de distribución, ofreciendo insights clave sobre su adaptabilidad y robustez. El código está disponible públicamente en https://github.com/jameszhou-gl/gpt-4v-distribution-shift.
Los Transformadores de Difusión han demostrado recientemente una notable eficacia en la generación de nubes de puntos 3D de alta calidad. Sin embargo, entrenar modelos de difusión basados en vóxeles para vóxeles 3D de alta resolución sigue siendo prohibitivamente costoso debido a la complejidad cúbica de los operadores de atención, que surge de la dimensión adicional de los vóxeles. Motivados por la redundancia inherente del 3D en comparación con el 2D, proponemos FastDiT-3D, un novedoso transformador de difusión enmascarado diseñado para la generación eficiente de nubes de puntos 3D, lo que reduce significativamente los costos de entrenamiento. En concreto, nos inspiramos en los autoencodificadores enmascarados para operar dinámicamente el proceso de eliminación de ruido en nubes de puntos voxelizadas enmascaradas. También proponemos una nueva estrategia de enmascaramiento consciente de vóxeles para agregar de manera adaptativa la información de fondo/primer plano de las nubes de puntos voxelizadas. Nuestro método alcanza un rendimiento de vanguardia con una proporción de enmascaramiento extrema de casi el 99%. Además, para mejorar la generación 3D de múltiples categorías, introducimos el enfoque de Mezcla de Expertos (MoE) en el modelo de difusión 3D. Cada categoría puede aprender una ruta de difusión distinta con diferentes expertos, aliviando los conflictos de gradiente. Los resultados experimentales en el conjunto de datos ShapeNet demuestran que nuestro método logra un rendimiento de vanguardia en la generación de nubes de puntos 3D de alta fidelidad y diversidad. Nuestro FastDiT-3D mejora las métricas de Precisión del Vecino Más Cercano (1-NN) y Cobertura al generar nubes de puntos voxelizadas de resolución 128, utilizando solo el 6.5% del costo original de entrenamiento.
Un factor crítico en el éxito de los sistemas de apoyo a la toma de decisiones es la modelización precisa de las preferencias del usuario. Investigaciones en psicología han demostrado que los usuarios a menudo desarrollan sus preferencias durante el proceso de elicitación, destacando el papel fundamental de la interacción entre el sistema y el usuario en el desarrollo de sistemas personalizados. Este artículo presenta un enfoque novedoso que combina Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) con Programación de Restricciones para facilitar el apoyo interactivo a la toma de decisiones. Estudiamos este marco híbrido a través del caso de la programación de reuniones, una actividad diaria que consume tiempo y que enfrentan multitudes de trabajadores de la información. Realizamos tres estudios para evaluar el nuevo marco, incluyendo un estudio diario (n=64) para caracterizar las preferencias contextuales de programación, una evaluación cuantitativa del rendimiento del sistema y un estudio de usuarios (n=10) con un sistema prototipo. Nuestro trabajo destaca el potencial de un enfoque híbrido de LLM y optimización para la elicitación iterativa de preferencias y las consideraciones de diseño para construir sistemas que apoyen procesos de toma de decisiones colaborativos entre humanos y sistemas.