Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos el primer ataque de robo de modelos que extrae información precisa y no trivial de modelos de lenguaje de caja negra en producción, como ChatGPT de OpenAI o PaLM-2 de Google. Específicamente, nuestro ataque recupera la capa de proyección de embeddings (hasta simetrías) de un modelo transformador, dado un acceso típico a la API. Por menos de 20 USD, nuestro ataque extrae la matriz de proyección completa de los modelos de lenguaje Ada y Babbage de OpenAI. De esta manera, confirmamos, por primera vez, que estos modelos de caja negra tienen una dimensión oculta de 1024 y 2048, respectivamente. También recuperamos el tamaño exacto de la dimensión oculta del modelo gpt-3.5-turbo y estimamos que costaría menos de 2000 USD en consultas recuperar la matriz de proyección completa. Concluimos con posibles defensas y mitigaciones, y discutimos las implicaciones de trabajos futuros que podrían extender nuestro ataque.
Los recientes avances en los modelos de lenguaje de gran escala han aportado un valor inmenso al mundo, con capacidades superiores que derivan del enorme número de parámetros que utilizan. Sin embargo, incluso las GPU con las mayores capacidades de memoria, que actualmente alcanzan los 80 GB, están lejos de ser suficientes para alojar estos vastos parámetros y sus estados asociados del optimizador al realizar optimizaciones basadas en descenso de gradiente estocástico. Un enfoque para alojar modelos tan grandes es agregar la memoria de dispositivos de múltiples GPU. No obstante, este enfoque introduce costos prohibitivos para la mayoría de los investigadores académicos, quienes siempre tienen un presupuesto limitado para muchos servidores con GPU de gama alta. En este artículo, nos enfocamos en el ajuste fino de modelos enormes en una sola GPU, incluso de gama baja, en un servidor común, que es accesible para la mayoría de los investigadores en IA. En este escenario, el trabajo de vanguardia ZeRO-Infinity enfrenta dos problemas graves al ejecutarse en un servidor común: 1) baja utilización de la GPU debido a un intercambio ineficiente, y 2) tamaño limitado del modelo entrenable debido a la capacidad de memoria de la CPU. La razón subyacente es que ZeRO-Infinity está optimizado para ejecutarse en servidores con GPU de gama alta. Para abordar esto, presentamos Fuyou, un marco de entrenamiento de bajo costo que permite el ajuste fino eficiente de modelos enormes de 100B en un servidor de gama baja con una GPU de gama baja y capacidad limitada de memoria de CPU. La idea clave es añadir la comunicación SSD-CPU como una dimensión de optimización y, por lo tanto, co-optimizar cuidadosamente el cálculo y el intercambio de datos desde un enfoque sistemático para maximizar la utilización de la GPU. Los resultados experimentales muestran que 1) Fuyou es capaz de ajustar GPT-3 de 175B en una GPU de consumo RTX 4090 con alta utilización de la GPU, mientras que ZeRO-Infinity no logra ajustarlo; y 2) al entrenar un modelo pequeño GPT-3 de 13B, Fuyou alcanza 156 TFLOPS en una GPU RTX 4090, mientras que ZeRO-Infinity solo alcanza 45 TFLOPS.
Abordando los desafíos duales de redundancia local y dependencias globales en la comprensión de video, este trabajo adapta de manera innovadora el Mamba al dominio del video. El VideoMamba propuesto supera las limitaciones de las redes neuronales convolucionales 3D y los transformadores de video existentes. Su operador de complejidad lineal permite un modelado eficiente a largo plazo, lo cual es crucial para la comprensión de videos largos de alta resolución. Evaluaciones exhaustivas revelan las cuatro capacidades principales de VideoMamba: (1) Escalabilidad en el dominio visual sin necesidad de un extenso preentrenamiento de conjuntos de datos, gracias a una novedosa técnica de auto-distilación; (2) Sensibilidad para reconocer acciones a corto plazo incluso con diferencias de movimiento sutiles; (3) Superioridad en la comprensión de videos a largo plazo, mostrando avances significativos sobre los modelos tradicionales basados en características; y (4) Compatibilidad con otras modalidades, demostrando robustez en contextos multimodales. A través de estas ventajas distintivas, VideoMamba establece un nuevo referente para la comprensión de video, ofreciendo una solución escalable y eficiente para una comprensión integral de video. Todo el código y los modelos están disponibles en https://github.com/OpenGVLab/VideoMamba.
La generación automática 3D ha atraído recientemente una atención generalizada. Los métodos recientes han acelerado significativamente la velocidad de generación, pero suelen producir objetos menos detallados debido a la capacidad limitada del modelo o a los datos 3D. Motivados por los avances recientes en los modelos de difusión de video, presentamos V3D, que aprovecha la capacidad de simulación del mundo de los modelos de difusión de video preentrenados para facilitar la generación 3D. Para liberar todo el potencial de la difusión de video para percibir el mundo 3D, introducimos además un prior de consistencia geométrica y extendemos el modelo de difusión de video a un generador 3D consistente en múltiples vistas. Gracias a esto, el modelo de difusión de video más avanzado podría ajustarse para generar marcos de órbita de 360 grados alrededor de un objeto dada una sola imagen. Con nuestras canalizaciones de reconstrucción personalizadas, podemos generar mallas de alta calidad o Gaussianas 3D en menos de 3 minutos. Además, nuestro método puede extenderse a la síntesis de nuevas vistas a nivel de escena, logrando un control preciso sobre la trayectoria de la cámara con vistas de entrada dispersas. Experimentos extensos demuestran el rendimiento superior del enfoque propuesto, especialmente en términos de calidad de generación y consistencia en múltiples vistas. Nuestro código está disponible en https://github.com/heheyas/V3D.
En este estudio, identificamos los fenómenos de atención ineficiente en los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés), particularmente en modelos destacados como LLaVA-1.5, QwenVL-Chat y Video-LLaVA. Descubrimos que el cálculo de atención sobre los tokens visuales es extremadamente ineficiente en las capas profundas de los LVLMs más populares, lo que sugiere la necesidad de un enfoque más disperso en comparación con el manejo de datos textuales. Para abordar esto, presentamos FastV, un método versátil de tipo plug-and-play diseñado para optimizar la eficiencia computacional mediante el aprendizaje de patrones de atención adaptativos en las capas iniciales y la poda de tokens visuales en las capas posteriores. Nuestras evaluaciones demuestran que FastV es capaz de reducir drásticamente los costos computacionales (por ejemplo, una reducción del 45% en los FLOPs para LLaVA-1.5-13B) sin sacrificar el rendimiento en una amplia gama de tareas de comprensión de imágenes y videos. La relación entre la eficiencia computacional y el rendimiento de FastV es altamente personalizable y Pareto-eficiente. Puede comprimir los FLOPs de un modelo de 13B parámetros para alcanzar un presupuesto inferior al de un modelo de 7B parámetros, manteniendo al mismo tiempo un rendimiento superior. Creemos que FastV tiene un valor práctico para la implementación de LVLMs en dispositivos de borde y modelos comerciales. El código está disponible en https://github.com/pkunlp-icler/FastV.
Investigamos la tasa a la que han mejorado los algoritmos para el preentrenamiento de modelos de lenguaje desde el surgimiento del aprendizaje profundo. Utilizando un conjunto de datos de más de 200 evaluaciones de modelos de lenguaje en Wikitext y Penn Treebank que abarcan de 2012 a 2023, encontramos que el cómputo necesario para alcanzar un umbral de rendimiento determinado se ha reducido a la mitad aproximadamente cada 8 meses, con un intervalo de confianza del 95% de entre 5 y 14 meses, sustancialmente más rápido que las mejoras en hardware según la Ley de Moore. Estimamos leyes de escalamiento aumentadas, que nos permiten cuantificar el progreso algorítmico y determinar las contribuciones relativas del escalamiento de modelos frente a las innovaciones en los algoritmos de entrenamiento. A pesar del rápido ritmo de progreso algorítmico y del desarrollo de nuevas arquitecturas como el transformador, nuestro análisis revela que el aumento en el cómputo contribuyó aún más a las mejoras generales de rendimiento durante este período. Aunque limitado por datos de evaluación ruidosos, nuestro análisis cuantifica el rápido progreso en el modelado de lenguaje, arrojando luz sobre las contribuciones relativas del cómputo y los algoritmos.
La llegada de Sora marca una nueva era para los modelos de difusión de texto a video, trayendo avances significativos en la generación de videos y sus posibles aplicaciones. Sin embargo, Sora, así como otros modelos de difusión de texto a video, dependen en gran medida de los prompts, y no existe un conjunto de datos público que incluya un estudio de prompts para texto a video. En este artículo, presentamos VidProM, el primer conjunto de datos a gran escala que comprende 1.67 millones de prompts únicos de texto a video de usuarios reales. Además, el conjunto de datos incluye 6.69 millones de videos generados por cuatro modelos de difusión de última generación y algunos datos relacionados. Inicialmente, demostramos la creación de este conjunto de datos a gran escala, un proceso que consume tiempo y es costoso. Posteriormente, mostramos cómo el VidProM propuesto difiere de DiffusionDB, un conjunto de datos a gran escala de prompts para la generación de imágenes. Basándonos en el análisis de estos prompts, identificamos la necesidad de un nuevo conjunto de datos de prompts específicamente diseñado para la generación de texto a video y obtenemos información sobre las preferencias de los usuarios reales al crear videos. Nuestro conjunto de datos, grande y diverso, también inspira muchas áreas de investigación nuevas y emocionantes. Por ejemplo, para desarrollar modelos de difusión de texto a video mejores, más eficientes y seguros, sugerimos explorar la ingeniería de prompts de texto a video, la generación eficiente de videos y la detección de copias de videos para modelos de difusión. Hacemos que el conjunto de datos recopilado VidProM esté disponible públicamente en GitHub y Hugging Face bajo la licencia CC-BY-NC 4.0.
Los modelos de difusión son relativamente fáciles de entrenar, pero requieren muchos pasos para generar muestras. Los modelos de consistencia son mucho más difíciles de entrenar, pero generan muestras en un solo paso. En este artículo proponemos los Modelos de Consistencia Multietapa: una unificación entre los Modelos de Consistencia (Song et al., 2023) y TRACT (Berthelot et al., 2023) que puede interpolar entre un modelo de consistencia y un modelo de difusión: un equilibrio entre la velocidad de muestreo y la calidad de las muestras. Específicamente, un modelo de consistencia de 1 paso es un modelo de consistencia convencional, mientras que demostramos que un modelo de consistencia de ∞ pasos es un modelo de difusión. Los Modelos de Consistencia Multietapa funcionan muy bien en la práctica. Al aumentar el presupuesto de muestras de un solo paso a 2-8 pasos, podemos entrenar modelos más fácilmente que generan muestras de mayor calidad, conservando gran parte de los beneficios en velocidad de muestreo. Resultados destacados incluyen un FID de 1.4 en Imagenet 64 en 8 pasos y un FID de 2.1 en Imagenet 128 en 8 pasos con destilación de consistencia. También demostramos que nuestro método se escala a un modelo de difusión de texto a imagen, generando muestras muy cercanas en calidad al modelo original.
La generación basada en sujetos ha captado un interés significativo recientemente debido a su capacidad para personalizar la generación de texto a imagen. Los trabajos típicos se centran en aprender los atributos privados del nuevo sujeto. Sin embargo, un hecho importante no se ha tomado en serio: un sujeto no es un concepto nuevo aislado, sino que debería ser una especialización de una categoría específica en el modelo preentrenado. Esto resulta en que el sujeto no herede de manera integral los atributos de su categoría, causando generaciones deficientes relacionadas con los atributos. En este artículo, inspirados por la programación orientada a objetos, modelamos el sujeto como una clase derivada cuya clase base es su categoría semántica. Este modelado permite que el sujeto herede atributos públicos de su categoría mientras aprende sus atributos privados a partir del ejemplo proporcionado por el usuario. Específicamente, proponemos un método plug-and-play, la regularización Subject-Derived (SuDe). Este método construye el modelado de clase base-derivada al restringir que las imágenes generadas basadas en el sujeto pertenezcan semánticamente a la categoría del sujeto. Experimentos extensos bajo tres líneas base y dos arquitecturas en diversos sujetos muestran que nuestro SuDe permite generaciones imaginativas relacionadas con los atributos mientras mantiene la fidelidad del sujeto. Los códigos se publicarán pronto en FaceChain (https://github.com/modelscope/facechain).