Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han transformado el panorama de la inteligencia artificial, aunque su enorme tamaño presenta desafíos significativos en términos de costos computacionales. Presentamos LoRAShear, un enfoque novedoso y eficiente para podar estructuralmente los LLMs y recuperar conocimiento. Dados los LLMs generales, LoRAShear primero crea gráficos de dependencia para descubrir estructuras de eliminación mínima y analizar la distribución del conocimiento. Luego, procede con una poda estructurada progresiva en los adaptadores LoRA y permite la transferencia inherente de conocimiento para preservar mejor la información en las estructuras redundantes. Para recuperar el conocimiento perdido durante la poda, LoRAShear estudia meticulosamente y propone esquemas de ajuste fino dinámico con adaptadores de datos dinámicos para reducir efectivamente la brecha de rendimiento con respecto a los modelos completos. Los resultados numéricos demuestran que, utilizando solo una GPU en un par de días de procesamiento, LoRAShear redujo efectivamente la huella de los LLMs en un 20% con solo un 1.0% de degradación en el rendimiento, superando significativamente a los métodos más avanzados. El código fuente estará disponible en https://github.com/microsoft/lorashear.
Presentamos MM-VID, un sistema integrado que aprovecha las capacidades de GPT-4V, combinadas con herramientas especializadas en visión, audio y voz, para facilitar la comprensión avanzada de videos. MM-VID está diseñado para abordar los desafíos planteados por videos de larga duración y tareas complejas, como el razonamiento dentro de contenido de una hora de duración y la comprensión de tramas que abarcan múltiples episodios. MM-VID utiliza una generación de guiones a partir de videos con GPT-4V para transcribir elementos multimodales en un guión textual extenso. El guión generado detalla movimientos, acciones, expresiones y diálogos de los personajes, allanando el camino para que los modelos de lenguaje de gran escala (LLMs) logren la comprensión de videos. Esto permite capacidades avanzadas, incluyendo descripción de audio, identificación de personajes y comprensión multimodal de alto nivel. Los resultados experimentales demuestran la efectividad de MM-VID al manejar distintos géneros de videos con diversas duraciones. Además, mostramos su potencial cuando se aplica en entornos interactivos, como videojuegos e interfaces gráficas de usuario.
La generación de videos ha ganado un creciente interés tanto en el ámbito académico como en la industria. Aunque las herramientas comerciales pueden generar videos plausibles, existe un número limitado de modelos de código abierto disponibles para investigadores e ingenieros. En este trabajo, presentamos dos modelos de difusión para la generación de videos de alta calidad, específicamente modelos de texto a video (T2V) e imagen a video (I2V). Los modelos T2V sintetizan un video a partir de una entrada de texto dada, mientras que los modelos I2V incorporan una imagen adicional como entrada. Nuestro modelo T2V propuesto puede generar videos realistas y de calidad cinematográfica con una resolución de 1024x576, superando a otros modelos T2V de código abierto en términos de calidad. El modelo I2V está diseñado para producir videos que se adhieren estrictamente al contenido de la imagen de referencia proporcionada, preservando su contenido, estructura y estilo. Este modelo es el primer modelo base I2V de código abierto capaz de transformar una imagen dada en un clip de video mientras mantiene restricciones de preservación de contenido. Creemos que estos modelos de generación de videos de código abierto contribuirán significativamente a los avances tecnológicos dentro de la comunidad.
La creciente demanda de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) en aplicaciones como generación de contenido, chatbots inteligentes y análisis de sentimientos plantea desafíos considerables para los proveedores de servicios de LLMs. Para utilizar eficientemente los recursos de GPU y aumentar el rendimiento, el procesamiento por lotes (batching) de múltiples solicitudes ha surgido como un paradigma popular; para acelerar aún más este proceso, las técnicas de cuantización de LLMs reducen el consumo de memoria y aumentan la capacidad de cómputo. Sin embargo, los esquemas de cuantización predominantes (por ejemplo, cuantización de pesos y activaciones a 8 bits) no pueden aprovechar completamente las capacidades de las GPU modernas, como los operadores de enteros de 4 bits, lo que resulta en un rendimiento subóptimo. Para maximizar el rendimiento en la prestación de servicios de LLMs, presentamos Atom, un método de cuantización de bajo bit que logra mejoras significativas en el rendimiento con una pérdida de precisión mínima. Atom aumenta considerablemente el rendimiento al utilizar operadores de bajo bit y reduce notablemente el consumo de memoria mediante la cuantización de bajo bit. Además, alcanza una alta precisión aplicando un novedoso proceso de cuantización de precisión mixta y granularidad fina. Evaluamos Atom en configuraciones de cuantización de pesos y activaciones a 4 bits en el contexto de prestación de servicios. Atom mejora el rendimiento de extremo a extremo hasta 7.73 veces en comparación con FP16 y 2.53 veces en comparación con la cuantización INT8, manteniendo el mismo objetivo de latencia.
Incorporar un objeto personalizado en la generación de imágenes representa una característica atractiva en la generación de texto a imagen. Sin embargo, los métodos existentes basados en optimización y codificación se ven limitados por inconvenientes como la optimización que consume mucho tiempo, la preservación insuficiente de la identidad y un efecto predominante de copiar y pegar. Para superar estas limitaciones, presentamos CustomNet, un enfoque novedoso de personalización de objetos que incorpora explícitamente capacidades de síntesis de vistas novedosas en 3D en el proceso de personalización de objetos. Esta integración facilita el ajuste de las relaciones de posición espacial y los puntos de vista, generando resultados diversos mientras se preserva eficazmente la identidad del objeto. Además, introducimos diseños refinados que permiten el control de la ubicación y un control flexible del fondo mediante descripciones textuales o imágenes específicas definidas por el usuario, superando las limitaciones de los métodos existentes de síntesis de vistas novedosas en 3D. También aprovechamos una canalización de construcción de conjuntos de datos que puede manejar mejor objetos del mundo real y fondos complejos. Equipado con estos diseños, nuestro método facilita la personalización de objetos en modo zero-shot sin optimización en tiempo de prueba, ofreciendo control simultáneo sobre los puntos de vista, la ubicación y el fondo. Como resultado, nuestro CustomNet garantiza una preservación mejorada de la identidad y genera resultados diversos y armoniosos.
Los Modelos de Lenguaje de Gran Escala (LLMs) demuestran capacidades impresionantes de razonamiento y aumento de datos en diversas tareas de PLN. Sin embargo, ¿qué ocurre con los modelos pequeños? En este trabajo, proponemos TeacherLM-7.1B, capaz de anotar fundamentos relevantes, cadenas de pensamiento y errores comunes para la mayoría de las muestras de PLN, lo que convierte la anotación en algo más que una simple respuesta, permitiendo así que otros modelos aprendan el "por qué" en lugar de solo el "qué". El modelo TeacherLM-7.1B obtuvo una puntuación zero-shot de 52.3 en MMLU, superando a la mayoría de los modelos con más de 100B parámetros. Aún más notable es su capacidad de aumento de datos. Basándonos en TeacherLM-7.1B, aumentamos 58 conjuntos de datos de PLN y entrenamos varios modelos estudiante con diferentes parámetros de las series OPT y BLOOM en un entorno de multitarea. Los resultados experimentales indican que el aumento de datos proporcionado por TeacherLM ha aportado beneficios significativos. Liberaremos la serie de modelos TeacherLM y los conjuntos de datos aumentados como código abierto.
En este artículo, evaluamos críticamente las capacidades del modelo de lenguaje multimodal más avanzado, es decir, GPT-4 con Visión (GPT-4V), en la tarea de Respuesta a Preguntas Visuales (VQA, por sus siglas en inglés). Nuestros experimentos evalúan exhaustivamente la competencia de GPT-4V para responder preguntas asociadas con imágenes utilizando conjuntos de datos de patología y radiología de 11 modalidades (por ejemplo, Microscopía, Dermatoscopía, Rayos X, Tomografía Computarizada, etc.) y quince objetos de interés (cerebro, hígado, pulmón, etc.). Nuestros conjuntos de datos abarcan una amplia gama de consultas médicas, incluyendo dieciséis tipos distintos de preguntas. A lo largo de nuestras evaluaciones, diseñamos indicaciones textuales para GPT-4V, dirigiendo al modelo a integrar información visual y textual. Los experimentos, basados en puntajes de precisión, concluyen que la versión actual de GPT-4V no es recomendable para diagnósticos en el mundo real debido a su precisión poco confiable y subóptima al responder preguntas médicas de diagnóstico. Además, delineamos siete aspectos únicos del comportamiento de GPT-4V en VQA médica, destacando sus limitaciones dentro de este complejo ámbito. Los detalles completos de nuestros casos de evaluación están disponibles en https://github.com/ZhilingYan/GPT4V-Medical-Report.
Con el auge de los LLM (ChatGPT, GPT-4) potentes y de código cerrado, ha crecido el interés en destilar las capacidades de estos LLM de código cerrado hacia LLM más pequeños y de código abierto. Los métodos de destilación anteriores suelen solicitar a ChatGPT que genere un conjunto de instrucciones y respuestas para que el modelo estudiante aprenda. Sin embargo, este enfoque estándar de destilación pasa por alto las ventajas y condiciones del modelo estudiante. Inspirados por los principios modernos de enseñanza, diseñamos un proceso de destilación personalizado en el que el estudiante intenta resolver una tarea primero, y luego el profesor proporciona un refinamiento adaptativo para que el estudiante mejore. En lugar de alimentar al estudiante con el conocimiento previo del profesor, la destilación personalizada permite un aprendizaje personalizado para el modelo estudiante, ya que solo aprende de los ejemplos en los que comete errores y aprende a mejorar su propia solución. En la generación de código, la destilación personalizada supera consistentemente a la destilación estándar utilizando solo un tercio de los datos. Con solo 2.5-3K ejemplos personalizados que incurren en un costo de recopilación de datos de 4-6$, mejoramos CodeGen-mono-16B en un 7% para alcanzar un 36.4% en pass@1 y StarCoder en un 12.2% para alcanzar un 45.8% en pass@1 en HumanEval.
En este informe técnico, presentamos Skywork-13B, una familia de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) entrenados en un corpus de más de 3,2 billones de tokens extraídos de textos en inglés y chino. Este modelo base bilingüe es el LLM de tamaño comparable más extensamente entrenado y abiertamente publicado hasta la fecha. Introducimos una metodología de entrenamiento en dos etapas utilizando un corpus segmentado, dirigido primero al entrenamiento de propósito general y luego al entrenamiento de mejora específico de dominio, respectivamente. Demostramos que nuestro modelo no solo sobresale en los benchmarks populares, sino que también alcanza un rendimiento de vanguardia en el modelado del lenguaje chino en diversos dominios. Además, proponemos un novedoso método de detección de fugas, demostrando que la contaminación de datos de prueba es un problema urgente que merece una mayor investigación por parte de la comunidad de LLMs. Para impulsar futuras investigaciones, publicamos Skywork-13B junto con los puntos de control obtenidos durante las etapas intermedias del proceso de entrenamiento. También estamos liberando parte de nuestro corpus SkyPile, una colección de más de 150 mil millones de tokens de texto web, que es el corpus de preentrenamiento chino de alta calidad y abierto más grande hasta la fecha. Esperamos que Skywork-13B y nuestro corpus abierto sirvan como un recurso de código abierto valioso para democratizar el acceso a LLMs de alta calidad.
La generación de texto a 3D ha experimentado avances notables recientemente, especialmente con métodos basados en Muestreo de Distilación de Puntajes (SDS, por sus siglas en inglés) que aprovechan modelos de difusión 2D preentrenados. Si bien el uso de guía libre de clasificadores es ampliamente reconocido como crucial para una optimización exitosa, se considera más bien un truco auxiliar que el componente más esencial. En este artículo, reevaluamos el papel de la guía libre de clasificadores en la distilación de puntajes y descubrimos un hallazgo sorprendente: la guía por sí sola es suficiente para tareas efectivas de generación de texto a 3D. Denominamos a este método Distilación de Puntajes de Clasificador (CSD, por sus siglas en inglés), que puede interpretarse como el uso de un modelo de clasificación implícito para la generación. Esta nueva perspectiva revela nuevos conocimientos para comprender las técnicas existentes. Validamos la efectividad de CSD en una variedad de tareas de texto a 3D, incluyendo generación de formas, síntesis de texturas y edición de formas, logrando resultados superiores a los de los métodos más avanzados. Nuestra página del proyecto es https://xinyu-andy.github.io/Classifier-Score-Distillation.