Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos la serie ShareGPT4Video, con el objetivo de facilitar la comprensión de videos en modelos grandes de lenguaje-video (LVLMs) y la generación de videos en modelos de texto-a-video (T2VMs) mediante subtítulos densos y precisos. La serie consta de: 1) ShareGPT4Video, 40K subtítulos densos anotados por GPT4V de videos de diversas longitudes y fuentes, desarrollados mediante una estrategia cuidadosamente diseñada de filtrado y anotación de datos. 2) ShareCaptioner-Video, un modelo de subtitulado eficiente y capaz para videos arbitrarios, con 4.8M videos de alta calidad estética anotados por él. 3) ShareGPT4Video-8B, un LVLM simple pero sobresaliente que alcanzó un rendimiento de vanguardia en tres benchmarks avanzados de video. Para lograrlo, dejando de lado los costosos y no escalables anotadores humanos, descubrimos que usar GPT4V para subtitular videos con una estrategia de entrada de múltiples fotogramas o concatenación de fotogramas conduce a resultados menos detallados y, a veces, temporalmente confusos. Argumentamos que el desafío de diseñar una estrategia de subtitulado de video de alta calidad radica en tres aspectos: 1) Comprensión precisa del cambio temporal entre fotogramas. 2) Descripción detallada del contenido intra-fotograma. 3) Escalabilidad del número de fotogramas para videos de longitud arbitraria. Para ello, diseñamos meticulosamente una estrategia de subtitulado de video diferencial, que es estable, escalable y eficiente para generar subtítulos para videos con resolución, proporciones y longitud arbitrarias. Basándonos en ella, construimos ShareGPT4Video, que contiene 40K videos de alta calidad que abarcan una amplia gama de categorías, y los subtítulos resultantes incluyen un rico conocimiento del mundo, atributos de objetos, movimientos de cámara y, crucialmente, descripciones temporales detalladas y precisas de eventos. Basándonos en ShareGPT4Video, desarrollamos además ShareCaptioner-Video, un subtitulador superior capaz de generar eficientemente subtítulos de alta calidad para videos arbitrarios...
Los modelos de generación de imágenes basados en difusión han logrado un gran éxito en los últimos años al demostrar la capacidad de sintetizar contenido de alta calidad. Sin embargo, estos modelos contienen una enorme cantidad de parámetros, lo que resulta en un tamaño de modelo significativamente grande. Guardar y transferirlos es un cuello de botella importante para diversas aplicaciones, especialmente aquellas que se ejecutan en dispositivos con recursos limitados. En este trabajo, desarrollamos un novedoso método de cuantización de pesos que cuantiza el UNet de Stable Diffusion v1.5 a 1.99 bits, logrando un modelo 7.9 veces más pequeño mientras exhibe una calidad de generación incluso mejor que el original. Nuestro enfoque incluye varias técnicas novedosas, como asignar bits óptimos a cada capa, inicializar el modelo cuantizado para un mejor rendimiento y mejorar la estrategia de entrenamiento para reducir drásticamente el error de cuantización. Además, evaluamos exhaustivamente nuestro modelo cuantizado en varios conjuntos de datos de referencia y a través de evaluaciones humanas para demostrar su calidad de generación superior.
Recientemente, la Optimización Directa de Preferencias (DPO) ha extendido su éxito desde la alineación de modelos de lenguaje grandes (LLMs) hasta la alineación de modelos de difusión de texto a imagen con preferencias humanas. A diferencia de la mayoría de los métodos DPO existentes, que asumen que todos los pasos de difusión comparten un orden de preferencia consistente con las imágenes generadas finales, argumentamos que esta suposición descuida el rendimiento específico de cada paso en el proceso de eliminación de ruido y que las etiquetas de preferencia deberían adaptarse a la contribución de cada paso. Para abordar esta limitación, proponemos la Optimización de Preferencias Consciente del Paso (SPO), un enfoque novedoso de posentrenamiento que evalúa y ajusta de manera independiente el rendimiento de eliminación de ruido en cada paso, utilizando un modelo de preferencias consciente del paso y un remuestreador paso a paso para garantizar una supervisión precisa y específica del paso. Específicamente, en cada paso de eliminación de ruido, muestreamos un conjunto de imágenes, encontramos un par ganador-perdedor adecuado y, lo más importante, seleccionamos aleatoriamente una única imagen del conjunto para inicializar el siguiente paso de eliminación de ruido. Este proceso de remuestreo paso a paso asegura que el siguiente par de imágenes ganador-perdedor provenga de la misma imagen, haciendo que la comparación ganador-perdedor sea independiente del paso anterior. Para evaluar las preferencias en cada paso, entrenamos un modelo de preferencias consciente del paso separado que puede aplicarse tanto a imágenes ruidosas como limpias. Nuestros experimentos con Stable Diffusion v1.5 y SDXL demuestran que SPO supera significativamente al último Diffusion-DPO en la alineación de imágenes generadas con indicaciones complejas y detalladas, mejorando la estética, mientras también logra ser más de 20 veces más eficiente en el entrenamiento. Código y modelo: https://rockeycoss.github.io/spo.github.io/
Presentamos Buffer of Thoughts (BoT), un enfoque novedoso y versátil de razonamiento aumentado con pensamientos para mejorar la precisión, eficiencia y robustez de los modelos de lenguaje de gran escala (LLMs). Específicamente, proponemos un meta-buffer para almacenar una serie de pensamientos de alto nivel informativos, denominados plantillas de pensamiento, destilados de los procesos de resolución de problemas en diversas tareas. Luego, para cada problema, recuperamos una plantilla de pensamiento relevante y la instanciamos de manera adaptativa con estructuras de razonamiento específicas para llevar a cabo un razonamiento eficiente. Para garantizar la escalabilidad y estabilidad, proponemos además un buffer-manager que actualiza dinámicamente el meta-buffer, mejorando así su capacidad a medida que se resuelven más tareas. Realizamos experimentos exhaustivos en 10 tareas desafiantes intensivas en razonamiento, logrando mejoras significativas en el rendimiento respecto a métodos SOTA anteriores: 11% en Game of 24, 20% en Geometric Shapes y 51% en Checkmate-in-One. Análisis adicionales demuestran la capacidad de generalización superior y la robustez del modelo de nuestro BoT, mientras requiere solo el 12% del costo de los métodos de prompting multi-consulta (por ejemplo, árbol/grafo de pensamientos) en promedio. Notablemente, encontramos que nuestro Llama3-8B+BoT tiene el potencial de superar al modelo Llama3-70B. Nuestro proyecto está disponible en: https://github.com/YangLing0818/buffer-of-thought-llm.
Los modelos de generación de videos basados en difusión han demostrado un éxito notable en la obtención de videos de alta fidelidad a través del proceso iterativo de eliminación de ruido. Sin embargo, estos modelos requieren múltiples pasos de eliminación de ruido durante el muestreo, lo que resulta en altos costos computacionales. En este trabajo, proponemos un enfoque novedoso para obtener modelos de generación de videos en un solo paso mediante el uso de entrenamiento adversarial para ajustar modelos de difusión de videos preentrenados. Mostramos que, a través del entrenamiento adversarial, el modelo de difusión de videos de múltiples pasos, es decir, Stable Video Diffusion (SVD), puede entrenarse para realizar un único paso hacia adelante y sintetizar videos de alta calidad, capturando tanto las dependencias temporales como espaciales en los datos de video. Experimentos extensivos demuestran que nuestro método logra una calidad de generación competitiva en los videos sintetizados con una reducción significativa en la sobrecarga computacional del proceso de eliminación de ruido (es decir, alrededor de 23 veces más rápido en comparación con SVD y 6 veces más rápido en comparación con trabajos existentes, con una calidad de generación incluso mejor), allanando el camino para la síntesis y edición de videos en tiempo real. Más resultados de visualización están disponibles públicamente en https://snap-research.github.io/SF-V.
Los modelos de difusión han demostrado un gran éxito en la generación de texto a video (T2V). Sin embargo, los métodos existentes pueden enfrentar desafíos al manejar escenarios complejos de generación de videos largos que involucran múltiples objetos o cambios dinámicos en el número de objetos. Para abordar estas limitaciones, proponemos VideoTetris, un marco novedoso que permite la generación composicional de T2V. Específicamente, proponemos una difusión composicional espacio-temporal para seguir con precisión la semántica textual compleja mediante la manipulación y composición de los mapas de atención de las redes de eliminación de ruido tanto espacial como temporalmente. Además, proponemos un preprocesamiento mejorado de datos de video para mejorar los datos de entrenamiento en cuanto a la dinámica del movimiento y la comprensión de las indicaciones, equipado con un nuevo mecanismo de atención de marco de referencia para mejorar la consistencia en la generación autoregresiva de videos. Experimentos extensos demuestran que nuestro VideoTetris logra resultados cualitativos y cuantitativos impresionantes en la generación composicional de T2V. El código está disponible en: https://github.com/YangLing0818/VideoTetris.
Construir agentes generalistas capaces de manejar diversas tareas y evolucionar en diferentes entornos es un objetivo a largo plazo en la comunidad de IA. Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se consideran una base prometedora para construir dichos agentes debido a sus capacidades generalizadas. Los enfoques actuales hacen que los agentes basados en LLM imiten trayectorias proporcionadas por expertos paso a paso, lo que requiere supervisión humana, dificulta la escalabilidad y limita la exploración del entorno; o permiten que los agentes exploren y aprendan en entornos aislados, lo que resulta en agentes especializados con una generalización limitada. En este artículo, damos el primer paso hacia la construcción de agentes basados en LLM con capacidad general y habilidad de auto-evolución. Identificamos una tríada de ingredientes clave: 1) entornos diversos para la exploración y aprendizaje del agente, 2) un conjunto de trayectorias para equipar a los agentes con capacidades básicas y conocimiento previo, y 3) un método de evolución efectivo y escalable. Proponemos AgentGym, un nuevo marco que incluye una variedad de entornos y tareas para una exploración amplia, en tiempo real, unificada y concurrente de los agentes. AgentGym también incluye una base de datos con instrucciones ampliadas, un conjunto de benchmarks y trayectorias de alta calidad en múltiples entornos. A continuación, proponemos un método novedoso, AgentEvol, para investigar el potencial de la auto-evolución de los agentes más allá de los datos previamente vistos en tareas y entornos. Los resultados experimentales muestran que los agentes evolucionados pueden alcanzar resultados comparables a los modelos de última generación (SOTA). Publicamos el conjunto AgentGym, que incluye la plataforma, el conjunto de datos, los benchmarks, los puntos de control y las implementaciones de los algoritmos. El conjunto AgentGym está disponible en https://github.com/WooooDyy/AgentGym.
La generación de imágenes guiada por texto permite la creación de contenido visual a partir de descripciones textuales. Sin embargo, ciertos conceptos visuales no pueden transmitirse de manera efectiva únicamente a través del lenguaje. Esto ha renovado el interés en utilizar el espacio de incrustación de imágenes de CLIP para tareas más orientadas a lo visual mediante métodos como IP-Adapter. Curiosamente, se ha demostrado que el espacio de incrustación de imágenes de CLIP es semánticamente significativo, donde las operaciones lineales dentro de este espacio producen resultados semánticamente coherentes. No obstante, el significado específico de estas operaciones puede variar de manera impredecible entre diferentes imágenes. Para aprovechar este potencial, presentamos pOps, un marco que entrena operadores semánticos específicos directamente sobre las incrustaciones de imágenes de CLIP. Cada operador pOps se basa en un modelo de Difusión Previa preentrenado. Aunque el modelo de Difusión Previa fue originalmente entrenado para mapear entre incrustaciones de texto e incrustaciones de imágenes, demostramos que puede ajustarse para adaptarse a nuevas condiciones de entrada, resultando en un operador de difusión. Trabajar directamente sobre las incrustaciones de imágenes no solo mejora nuestra capacidad para aprender operaciones semánticas, sino que también nos permite utilizar directamente una pérdida CLIP textual como supervisión adicional cuando es necesario. Mostramos que pOps puede utilizarse para aprender una variedad de operadores inspirados en fotografías con significados semánticos distintos, destacando la diversidad semántica y el potencial de nuestro enfoque propuesto.
En los últimos años ha habido un tremendo aumento en las capacidades generales de los sistemas de IA, impulsado principalmente por el entrenamiento de modelos base en datos a escala de internet. Sin embargo, la creación de una IA de mejora continua y abierta sigue siendo esquiva. En este documento de posición, argumentamos que los ingredientes necesarios ya están disponibles para lograr la apertura en los sistemas de IA con respecto a un observador humano. Además, afirmamos que dicha apertura es una propiedad esencial de cualquier inteligencia artificial superhumana (ASI). Comenzamos proporcionando una definición formal concreta de apertura a través de la lente de la novedad y la capacidad de aprendizaje. Luego, ilustramos un camino hacia la ASI mediante sistemas abiertos construidos sobre modelos base, capaces de realizar descubrimientos novedosos y relevantes para los humanos. Concluimos examinando las implicaciones de seguridad de una IA abierta y de capacidades generales. Esperamos que los modelos base abiertos demuestren ser un área de investigación cada vez más fértil y crítica para la seguridad en un futuro cercano.