Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje preentrenados son la base de varias aplicaciones de IA, pero su alto costo computacional para el entrenamiento limita su accesibilidad. Iniciativas como BLOOM y StarCoder buscan democratizar el acceso a modelos preentrenados para el desarrollo colaborativo de la comunidad. Sin embargo, estos modelos existentes enfrentan desafíos: capacidades multilingües limitadas, el preentrenamiento continuo que provoca olvido catastrófico, mientras que el preentrenamiento desde cero es computacionalmente costoso, y el cumplimiento de las leyes de seguridad y desarrollo de IA. Este artículo presenta Aurora-M, un modelo multilingüe de código abierto con 15 mil millones de parámetros entrenado en inglés, finlandés, hindi, japonés, vietnamita y código. Preentrenado continuamente a partir de StarCoderPlus con 435 mil millones de tokens adicionales, Aurora-M supera los 2 billones de tokens en el recuento total de tokens de entrenamiento. Es el primer modelo multilingüe de código abierto ajustado con instrucciones de seguridad revisadas por humanos, alineando su desarrollo no solo con consideraciones convencionales de red-teaming, sino también con las preocupaciones específicas articuladas en la Orden Ejecutiva Biden-Harris sobre el Desarrollo y Uso Seguro, Seguro y Confiable de la Inteligencia Artificial. Aurora-M es rigurosamente evaluado en diversas tareas y idiomas, demostrando robustez contra el olvido catastrófico y superando a las alternativas en entornos multilingües, particularmente en evaluaciones de seguridad. Para promover el desarrollo responsable de modelos de lenguaje de código abierto, Aurora-M y sus variantes se publican en https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407.
Uno de los principales defectos de los modelos actuales de texto a imagen (T2I) es su incapacidad para generar de manera consistente imágenes que sigan fielmente las relaciones espaciales especificadas en el texto. En este artículo, ofrecemos una investigación exhaustiva de esta limitación, al mismo tiempo que desarrollamos conjuntos de datos y métodos que logran un rendimiento de vanguardia. En primer lugar, encontramos que los conjuntos de datos actuales de visión y lenguaje no representan adecuadamente las relaciones espaciales; para aliviar este cuello de botella, creamos SPRIGHT, el primer conjunto de datos a gran escala centrado en aspectos espaciales, mediante la reetiquetación de 6 millones de imágenes de 4 conjuntos de datos de visión ampliamente utilizados. A través de una tubería de evaluación y análisis en tres fases, encontramos que SPRIGHT mejora significativamente la captura de relaciones espaciales en comparación con los conjuntos de datos existentes. Para demostrar su eficacia, utilizamos solo ~0.25% de SPRIGHT y logramos una mejora del 22% en la generación de imágenes espacialmente precisas, al mismo tiempo que mejoramos las puntuaciones FID y CMMD. En segundo lugar, encontramos que el entrenamiento con imágenes que contienen un gran número de objetos resulta en mejoras sustanciales en la consistencia espacial. Notablemente, alcanzamos el estado del arte en T2I-CompBench con una puntuación espacial de 0.2133, ajustando el modelo con menos de 500 imágenes. Finalmente, a través de un conjunto de experimentos controlados y ablaciones, documentamos múltiples hallazgos que creemos que mejorarán la comprensión de los factores que afectan la consistencia espacial en los modelos de texto a imagen. Publicamos nuestro conjunto de datos y modelo para fomentar más investigaciones en esta área.
La generación de contenido 3D a partir de indicaciones de texto o imágenes únicas ha experimentado un progreso notable en calidad y velocidad recientemente. Uno de sus paradigmas dominantes implica la generación de imágenes consistentes de múltiples vistas, seguidas de una reconstrucción con vistas escasas. Sin embargo, debido al desafío de deformar directamente la representación de malla para aproximarse a la topología objetivo, la mayoría de las metodologías aprenden una representación implícita (como NeRF) durante la reconstrucción con vistas escasas y adquieren la malla objetivo mediante una extracción de post-procesamiento. Aunque la representación implícita puede modelar eficazmente información 3D rica, su entrenamiento suele requerir un tiempo de convergencia prolongado. Además, la operación de extracción posterior desde el campo implícito también conduce a artefactos visuales no deseados. En este artículo, proponemos FlexiDreamer, un novedoso marco de generación de imagen única a 3D que reconstruye la malla objetivo de manera integral. Al aprovechar una extracción flexible basada en gradientes conocida como FlexiCubes, nuestro método evita los defectos causados por el post-procesamiento y facilita la adquisición directa de la malla objetivo. Además, incorporamos un esquema de codificación de cuadrícula hash de múltiples resoluciones que activa progresivamente los niveles de codificación en el campo implícito de FlexiCubes para ayudar a capturar detalles geométricos en la optimización por pasos. Notablemente, FlexiDreamer recupera una estructura 3D densa a partir de una imagen de vista única en aproximadamente 1 minuto en una sola GPU NVIDIA A100, superando ampliamente las metodologías anteriores.
La generación de escenas 3D a partir de condiciones especificadas por el usuario ofrece una vía prometedora para aliviar la carga de producción en aplicaciones 3D. Estudios previos requerían un esfuerzo significativo para materializar la escena deseada, debido a las limitadas condiciones de control. Proponemos un método para controlar y generar escenas 3D bajo condiciones multimodales utilizando imágenes parciales, información de diseño representada en vista superior y prompts de texto. Combinar estas condiciones para generar una escena 3D presenta las siguientes dificultades significativas: (1) la creación de grandes conjuntos de datos, (2) la consideración de la interacción de condiciones multimodales y (3) la dependencia del dominio de las condiciones de diseño. Descomponemos el proceso de generación de escenas 3D en la generación de imágenes 2D a partir de las condiciones dadas y la generación de escenas 3D a partir de imágenes 2D. La generación de imágenes 2D se logra ajustando un modelo preentrenado de texto a imagen con un pequeño conjunto de datos artificial de imágenes parciales y diseños, y la generación de escenas 3D se logra mediante la estimación de profundidad condicionada por el diseño y campos de radiancia neural (NeRF), evitando así la creación de grandes conjuntos de datos. El uso de una representación común de información espacial mediante imágenes de 360 grados permite considerar las interacciones de condiciones multimodales y reduce la dependencia del dominio en el control del diseño. Los resultados experimentales demostraron cualitativa y cuantitativamente que el método propuesto puede generar escenas 3D en diversos dominios, desde interiores hasta exteriores, según condiciones multimodales.
Los modelos generativos son ahora ampliamente utilizados por diseñadores gráficos y artistas. Trabajos previos han demostrado que estos modelos recuerdan y a menudo replican contenido de sus datos de entrenamiento durante la generación. Por lo tanto, a medida que su proliferación aumenta, se ha vuelto importante realizar una búsqueda en la base de datos para determinar si las propiedades de la imagen son atribuibles a datos de entrenamiento específicos, cada vez que se utiliza una imagen generada con fines profesionales. Las herramientas existentes para este propósito se centran en recuperar imágenes con contenido semántico similar. Mientras tanto, muchos artistas están preocupados por la replicación de estilos en los modelos de texto a imagen. Presentamos un marco para comprender y extraer descriptores de estilo de las imágenes. Nuestro marco comprende un nuevo conjunto de datos curado utilizando la idea de que el estilo es una propiedad subjetiva de una imagen que captura interacciones complejas pero significativas de factores que incluyen, entre otros, colores, texturas, formas, etc. También proponemos un método para extraer descriptores de estilo que pueden usarse para atribuir el estilo de una imagen generada a las imágenes utilizadas en el conjunto de datos de entrenamiento de un modelo de texto a imagen. Mostramos resultados prometedores en diversas tareas de recuperación de estilos. También analizamos cuantitativa y cualitativamente la atribución y coincidencia de estilos en el modelo Stable Diffusion. El código y los artefactos están disponibles en https://github.com/learn2phoenix/CSD.
Presentamos CosmicMan, un modelo base de texto a imagen especializado en la generación de imágenes humanas de alta fidelidad. A diferencia de los modelos base de propósito general actuales, que se enfrentan al dilema de una calidad inferior y una desalineación entre texto e imagen en el caso de humanos, CosmicMan permite generar imágenes humanas fotorrealistas con una apariencia meticulosa, una estructura razonable y una alineación precisa entre texto e imagen con descripciones densas y detalladas. En el núcleo del éxito de CosmicMan se encuentran nuevas reflexiones y perspectivas sobre los datos y los modelos: (1) Descubrimos que la calidad de los datos y un flujo escalable de producción de datos son esenciales para los resultados finales de los modelos entrenados. Por ello, proponemos un nuevo paradigma de producción de datos, Annotate Anyone, que sirve como un volante de inercia perpetuo para producir datos de alta calidad con anotaciones precisas y rentables a lo largo del tiempo. Basándonos en esto, construimos un conjunto de datos a gran escala, CosmicMan-HQ 1.0, con 6 millones de imágenes humanas de alta calidad del mundo real en una resolución media de 1488x1255, acompañadas de anotaciones textuales precisas derivadas de 115 millones de atributos en diversas granularidades. (2) Argumentamos que un modelo base de texto a imagen especializado en humanos debe ser pragmático: fácil de integrar en tareas posteriores mientras es efectivo en la producción de imágenes humanas de alta calidad. Por ello, proponemos modelar la relación entre descripciones textuales densas y píxeles de imagen de manera descompuesta, y presentamos el marco de entrenamiento Decomposed-Attention-Refocusing (Daring). Este descompone de manera fluida las características de atención cruzada en los modelos de difusión de texto a imagen existentes, y refuerza el enfoque de la atención sin añadir módulos adicionales. A través de Daring, demostramos que discretizar explícitamente el espacio de texto continuo en varios grupos básicos que se alinean con la estructura del cuerpo humano es la clave para resolver el problema de desalineación con facilidad.
Un modelo ideal para la descripción densa de videos -- predecir subtítulos localizados temporalmente en un video -- debería ser capaz de manejar videos de entrada largos, predecir descripciones textuales ricas y detalladas, y generar resultados antes de procesar el video completo. Sin embargo, los modelos actuales más avanzados procesan un número fijo de fotogramas reducidos y realizan una única predicción completa después de ver todo el video. Proponemos un modelo de descripción densa de videos en streaming que consta de dos componentes novedosos: primero, proponemos un nuevo módulo de memoria, basado en la agrupación de tokens entrantes, que puede manejar videos de longitud arbitraria ya que la memoria tiene un tamaño fijo. Segundo, desarrollamos un algoritmo de decodificación en streaming que permite a nuestro modelo hacer predicciones antes de que se haya procesado todo el video. Nuestro modelo logra esta capacidad de streaming y mejora significativamente el estado del arte en tres benchmarks de descripción densa de videos: ActivityNet, YouCook2 y ViTT. Nuestro código está disponible en https://github.com/google-research/scenic.
Presentamos Condition-Aware Neural Network (CAN), un nuevo método para agregar control a los modelos generativos de imágenes. En paralelo a los métodos de control condicional previos, CAN controla el proceso de generación de imágenes mediante la manipulación dinámica de los pesos de la red neuronal. Esto se logra introduciendo un módulo de generación de pesos condicionales que genera pesos condicionales para las capas de convolución/lineales basándose en la condición de entrada. Evaluamos CAN en la generación de imágenes condicionadas por clase en ImageNet y en la generación de texto a imagen en COCO. CAN ofrece consistentemente mejoras significativas para los modelos de transformadores de difusión, incluyendo DiT y UViT. En particular, CAN combinado con EfficientViT (CaT) alcanza un FID de 2.78 en ImageNet 512x512, superando a DiT-XL/2 mientras requiere 52 veces menos MACs por paso de muestreo.
Las técnicas de modelado de preferencias, como la optimización directa de preferencias (DPO), han demostrado ser efectivas para mejorar las capacidades de generalización de los modelos de lenguaje de gran escala (LLM). Sin embargo, en tareas que implican seguir instrucciones basadas en videos, proporcionar retroalimentación informativa, especialmente para detectar alucinaciones en las respuestas generadas, sigue siendo un desafío significativo. Estudios previos han explorado el uso de modelos multimodales de gran escala (LMM) como modelos de recompensa para guiar el modelado de preferencias, pero su capacidad para evaluar con precisión la factualidad de las respuestas generadas en comparación con los videos correspondientes no se ha establecido de manera concluyente. Este artículo introduce un marco novedoso que utiliza descripciones detalladas de videos como un proxy del contenido visual, permitiendo que los modelos de lenguaje incorporen esta información como evidencia de apoyo para puntuar las predicciones de preguntas y respuestas (QA) sobre videos. Nuestro enfoque demuestra una sólida alineación con el mecanismo de recompensa del modelo GPT-4V de OpenAI, que toma directamente los fotogramas de video como entrada. Además, mostramos que la aplicación de esta recompensa personalizada a través de DPO mejora significativamente el rendimiento de los LMM en tareas de QA sobre videos.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han revolucionado el campo del procesamiento del lenguaje natural, ampliando progresivamente su alcance hacia la percepción y generación multimodal. Sin embargo, integrar de manera efectiva capacidades de escucha en los LLMs presenta desafíos significativos, particularmente en lo que respecta a la generalización en diversos contextos y la ejecución de tareas auditivas complejas. En este trabajo, presentamos WavLLM, un modelo de lenguaje de gran escala robusto y adaptable para el habla, con codificadores duales y un adaptador de pesos LoRA consciente de las instrucciones, optimizado mediante un enfoque de aprendizaje curricular en dos etapas. Aprovechando los codificadores duales, desacoplamos diferentes tipos de información del habla, utilizando un codificador Whisper para procesar el contenido semántico del habla y un codificador WavLM para capturar las características únicas de la identidad del hablante. Dentro del marco de aprendizaje curricular, WavLLM primero construye sus capacidades fundamentales optimizando en tareas elementales individuales mixtas, seguido de un entrenamiento avanzado multitarea en tareas más complejas, como combinaciones de las tareas elementales. Para mejorar la flexibilidad y la adherencia a diferentes tareas e instrucciones, se introduce un adaptador de pesos LoRA consciente de las instrucciones en la segunda etapa avanzada de entrenamiento multitarea. Validamos el modelo propuesto en puntos de referencia universales del habla, incluyendo tareas como ASR, ST, SV, ER, y también lo aplicamos a conjuntos de datos especializados como el conjunto de comprensión auditiva de inglés del Gaokao para SQA, y el conjunto de evaluación de Cadena de Pensamiento (CoT) en el habla. Los experimentos demuestran que el modelo propuesto alcanza un rendimiento de vanguardia en una variedad de tareas de habla con el mismo tamaño de modelo, exhibiendo capacidades robustas de generalización en la ejecución de tareas complejas utilizando el enfoque CoT. Además, nuestro modelo completa con éxito las tareas del Gaokao sin entrenamiento especializado. Los códigos, modelos, audios y el conjunto de evaluación del Gaokao pueden ser accedidos en aka.ms/wavllm.
Un documento visualmente rico (VRD, por sus siglas en inglés) utiliza características visuales junto con indicios lingüísticos para diseminar información. Entrenar un extractor personalizado que identifique entidades nombradas en un documento requiere un gran número de instancias del tipo de documento objetivo, anotadas en modalidades textuales y visuales. Esto representa un cuello de botella costoso en escenarios empresariales, donde se desea entrenar extractores personalizados para miles de tipos de documentos diferentes de manera escalable. Pre-entrenar un modelo extractor en instancias no etiquetadas del tipo de documento objetivo, seguido de un paso de ajuste fino en instancias etiquetadas por humanos, no funciona en estos escenarios, ya que supera el tiempo máximo de entrenamiento permitido asignado para el extractor. Abordamos este escenario proponiendo un método de Entrenamiento Consciente del Ruido o NAT (por sus siglas en inglés) en este artículo. En lugar de adquirir documentos costosos etiquetados por humanos, NAT utiliza documentos débilmente etiquetados para entrenar un extractor de manera escalable. Para evitar la degradación en la calidad del modelo debido a muestras ruidosas y débilmente etiquetadas, NAT estima la confianza de cada muestra de entrenamiento y la incorpora como medida de incertidumbre durante el entrenamiento. Entrenamos múltiples modelos extractores de última generación utilizando NAT. Los experimentos en varios conjuntos de datos disponibles públicamente y propios muestran que los modelos entrenados con NAT no solo son robustos en rendimiento —superan una línea base de transferencia de aprendizaje hasta en un 6% en términos de puntuación macro-F1—, sino que también son más eficientes en el uso de etiquetas —reducen la cantidad de esfuerzo humano requerido para obtener un rendimiento comparable hasta en un 73%.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en la comprensión y generación de texto, lo que ha impulsado esfuerzos de investigación hacia LLMs de video para facilitar la interacción humano-IA a nivel de video. Sin embargo, cómo codificar y comprender videos de manera efectiva en sistemas de diálogo basados en video sigue siendo un problema por resolver. En este artículo, investigamos una pregunta sencilla pero inexplorada: ¿Podemos alimentar todos los tokens espacio-temporales en el LLM, delegando así la tarea de modelado de secuencias de video a los LLMs? Sorprendentemente, este enfoque simple produce mejoras significativas en la comprensión de video. Basándonos en esto, proponemos ST-LLM, una línea base efectiva de LLM de video con modelado de secuencias espacio-temporales dentro del LLM. Además, para abordar los problemas de sobrecarga y estabilidad introducidos por los tokens de video no comprimidos dentro de los LLMs, desarrollamos una estrategia de enmascaramiento dinámico con objetivos de entrenamiento personalizados. Para videos particularmente largos, también hemos diseñado un módulo de entrada global-local para equilibrar la eficiencia y la efectividad. En consecuencia, aprovechamos el LLM para un modelado espacio-temporal competente, manteniendo la eficiencia y la estabilidad. Los resultados experimentales extensos atestiguan la efectividad de nuestro método. A través de un modelo y una canalización de entrenamiento más concisos, ST-LLM establece un nuevo estado del arte en VideoChatGPT-Bench y MVBench. Los códigos están disponibles en https://github.com/TencentARC/ST-LLM.