Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Informe Técnico de Qwen2-Audio
Qwen2-Audio Technical Report

Jul 15

ByYunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou

Presentamos el último avance de Qwen-Audio, un modelo de audio-idioma a gran escala llamado Qwen2-Audio, capaz de aceptar varios tipos de señales de audio y realizar análisis de audio o respuestas textuales directas con respecto a instrucciones verbales. En contraste con etiquetas jerárquicas complejas, hemos simplificado el proceso de pre-entrenamiento utilizando indicaciones de lenguaje natural para diferentes datos y tareas, y hemos ampliado aún más el volumen de datos. Hemos mejorado la capacidad de seguir instrucciones de Qwen2-Audio e implementado dos modos de interacción de audio distintos para chat de voz y análisis de audio. En el modo de chat de voz, los usuarios pueden interactuar libremente con Qwen2-Audio sin necesidad de introducir texto. En el modo de análisis de audio, los usuarios pueden proporcionar instrucciones de audio y texto para el análisis durante la interacción. Cabe destacar que no utilizamos ninguna indicación del sistema para cambiar entre los modos de chat de voz y análisis de audio. Qwen2-Audio es capaz de comprender inteligentemente el contenido dentro del audio y seguir comandos de voz para responder adecuadamente. Por ejemplo, en un segmento de audio que contiene simultáneamente sonidos, conversaciones de varios hablantes y un comando de voz, Qwen2-Audio puede entender directamente el comando y proporcionar una interpretación y respuesta al audio. Además, DPO ha optimizado el rendimiento del modelo en términos de veracidad y adherencia al comportamiento deseado. Según los resultados de evaluación de AIR-Bench, Qwen2-Audio superó a los anteriores SOTAs, como Gemini-1.5-pro, en pruebas centradas en las capacidades de seguimiento de instrucciones centradas en el audio. Qwen2-Audio es de código abierto con el objetivo de fomentar el avance de la comunidad de lenguaje multimodal.

NeedleBench: ¿Pueden los LLMs realizar recuperación y razonamiento en 1 millón de contextos?
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

Jul 16

ByMo Li, Songyang Zhang, Yunxin Liu, Kai Chen

Al evaluar las capacidades de largo contexto de los grandes modelos de lenguaje (LLMs), identificar contenido relevante para la consulta de un usuario a partir de documentos originales extensos es un requisito crucial para que cualquier LLM pueda responder preguntas basadas en texto extenso. Presentamos NeedleBench, un marco que consiste en una serie de tareas progresivamente más desafiantes para evaluar las capacidades bilingües de largo contexto, abarcando múltiples intervalos de longitud (4k, 8k, 32k, 128k, 200k, 1000k y más allá) y diferentes rangos de profundidad, permitiendo la inserción estratégica de puntos de datos críticos en diferentes zonas de profundidad de texto para probar rigurosamente las capacidades de recuperación y razonamiento de los modelos en contextos diversos. Utilizamos el marco NeedleBench para evaluar qué tan bien los principales modelos de código abierto pueden identificar información clave relevante para la pregunta y aplicar esa información al razonamiento en textos bilingües extensos. Además, proponemos el Desafío de Rastro Ancestral (ATC) para imitar la complejidad de desafíos de razonamiento lógico que probablemente estén presentes en tareas de largo contexto del mundo real, proporcionando un método sencillo para evaluar LLMs en el manejo de situaciones complejas de largo contexto. Nuestros resultados sugieren que los LLMs actuales tienen un amplio margen de mejora en aplicaciones prácticas de largo contexto, ya que tienen dificultades con la complejidad de desafíos de razonamiento lógico que probablemente estén presentes en tareas de largo contexto del mundo real. Todos los códigos y recursos están disponibles en OpenCompass: https://github.com/open-compass/opencompass.

Escalando Transformadores de Difusión a 16 Mil Millones de Parámetros
Scaling Diffusion Transformers to 16 Billion Parameters

Jul 16

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang

En este documento, presentamos DiT-MoE, una versión escasa del Transformer de difusión, que es escalable y competitiva con redes densas mientras exhibe una inferencia altamente optimizada. El DiT-MoE incluye dos diseños simples: enrutamiento de expertos compartidos y pérdida de equilibrio a nivel de experto, capturando así conocimientos comunes y reduciendo la redundancia entre los diferentes expertos enrutados. Cuando se aplica a la generación condicional de imágenes, un profundo análisis de las ganancias de especialización de los expertos revela algunas observaciones interesantes: (i) La selección de expertos muestra preferencia por la posición espacial y el paso de tiempo de eliminación de ruido, mientras es insensible a la información condicional de clase diferente; (ii) A medida que las capas MoE se vuelven más profundas, la selección de expertos se desplaza gradualmente desde una posición espacial específica hacia la dispersión y el equilibrio; (iii) La especialización de los expertos tiende a ser más concentrada en el paso de tiempo temprano y luego gradualmente uniforme después de la mitad. Lo atribuimos al proceso de difusión que primero modela la información espacial de baja frecuencia y luego la información compleja de alta frecuencia. Basándonos en las pautas anteriores, una serie de experimentos DiT-MoE logra experimentalmente un rendimiento similar al de las redes densas, pero requiere mucha menos carga computacional durante la inferencia. Más alentadoramente, demostramos el potencial de DiT-MoE con datos de imágenes sintetizadas, escalando el modelo de difusión a 16.5B parámetros que alcanza un nuevo puntaje FID-50K de SoTA de 1.80 en configuraciones de resolución de 512x512. La página del proyecto: https://github.com/feizc/DiT-MoE.

Ref-AVS: Referenciar y Segmentar Objetos en Escenas Audiovisuales
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Jul 15

ByYaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu

Las tareas tradicionales de segmentación de referencia han estado predominantemente centradas en escenas visuales silenciosas, descuidando el papel integral de la percepción multimodal y la interacción en las experiencias humanas. En este trabajo, introducimos una nueva tarea llamada Segmentación Audiovisual de Referencia (Ref-AVS), que busca segmentar objetos dentro del dominio visual basándose en expresiones que contienen señales multimodales. Tales expresiones se articulan en formas de lenguaje natural pero están enriquecidas con señales multimodales, incluyendo descripciones de audio y visual. Para facilitar esta investigación, construimos el primer conjunto de datos de referencia Ref-AVS, que proporciona anotaciones a nivel de píxel para objetos descritos en expresiones correspondientes a señales multimodales. Para abordar la tarea Ref-AVS, proponemos un nuevo método que utiliza adecuadamente las señales multimodales para ofrecer una guía de segmentación precisa. Finalmente, realizamos experimentos cuantitativos y cualitativos en tres subconjuntos de prueba para comparar nuestro enfoque con métodos existentes de tareas relacionadas. Los resultados demuestran la efectividad de nuestro método, resaltando su capacidad para segmentar objetos de manera precisa utilizando expresiones de señales multimodales. El conjunto de datos está disponible en https://gewu-lab.github.io/Ref-AVS.

Sibyl: Marco de Agente Simple pero Efectivo para el Razonamiento Complejo en el Mundo Real
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

Jul 15

ByYulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie

Los agentes existentes basados en grandes modelos de lenguaje (LLMs) demuestran capacidades sólidas de resolución de problemas al integrar el conocimiento inherente de los LLMs, su fuerte aprendizaje en contexto y capacidades de cero disparo, y el uso de herramientas combinadas con flujos de invocación de LLM diseñados intrincadamente por humanos. Sin embargo, estos agentes aún presentan deficiencias en el razonamiento a largo plazo y subutilizan el potencial de las herramientas existentes, lo que conduce a deficiencias notables en escenarios de razonamiento del mundo real complejos. Para abordar estas limitaciones, presentamos Sibyl, un marco de agente basado en LLM simple pero potente diseñado para abordar tareas de razonamiento complejas al aprovechar eficientemente un conjunto mínimo de herramientas. Inspirándose en la Teoría del Espacio de Trabajo Global, Sibyl incorpora un espacio de trabajo global para mejorar la gestión y compartición de conocimiento e historial de conversaciones en todo el sistema. Además, guiado por la Teoría de la Sociedad de la Mente, Sibyl implementa un jurado basado en debates de múltiples agentes para auto-refinar las respuestas finales, garantizando un enfoque integral y equilibrado. Este enfoque tiene como objetivo reducir la complejidad del sistema mientras amplía el alcance de los problemas resolubles, desde asuntos típicamente resueltos por humanos en minutos hasta aquellos que requieren horas o incluso días, facilitando así un cambio de pensamiento del Sistema-1 al Sistema-2. Sibyl ha sido diseñado con un enfoque en escalabilidad y facilidad de depuración al incorporar el concepto de reentrancia de la programación funcional desde su inicio, con el objetivo de una integración sin problemas y de bajo esfuerzo en otras aplicaciones de LLM para mejorar las capacidades. Nuestros resultados experimentales en el conjunto de pruebas de referencia GAIA revelan que el agente Sibyl instanciado con GPT-4 logra un rendimiento de vanguardia con una puntuación promedio del 34.55%, en comparación con otros agentes basados en GPT-4. Esperamos que Sibyl pueda inspirar soluciones de agentes basados en LLM más confiables y reutilizables para abordar tareas complejas de razonamiento del mundo real.

VLMEvalKit: Un conjunto de herramientas de código abierto para evaluar modelos de gran escala de múltiples modalidades.
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

Jul 16

ByHaodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen

Presentamos VLMEvalKit: un conjunto de herramientas de código abierto para evaluar modelos de gran tamaño de múltiples modalidades basados en PyTorch. El objetivo de este conjunto de herramientas es proporcionar un marco completo y fácil de usar para que investigadores y desarrolladores evalúen modelos de múltiples modalidades existentes y publiquen resultados de evaluación reproducibles. En VLMEvalKit, implementamos más de 70 modelos de gran tamaño de diferentes modalidades, que incluyen tanto APIs propietarias como modelos de código abierto, así como más de 20 benchmarks de múltiples modalidades diferentes. Al implementar una única interfaz, nuevos modelos pueden ser fácilmente añadidos al conjunto de herramientas, mientras que este maneja automáticamente las demás cargas de trabajo, incluyendo la preparación de datos, inferencia distribuida, post-procesamiento de predicciones y cálculo de métricas. Aunque actualmente el conjunto de herramientas se utiliza principalmente para evaluar grandes modelos de visión-lenguaje, su diseño es compatible con futuras actualizaciones que incorporen modalidades adicionales, como audio y video. Basándonos en los resultados de evaluación obtenidos con el conjunto de herramientas, alojamos OpenVLM Leaderboard, un completo tablero para seguir el progreso de la investigación en aprendizaje de múltiples modalidades. El conjunto de herramientas se encuentra disponible en https://github.com/open-compass/VLMEvalKit y se mantiene activamente.

DreamCatalyst: Edición 3D rápida y de alta calidad a través del control de la editabilidad y preservación de la identidad.
DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation

Jul 16

ByJiwook Kim, Seonho Lee, Jaeyo Shin, Jiho Choi, Hyunjung Shim

La muestreo de destilación de puntuación (SDS) ha surgido como un marco efectivo en tareas de edición 3D impulsadas por texto debido a su inherente consistencia 3D. Sin embargo, los métodos de edición 3D basados en SDS existentes sufren de un extenso tiempo de entrenamiento y conducen a resultados de baja calidad, principalmente porque estos métodos se desvían de la dinámica de muestreo de los modelos de difusión. En este documento, proponemos DreamCatalyst, un marco novedoso que interpreta la edición basada en SDS como un proceso de difusión inversa. Nuestra función objetivo considera la dinámica de muestreo, haciendo que el proceso de optimización de DreamCatalyst sea una aproximación del proceso de difusión inversa en tareas de edición. DreamCatalyst tiene como objetivo reducir el tiempo de entrenamiento y mejorar la calidad de edición. DreamCatalyst presenta dos modos: (1) un modo más rápido, que edita la escena NeRF en solo unos 25 minutos, y (2) un modo de alta calidad, que produce resultados superiores en menos de 70 minutos. Específicamente, nuestro modo de alta calidad supera a los métodos de edición NeRF de vanguardia actuales tanto en velocidad como en calidad. Consulte resultados más extensos en nuestra página del proyecto: https://dream-catalyst.github.io.

YouTube-SL-25: Un corpus paralelo de lenguaje de señas multilingüe a gran escala de dominio abierto.
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

Jul 15

ByGarrett Tanzer, Biao Zhang

Incluso para lenguas de señas más estudiadas como la Lengua de Señas Americana (ASL), los datos representan el cuello de botella para la investigación en aprendizaje automático. La situación es aún peor para las muchas otras lenguas de señas utilizadas por las comunidades sordas / con problemas de audición en todo el mundo. En este documento, presentamos YouTube-SL-25, un corpus multilingüe de gran escala y dominio abierto de videos de lenguaje de señas con subtítulos aparentemente bien alineados extraídos de YouTube. Con >3000 horas de videos en >25 lenguas de señas, YouTube-SL-25 es a) >3 veces más grande que YouTube-ASL, b) el conjunto de datos paralelo de lenguaje de señas más grande hasta la fecha, y c) el primer o el conjunto de datos paralelo más grande para muchas de sus lenguas componentes. Proporcionamos líneas de base para tareas de signos a texto utilizando un modelo unificado multilingüe basado en T5 y reportamos puntuaciones en pruebas en 4 lenguas de señas. Los resultados demuestran que la transferencia multilingüe beneficia tanto a las lenguas de señas con más recursos como a las de menor recursos dentro de YouTube-SL-25.

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion

Jul 16

ByYanqin Jiang, Chaohui Yu, Chenjie Cao, Fan Wang, Weiming Hu, Jin Gao

Recent advances in 4D generation mainly focus on generating 4D content by distilling pre-trained text or single-view image-conditioned models. It is inconvenient for them to take advantage of various off-the-shelf 3D assets with multi-view attributes, and their results suffer from spatiotemporal inconsistency owing to the inherent ambiguity in the supervision signals. In this work, we present Animate3D, a novel framework for animating any static 3D model. The core idea is two-fold: 1) We propose a novel multi-view video diffusion model (MV-VDM) conditioned on multi-view renderings of the static 3D object, which is trained on our presented large-scale multi-view video dataset (MV-Video). 2) Based on MV-VDM, we introduce a framework combining reconstruction and 4D Score Distillation Sampling (4D-SDS) to leverage the multi-view video diffusion priors for animating 3D objects. Specifically, for MV-VDM, we design a new spatiotemporal attention module to enhance spatial and temporal consistency by integrating 3D and video diffusion models. Additionally, we leverage the static 3D model's multi-view renderings as conditions to preserve its identity. For animating 3D models, an effective two-stage pipeline is proposed: we first reconstruct motions directly from generated multi-view videos, followed by the introduced 4D-SDS to refine both appearance and motion. Qualitative and quantitative experiments demonstrate that Animate3D significantly outperforms previous approaches. Data, code, and models will be open-released.

EfficientQAT: Entrenamiento Eficiente Consciente de la Cuantización para Modelos de Lenguaje Grandes
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Jul 10

ByMengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo

Los modelos de lenguaje grandes (LLMs) son fundamentales para el procesamiento de lenguaje natural y la inteligencia artificial moderna. Sin embargo, enfrentan desafíos en la gestión de sus significativos requisitos de memoria. Aunque el entrenamiento consciente de la cuantización (QAT) ofrece una solución al reducir el consumo de memoria a través de representaciones de bajo bit con pérdida mínima de precisión, requiere recursos de entrenamiento sustanciales para optimizar los pesos del modelo y los parámetros de cuantización. Para abordar esto, proponemos el Entrenamiento Consciente de la Cuantización Eficiente (EfficientQAT), una técnica novedosa de cuantización para comprimir LLMs. EfficientQAT involucra dos fases consecutivas: Entrenamiento por Bloques de todos los parámetros (Block-AP) y entrenamiento de extremo a extremo de los parámetros de cuantización (E2E-QP). Block-AP lleva a cabo de manera secuencial un entrenamiento consciente de la cuantización para todos los parámetros en cada bloque transformador con reconstrucción por bloques, manteniendo la eficiencia al evitar entrenar el LLM completo. Inicializado con un modelo cuantizado, E2E-QP luego entrena solo los parámetros de cuantización (tamaños de paso) de extremo a extremo, mejorando la eficiencia con una estructura fija cuantizada y un recuento reducido de parámetros entrenables. Experimentos extensos demuestran que EfficientQAT supera a métodos de cuantización previos en una variedad de modelos, incluidos LLMs base, LLMs ajustados a instrucciones y LLMs multimodales, con escalas de 7B a 70B parámetros en diferentes bits de cuantización. Por ejemplo, EfficientQAT obtiene un modelo Llama-2-70B de 2 bits en una sola GPU A100-80GB en 41 horas, con una degradación de precisión de menos del 3\% en comparación con la precisión total (69.48 vs. 72.41). Notablemente, este modelo cuantizado INT2 de 70B obtiene una ganancia de precisión de 1.67 sobre el modelo Llama-2-13B (69.48 vs. 67.81) mientras requiere menos memoria (19.2GB vs. 24.2GB). El código está disponible en https://github.com/OpenGVLab/EfficientQAT.

FIRE: Un conjunto de datos para la integración de retroalimentación y evaluación de refinamiento de modelos multimodales.
FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

Jul 16

ByPengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li

Los modelos de lenguaje visual (VLMs) han logrado un progreso impresionante en diversas aplicaciones, convirtiéndose en una dirección de investigación prevalente. En este documento, construimos FIRE, un conjunto de datos de retroalimentación y refinamiento, que consta de 1.1 millones de conversaciones de múltiples turnos derivadas de 27 conjuntos de datos fuente, potenciando a los VLMs para refinar espontáneamente sus respuestas basadas en la retroalimentación del usuario en diversas tareas. Para ampliar la recopilación de datos, FIRE se recopila en dos componentes: FIRE-100K y FIRE-1M, donde FIRE-100K es generado por GPT-4V, y FIRE-1M se genera libremente a través de modelos entrenados en FIRE-100K. Luego, construimos FIRE-Bench, un banco de pruebas para evaluar exhaustivamente la capacidad de refinamiento de retroalimentación de los VLMs, que contiene 11 mil conversaciones de retroalimentación y refinamiento como datos de prueba, dos configuraciones de evaluación y un modelo para proporcionar retroalimentación a los VLMs. Desarrollamos el modelo FIRE-LLaVA mediante el ajuste fino de LLaVA en FIRE-100K y FIRE-1M, que muestra una notable capacidad de refinamiento de retroalimentación en FIRE-Bench y supera a los VLMs no entrenados en un 50%, logrando interacciones más eficientes entre el usuario y el agente y subrayando la importancia del conjunto de datos FIRE.

Entrenamiento Eficiente con Pesos Neuronales Des ruidizados
Efficient Training with Denoised Neural Weights

Jul 16

ByYifan Gong, Zheng Zhan, Yanyu Li, Yerlan Idelbayev, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren

Una buena inicialización de pesos sirve como una medida efectiva para reducir el costo de entrenamiento de un modelo de red neuronal profunda (DNN, por sus siglas en inglés). La elección de cómo inicializar los parámetros es un desafío y puede requerir ajustes manuales, lo cual puede ser consumidor de tiempo y propenso a errores humanos. Para superar tales limitaciones, este trabajo da un paso novedoso hacia la construcción de un generador de pesos para sintetizar los pesos neuronales para la inicialización. Utilizamos la tarea de traducción de imagen a imagen con redes generativas adversarias (GANs) como ejemplo debido a la facilidad de recolectar pesos de modelos que abarcan un amplio rango. Específicamente, primero recopilamos un conjunto de datos con varios conceptos de edición de imágenes y sus pesos entrenados correspondientes, los cuales son posteriormente utilizados para el entrenamiento del generador de pesos. Para abordar las diferentes características entre capas y la cantidad sustancial de pesos a predecir, dividimos los pesos en bloques de tamaño igual y asignamos a cada bloque un índice. Posteriormente, se entrena un modelo de difusión con dicho conjunto de datos utilizando tanto condiciones de texto del concepto como los índices de bloque. Al inicializar el modelo de traducción de imágenes con los pesos desenruidos predichos por nuestro modelo de difusión, el entrenamiento requiere solo 43.3 segundos. En comparación con el entrenamiento desde cero (es decir, Pix2pix), logramos una aceleración de tiempo de entrenamiento de 15 veces para un nuevo concepto mientras obtenemos una calidad de generación de imágenes aún mejor.

De GaLore a WeLore: Cómo los pesos de baja jerarquía emergen de forma no uniforme a partir de gradientes de baja jerarquía.
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

Jul 15

ByAjay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang

Los Modelos de Lenguaje Grandes Modernos (LLMs, por sus siglas en inglés) están compuestos por matrices con miles de millones de elementos, lo que hace que su almacenamiento y procesamiento sean bastante exigentes en términos de recursos computacionales y uso de memoria. Dado su considerable tamaño, estas matrices a menudo pueden expresarse en un formato de rango bajo con el potencial de reducir los requisitos de recursos. A diferencia de trabajos anteriores que se centran en el desarrollo de algoritmos novedosos de descomposición de matrices, en este trabajo primero estudiamos la aparición de estructuras de rango bajo en matrices dentro de diferentes capas de LLMs y establecemos una relación consecuente entre la dinámica del gradiente y la expresividad emergente de rango bajo de las matrices. Nuestros hallazgos revelan que diferentes capas muestran niveles variables de estructuras de rango bajo convergentes, lo que hace necesario realizar una reducción de rango no uniforme en ellas para minimizar la disminución del rendimiento debido a la compresión. En vista de ello, presentamos la Proyección de Bajo Rango de Pesos (WeLore) que unifica la compresión de pesos y el ajuste fino eficiente en memoria como UNO, de manera agnóstica a los datos y en un solo paso. WeLore capitaliza la distribución de colas pesadas de valores singulares para identificar una proporción adecuada de reducción de rango para las matrices dentro de LLMs. Yendo más allá de ser solo una técnica de compresión, WeLore categoriza las matrices de pesos en Componentes de Bajo Rango (LRCs) y Componentes No de Bajo Rango (N-LRCs) según su capacidad de expresarse como de bajo rango. Nuestra perspectiva del gradiente y experimentos extensos ilustran que los LRCs tienden a tener mejores capacidades de ajuste fino y pueden imitar de cerca (a veces superar) la trayectoria de pérdida de entrenamiento y el rendimiento de un ajuste fino completo con una notable reducción de la huella de memoria y cálculo. Por ejemplo, el ajuste fino de un modelo LLaMa-27B comprimido al 50\% utilizando solo una fracción de parámetros en LRCs (WeLore) puede superar su ajuste fino completo con una mejora de ~3 veces en la velocidad y un requisito de GPU de ~0.6 veces. Nuestros códigos están disponibles en https://github.com/VITA-Group/welore

OmniBind: Representación multimodal omni a gran escala a través de espacios de unión
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

Jul 16

ByZehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao

Recientemente, la interacción humano-computadora con diversas modalidades ha mostrado aplicaciones prometedoras, como GPT-4o y Gemini. Dada la función fundamental de la representación conjunta multimodal en los procesos de comprensión y generación, las representaciones conjuntas omni de alta calidad serían un paso hacia el procesamiento conjunto de información multimodal más diversa. En este trabajo, presentamos OmniBind, modelos de representación conjunta multimodal a gran escala que van desde 7 mil millones hasta 30 mil millones de parámetros, que admiten entradas en 3D, audio, imagen y lenguaje. Debido a la escasez de pares de datos en todas las modalidades, en lugar de entrenar grandes modelos desde cero, proponemos remapear y unir los espacios de varios modelos especializados pre-entrenados. Este enfoque permite "escalar" aumentando indirectamente los parámetros del modelo y la cantidad de datos vistos. Para integrar eficazmente varios espacios, asignamos dinámicamente pesos a diferentes espacios mediante el aprendizaje de enrutadores con dos objetivos: alineación general entre modalidades y desacoplamiento de la representación del lenguaje. Es importante destacar que, dado que tanto la unión como el enrutamiento de espacios solo requieren redes ligeras, OmniBind es extremadamente eficiente en el entrenamiento. Aprender el modelo más grande de 30B solo requiere datos unimodales no emparejados y aproximadamente 3 días en un solo nodo 8-4090. Experimentos extensos demuestran la versatilidad y superioridad de OmniBind como modelo de representación omni, resaltando su gran potencial para diversas aplicaciones, como consultas de cualquier tipo y comprensión multimodal componible.

Agarre de Objetos Diversos con Humanoides Simulados
Grasping Diverse Objects with Simulated Humanoids

Jul 16

ByZhengyi Luo, Jinkun Cao, Sammy Christen, Alexander Winkler, Kris Kitani, Weipeng Xu

Presentamos un método para controlar un humanoide simulado para agarrar un objeto y moverlo siguiendo una trayectoria de objeto. Debido a los desafíos en el control de un humanoide con manos diestras, los métodos previos a menudo utilizan una mano desencarnada y solo consideran elevaciones verticales o trayectorias cortas. Este alcance limitado obstaculiza su aplicabilidad para la manipulación de objetos requerida para la animación y simulación. Para cerrar esta brecha, aprendemos un controlador que puede recoger una gran cantidad (>1200) de objetos y llevarlos a seguir trayectorias generadas aleatoriamente. Nuestra idea clave es aprovechar una representación de movimiento humanoide que proporciona habilidades motoras similares a las humanas y acelera significativamente el entrenamiento. Utilizando solo recompensas, estados y representaciones de objetos simplistas, nuestro método muestra una escalabilidad favorable en diversos objetos y trayectorias. Para el entrenamiento, no necesitamos un conjunto de datos de movimientos de cuerpo completo emparejados y trayectorias de objetos. En el momento de la prueba, solo requerimos la malla del objeto y las trayectorias deseadas para agarrar y transportar. Para demostrar las capacidades de nuestro método, mostramos tasas de éxito de vanguardia en el seguimiento de trayectorias de objetos y en la generalización a objetos no vistos. El código y los modelos serán publicados.

Data-Juicer Sandbox: Un conjunto integral para el desarrollo conjunto de datos y modelos multimodales
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

Jul 16

ByDaoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou

La aparición de modelos generativos multi-modales a gran escala ha avanzado drásticamente la inteligencia artificial, introduciendo niveles sin precedentes de rendimiento y funcionalidad. Sin embargo, la optimización de estos modelos sigue siendo un desafío debido a los históricos caminos aislados de desarrollo centrados en el modelo y en los datos, lo que conduce a resultados subóptimos y a una utilización ineficiente de recursos. En respuesta, presentamos una nueva suite de pruebas adaptada para el desarrollo integrado de datos y modelos. Esta suite proporciona una plataforma experimental integral, que permite una rápida iteración y un refinamiento impulsado por la percepción tanto de los datos como de los modelos. Nuestro flujo de trabajo propuesto "Sondear-Analizar-Refinar", validado a través de aplicaciones en modelos basados en LLaVA y DiT de última generación, produce mejoras significativas en el rendimiento, como liderar la tabla de clasificación de VBench. También descubrimos ideas fructíferas obtenidas de exhaustivas pruebas, arrojando luz sobre la interacción crítica entre la calidad de los datos, la diversidad y el comportamiento del modelo. Con la esperanza de fomentar una comprensión más profunda y un progreso futuro en datos multi-modales y modelado generativo, nuestros códigos, conjuntos de datos y modelos se mantienen y son accesibles en https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.

Vibravox: un conjunto de datos de habla en francés capturado con sensores de audio de conducción corporal.
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

Jul 16

ByJulien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu

Vibravox es un conjunto de datos que cumple con el Reglamento General de Protección de Datos (GDPR) que contiene grabaciones de audio utilizando cinco sensores de audio de conducción corporal diferentes: dos micrófonos intrauriculares, dos captadores de vibración de conducción ósea y un laringófono. El conjunto de datos también incluye datos de audio de un micrófono aéreo utilizado como referencia. El corpus de Vibravox contiene 38 horas de muestras de voz y sonidos fisiológicos grabados por 188 participantes bajo diferentes condiciones acústicas impuestas por un espacializador 3D de ambisonics de alto orden. Las anotaciones sobre las condiciones de grabación y transcripciones lingüísticas también se incluyen en el corpus. Realizamos una serie de experimentos en diversas tareas relacionadas con el habla, incluyendo reconocimiento de voz, mejora del habla y verificación de locutor. Estos experimentos se llevaron a cabo utilizando modelos de vanguardia para evaluar y comparar sus rendimientos en señales capturadas por los diferentes sensores de audio ofrecidos por el conjunto de datos de Vibravox, con el objetivo de comprender mejor sus características individuales.

Click-Gaussiano: Segmentación Interactiva hacia Cualquier Gaussiana 3D
Click-Gaussian: Interactive Segmentation to Any 3D Gaussians

Jul 16

BySeokhun Choi, Hyeonseop Song, Jaechul Kim, Taehyeong Kim, Hoseok Do

La segmentación interactiva de Gaussianas 3D abre una gran oportunidad para la manipulación en tiempo real de escenas 3D gracias a la capacidad de renderizado en tiempo real del Splatting Gaussiano 3D. Sin embargo, los métodos actuales sufren de un postprocesamiento que consume tiempo para lidiar con la salida de segmentación ruidosa. Además, tienen dificultades para proporcionar una segmentación detallada, lo cual es importante para la manipulación detallada de escenas 3D. En este estudio, proponemos Click-Gaussiano, el cual aprende campos de características distinguibles de dos niveles de granularidad, facilitando la segmentación sin un postprocesamiento que consuma tiempo. Profundizamos en los desafíos que surgen de campos de características aprendidos de manera inconsistente, resultado de una segmentación 2D obtenida de forma independiente de una escena 3D. La precisión de la segmentación 3D se deteriora cuando los resultados de segmentación 2D a través de las vistas, claves principales para la segmentación 3D, entran en conflicto. Para superar estos problemas, proponemos Aprendizaje Guiado por Características Globales (GFL). GFL construye los clústeres de candidatos de características globales a partir de segmentos 2D ruidosos a través de las vistas, lo que suaviza los ruidos al entrenar las características de las Gaussianas 3D. Nuestro método se ejecuta en 10 ms por clic, de 15 a 130 veces más rápido que los métodos anteriores, al tiempo que mejora significativamente la precisión de la segmentación. Nuestra página de proyecto está disponible en https://seokhunchoi.github.io/Click-Gaussian

La Incertidumbre es Frágil: Manipulando la Incertidumbre en Modelos de Lenguaje Grandes
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

Jul 15

ByQingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang

Los Modelos de Lenguaje de Gran Tamaño (LLMs) se emplean en diversos ámbitos de alto riesgo, donde la fiabilidad de sus resultados es crucial. Un método comúnmente utilizado para evaluar la fiabilidad de las respuestas de los LLMs es la estimación de incertidumbre, que mide la probabilidad de que sus respuestas sean correctas. Mientras que muchos estudios se centran en mejorar la precisión de las estimaciones de incertidumbre para los LLMs, nuestra investigación examina la fragilidad de la estimación de incertidumbre y explora posibles ataques. Demostramos que un atacante puede incrustar un backdoor en los LLMs, que, al activarse por un desencadenante específico en la entrada, manipula la incertidumbre del modelo sin afectar la salida final. Específicamente, el método de ataque de backdoor propuesto puede alterar la distribución de probabilidad de salida de un LLM, haciendo que la distribución de probabilidad converja hacia una distribución predefinida por el atacante mientras se asegura de que la predicción principal (top-1) permanezca inalterada. Nuestros resultados experimentales demuestran que este ataque socava efectivamente la fiabilidad de autoevaluación del modelo en preguntas de opción múltiple. Por ejemplo, logramos una tasa de éxito de ataque del 100% (ASR) a través de tres estrategias de activación diferentes en cuatro modelos. Además, investigamos si esta manipulación se generaliza a través de diferentes estímulos y dominios. Este trabajo destaca una amenaza significativa para la fiabilidad de los LLMs y subraya la necesidad de futuras defensas contra tales ataques. El código está disponible en https://github.com/qcznlp/uncertainty_attack.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Informe Técnico de Qwen2-Audio
Qwen2-Audio Technical Report

Jul 15

ByYunfei Chu, Jin Xu, Qian Yang, Haojie Wei, Xipin Wei, Zhifang Guo, Yichong Leng, Yuanjun Lv, Jinzheng He, Junyang Lin, Chang Zhou, Jingren Zhou

NeedleBench: ¿Pueden los LLMs realizar recuperación y razonamiento en 1 millón de contextos?
NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

Jul 16

ByMo Li, Songyang Zhang, Yunxin Liu, Kai Chen

Escalando Transformadores de Difusión a 16 Mil Millones de Parámetros
Scaling Diffusion Transformers to 16 Billion Parameters

Jul 16

ByZhengcong Fei, Mingyuan Fan, Changqian Yu, Debang Li, Junshi Huang

Ref-AVS: Referenciar y Segmentar Objetos en Escenas Audiovisuales
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Jul 15

ByYaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu

Sibyl: Marco de Agente Simple pero Efectivo para el Razonamiento Complejo en el Mundo Real
Sibyl: Simple yet Effective Agent Framework for Complex Real-world Reasoning

Jul 15

ByYulong Wang, Tianhao Shen, Lifeng Liu, Jian Xie

VLMEvalKit: Un conjunto de herramientas de código abierto para evaluar modelos de gran escala de múltiples modalidades.
VLMEvalKit: An Open-Source Toolkit for Evaluating Large Multi-Modality Models

Jul 16

ByHaodong Duan, Junming Yang, Yuxuan Qiao, Xinyu Fang, Lin Chen, Yuan Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Jiaqi Wang, Dahua Lin, Kai Chen

DreamCatalyst: Edición 3D rápida y de alta calidad a través del control de la editabilidad y preservación de la identidad.
DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation

Jul 16

ByJiwook Kim, Seonho Lee, Jaeyo Shin, Jiho Choi, Hyunjung Shim

YouTube-SL-25: Un corpus paralelo de lenguaje de señas multilingüe a gran escala de dominio abierto.
YouTube-SL-25: A Large-Scale, Open-Domain Multilingual Sign Language Parallel Corpus

Jul 15

ByGarrett Tanzer, Biao Zhang

Animate3D: Animating Any 3D Model with Multi-view Video Diffusion

Jul 16

ByYanqin Jiang, Chaohui Yu, Chenjie Cao, Fan Wang, Weiming Hu, Jin Gao

EfficientQAT: Entrenamiento Eficiente Consciente de la Cuantización para Modelos de Lenguaje Grandes
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models

Jul 10

ByMengzhao Chen, Wenqi Shao, Peng Xu, Jiahao Wang, Peng Gao, Kaipeng Zhang, Yu Qiao, Ping Luo

FIRE: Un conjunto de datos para la integración de retroalimentación y evaluación de refinamiento de modelos multimodales.
FIRE: A Dataset for Feedback Integration and Refinement Evaluation of Multimodal Models

Jul 16

ByPengxiang Li, Zhi Gao, Bofei Zhang, Tao Yuan, Yuwei Wu, Mehrtash Harandi, Yunde Jia, Song-Chun Zhu, Qing Li

Entrenamiento Eficiente con Pesos Neuronales Des ruidizados
Efficient Training with Denoised Neural Weights

Jul 16

ByYifan Gong, Zheng Zhan, Yanyu Li, Yerlan Idelbayev, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren

De GaLore a WeLore: Cómo los pesos de baja jerarquía emergen de forma no uniforme a partir de gradientes de baja jerarquía.
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

Jul 15

ByAjay Jaiswal, Lu Yin, Zhenyu Zhang, Shiwei Liu, Jiawei Zhao, Yuandong Tian, Zhangyang Wang

OmniBind: Representación multimodal omni a gran escala a través de espacios de unión
OmniBind: Large-scale Omni Multimodal Representation via Binding Spaces

Jul 16

ByZehan Wang, Ziang Zhang, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Hengshuang Zhao, Zhou Zhao

Agarre de Objetos Diversos con Humanoides Simulados
Grasping Diverse Objects with Simulated Humanoids

Jul 16

ByZhengyi Luo, Jinkun Cao, Sammy Christen, Alexander Winkler, Kris Kitani, Weipeng Xu

Data-Juicer Sandbox: Un conjunto integral para el desarrollo conjunto de datos y modelos multimodales
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development

Jul 16

ByDaoyuan Chen, Haibin Wang, Yilun Huang, Ce Ge, Yaliang Li, Bolin Ding, Jingren Zhou

Vibravox: un conjunto de datos de habla en francés capturado con sensores de audio de conducción corporal.
Vibravox: A Dataset of French Speech Captured with Body-conduction Audio Sensors

Jul 16

ByJulien Hauret, Malo Olivier, Thomas Joubaud, Christophe Langrenne, Sarah Poirée, Véronique Zimpfer, Éric Bavu

Click-Gaussiano: Segmentación Interactiva hacia Cualquier Gaussiana 3D
Click-Gaussian: Interactive Segmentation to Any 3D Gaussians

Jul 16

BySeokhun Choi, Hyeonseop Song, Jaechul Kim, Taehyeong Kim, Hoseok Do

La Incertidumbre es Frágil: Manipulando la Incertidumbre en Modelos de Lenguaje Grandes
Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models

Jul 15

ByQingcheng Zeng, Mingyu Jin, Qinkai Yu, Zhenting Wang, Wenyue Hua, Zihao Zhou, Guangyan Sun, Yanda Meng, Shiqing Ma, Qifan Wang, Felix Juefei-Xu, Kaize Ding, Fan Yang, Ruixiang Tang, Yongfeng Zhang