HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

17 papers found

BLIP3-o: Una Familia de Modelos Multimodales Unificados Completamente Abiertos - Arquitectura, Entrenamiento y Conjunto de Datos
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

May 14

ByJiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu

La unificación de la comprensión y generación de imágenes ha ganado creciente atención en investigaciones recientes sobre modelos multimodales. Aunque las decisiones de diseño para la comprensión de imágenes han sido ampliamente estudiadas, la arquitectura óptima del modelo y la receta de entrenamiento para un marco unificado con generación de imágenes siguen siendo poco exploradas. Motivados por el fuerte potencial de los modelos autoregresivos y de difusión para la generación de alta calidad y escalabilidad, realizamos un estudio exhaustivo de su uso en entornos multimodales unificados, con énfasis en las representaciones de imágenes, los objetivos de modelado y las estrategias de entrenamiento. Basados en estas investigaciones, introducimos un enfoque novedoso que emplea un transformador de difusión para generar características de imágenes CLIP semánticamente ricas, en contraste con las representaciones convencionales basadas en VAE. Este diseño ofrece tanto una mayor eficiencia en el entrenamiento como una calidad generativa mejorada. Además, demostramos que una estrategia de preentrenamiento secuencial para modelos unificados—primero entrenando en comprensión de imágenes y posteriormente en generación de imágenes—ofrece ventajas prácticas al preservar la capacidad de comprensión de imágenes mientras se desarrolla una fuerte habilidad de generación de imágenes. Finalmente, seleccionamos cuidadosamente un conjunto de datos de ajuste por instrucciones de alta calidad, BLIP3o-60k, para la generación de imágenes, utilizando GPT-4o con un conjunto diverso de descripciones que cubren varias escenas, objetos, gestos humanos y más. Basándonos en nuestro diseño innovador de modelo, receta de entrenamiento y conjuntos de datos, desarrollamos BLIP3-o, una suite de modelos multimodales unificados de última generación. BLIP3-o logra un rendimiento superior en la mayoría de los benchmarks populares que abarcan tanto tareas de comprensión como de generación de imágenes. Para facilitar futuras investigaciones, liberamos completamente nuestros modelos, incluyendo código, pesos del modelo, scripts de entrenamiento, y conjuntos de datos de preentrenamiento y ajuste por instrucciones.

Perspectivas sobre DeepSeek-V3: Desafíos de Escalabilidad y Reflexiones sobre el Hardware para Arquitecturas de IA
Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

May 14

ByChenggang Zhao, Chengqi Deng, Chong Ruan, Damai Dai, Huazuo Gao, Jiashi Li, Liyue Zhang, Panpan Huang, Shangyan Zhou, Shirong Ma, Wenfeng Liang, Ying He, Yuqing Wang, Yuxuan Liu, Y. X. Wei

El rápido escalamiento de los modelos de lenguaje de gran escala (LLMs) ha revelado limitaciones críticas en las arquitecturas de hardware actuales, incluyendo restricciones en la capacidad de memoria, la eficiencia computacional y el ancho de banda de interconexión. DeepSeek-V3, entrenado en 2,048 GPUs NVIDIA H800, demuestra cómo el co-diseño de modelos consciente del hardware puede abordar efectivamente estos desafíos, permitiendo un entrenamiento e inferencia rentables a gran escala. Este artículo presenta un análisis en profundidad de la arquitectura del modelo DeepSeek-V3/R1 y su infraestructura de IA, destacando innovaciones clave como la Atención Latente Multi-Cabezal (MLA) para mejorar la eficiencia de memoria, arquitecturas de Mezcla de Expertos (MoE) para optimizar los equilibrios entre computación y comunicación, entrenamiento de precisión mixta FP8 para aprovechar al máximo las capacidades del hardware, y una Topología de Red Multi-Plano para minimizar la sobrecarga de red a nivel de clúster. Basándonos en los cuellos de botella de hardware encontrados durante el desarrollo de DeepSeek-V3, entablamos una discusión más amplia con colegas académicos e industriales sobre posibles direcciones futuras del hardware, incluyendo unidades de computación de baja precisión precisas, convergencia de escalamiento vertical y horizontal, e innovaciones en tejidos de comunicación de baja latencia. Estas ideas subrayan el papel crítico del co-diseño de hardware y modelos para satisfacer las crecientes demandas de las cargas de trabajo de IA, ofreciendo un plan práctico para la innovación en los sistemas de IA de próxima generación.

MathCoder-VL: Conectando visión y código para mejorar el razonamiento matemático multimodal
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning

May 15

ByKe Wang, Junting Pan, Linda Wei, Aojun Zhou, Weikang Shi, Zimu Lu, Han Xiao, Yunqiao Yang, Houxing Ren, Mingjie Zhan, Hongsheng Li

Los conjuntos de datos de imágenes con subtítulos en lenguaje natural, ampliamente utilizados para entrenar Modelos Multimodales de Gran Escala, se centran principalmente en escenarios naturales y pasan por alto los detalles intrincados de las figuras matemáticas que son cruciales para la resolución de problemas, lo que obstaculiza el avance de los modelos actuales en el razonamiento matemático multimodal. Para abordar esto, proponemos utilizar el código como supervisión para la alineación multimodal, ya que el código codifica inherentemente toda la información necesaria para generar las figuras correspondientes, estableciendo una conexión precisa entre las dos modalidades. Específicamente, desarrollamos conjuntamente nuestro modelo de imagen a código y el conjunto de datos con un enfoque de modelo en el bucle, resultando en un modelo de imagen a código, FigCodifier, y el conjunto de datos ImgCode-8.6M, el mayor conjunto de datos de imagen-código hasta la fecha. Además, utilizamos FigCodifier para sintetizar nuevas figuras matemáticas y luego construimos MM-MathInstruct-3M, un conjunto de datos de ajuste fino de instrucciones matemáticas multimodales de alta calidad. Finalmente, presentamos MathCoder-VL, entrenado con ImgCode-8.6M para la alineación multimodal y posteriormente ajustado en MM-MathInstruct-3M para la resolución de problemas matemáticos multimodales. Nuestro modelo alcanza un nuevo estado del arte de código abierto en las seis métricas evaluadas. Notablemente, supera a GPT-4o y Claude 3.5 Sonnet en el subconjunto de resolución de problemas de geometría de MathVista, logrando mejoras del 8.9% y 9.2%, respectivamente. Los conjuntos de datos y modelos serán liberados en https://github.com/mathllm/MathCoder.

DeCLIP: Aprendizaje Desacoplado para la Percepción Densa de Vocabulario Abierto
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception

May 7

ByJunjie Wang, Bin Chen, Yulin Li, Bin Kang, Yichi Chen, Zhuotao Tian

Las tareas de predicción visual densa se han visto limitadas por su dependencia de categorías predefinidas, lo que restringe su aplicabilidad en escenarios del mundo real donde los conceptos visuales son ilimitados. Aunque los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) como CLIP han mostrado potencial en tareas de vocabulario abierto, su aplicación directa a la predicción densa suele resultar en un rendimiento subóptimo debido a limitaciones en la representación de características locales. En este trabajo, presentamos nuestra observación de que los tokens de imagen de CLIP tienen dificultades para agregar eficazmente información de regiones espacial o semánticamente relacionadas, lo que resulta en características que carecen de discriminabilidad local y consistencia espacial. Para abordar este problema, proponemos DeCLIP, un marco novedoso que mejora CLIP al desacoplar el módulo de auto-atención para obtener características de "contenido" y "contexto" respectivamente. Las características de "contenido" se alinean con representaciones de recortes de imagen para mejorar la discriminabilidad local, mientras que las características de "contexto" aprenden a mantener las correlaciones espaciales bajo la guía de modelos fundamentales de visión, como DINO. Experimentos exhaustivos demuestran que DeCLIP supera significativamente a los métodos existentes en múltiples tareas de predicción densa de vocabulario abierto, incluyendo detección de objetos y segmentación semántica. El código está disponible en magenta{https://github.com/xiaomoguhz/DeCLIP}.

LightLab: Control de fuentes de luz en imágenes con modelos de difusión
LightLab: Controlling Light Sources in Images with Diffusion Models

May 14

ByNadav Magar, Amir Hertz, Eric Tabellion, Yael Pritch, Alex Rav-Acha, Ariel Shamir, Yedid Hoshen

Presentamos un método simple pero efectivo basado en difusión para el control fino y paramétrico de las fuentes de luz en una imagen. Los métodos existentes de reiluminación dependen de múltiples vistas de entrada para realizar renderizado inverso en el momento de la inferencia, o no ofrecen un control explícito sobre los cambios de iluminación. Nuestro método ajusta un modelo de difusión en un pequeño conjunto de pares de fotografías reales en bruto, complementado con imágenes sintéticamente renderizadas a gran escala, para aprovechar su prior fotorealista en la reiluminación. Aprovechamos la linealidad de la luz para sintetizar pares de imágenes que muestran cambios controlados en una fuente de luz objetivo o en la iluminación ambiental. Utilizando estos datos y un esquema de ajuste fino adecuado, entrenamos un modelo para realizar cambios precisos en la iluminación con control explícito sobre la intensidad y el color de la luz. Por último, demostramos cómo nuestro método puede lograr resultados convincentes en la edición de luz y supera a los métodos existentes según la preferencia de los usuarios.

Caléndula: Adaptación Económica de Generadores de Imágenes Basados en Difusión para Análisis de Imágenes
Marigold: Affordable Adaptation of Diffusion-Based Image Generators for Image Analysis

May 14

ByBingxin Ke, Kevin Qu, Tianfu Wang, Nando Metzger, Shengyu Huang, Bo Li, Anton Obukhov, Konrad Schindler

El éxito del aprendizaje profundo en visión por computadora durante la última década ha dependido de grandes conjuntos de datos etiquetados y modelos preentrenados robustos. En entornos con escasez de datos, la calidad de estos modelos preentrenados se vuelve crucial para un aprendizaje por transferencia efectivo. La clasificación de imágenes y el aprendizaje autosupervisado han sido tradicionalmente los métodos principales para el preentrenamiento de redes neuronales convolucionales (CNN) y arquitecturas basadas en transformadores. Recientemente, el auge de los modelos generativos de texto a imagen, particularmente aquellos que utilizan difusión de denoising en un espacio latente, ha introducido una nueva clase de modelos fundamentales entrenados en conjuntos masivos de imágenes con descripciones. La capacidad de estos modelos para generar imágenes realistas de contenido no visto sugiere que poseen un profundo entendimiento del mundo visual. En este trabajo, presentamos Marigold, una familia de modelos generativos condicionales y un protocolo de ajuste fino que extrae el conocimiento de modelos preentrenados de difusión latente como Stable Diffusion y los adapta para tareas de análisis denso de imágenes, incluyendo la estimación de profundidad monocular, la predicción de normales de superficie y la descomposición intrínseca. Marigold requiere modificaciones mínimas en la arquitectura del modelo de difusión latente preentrenado, se entrena con pequeños conjuntos de datos sintéticos en una sola GPU durante unos pocos días y demuestra una generalización de última generación en escenarios de cero disparos. Página del proyecto: https://marigoldcomputervision.github.io

CAST: Reconstrucción de Escenas 3D Alineadas por Componentes a partir de una Imagen RGB
CAST: Component-Aligned 3D Scene Reconstruction from an RGB Image

Feb 18

ByKaixin Yao, Longwen Zhang, Xinhao Yan, Yan Zeng, Qixuan Zhang, Lan Xu, Wei Yang, Jiayuan Gu, Jingyi Yu

Recuperar escenas 3D de alta calidad a partir de una única imagen RGB es una tarea desafiante en el campo de los gráficos por computadora. Los métodos actuales suelen enfrentarse a limitaciones específicas de dominio o a la generación de objetos de baja calidad. Para abordar estos problemas, proponemos CAST (Reconstrucción de Escenas 3D Alineadas por Componentes a partir de una Imagen RGB Única), un método novedoso para la reconstrucción y recuperación de escenas 3D. CAST comienza extrayendo información de segmentación 2D a nivel de objeto y de profundidad relativa de la imagen de entrada, seguido del uso de un modelo basado en GPT para analizar las relaciones espaciales entre objetos. Esto permite comprender cómo los objetos se relacionan entre sí dentro de la escena, asegurando una reconstrucción más coherente. Luego, CAST emplea un modelo de generación 3D a gran escala consciente de las oclusiones para generar de manera independiente la geometría completa de cada objeto, utilizando MAE y condicionamiento de nubes de puntos para mitigar los efectos de las oclusiones y la información parcial de los objetos, asegurando una alineación precisa con la geometría y textura de la imagen fuente. Para alinear cada objeto con la escena, el modelo de generación de alineación calcula las transformaciones necesarias, permitiendo que las mallas generadas se coloquen e integren con precisión en la nube de puntos de la escena. Finalmente, CAST incorpora un paso de corrección consciente de la física que aprovecha un gráfico de relaciones de grano fino para generar un gráfico de restricciones. Este gráfico guía la optimización de las poses de los objetos, asegurando consistencia física y coherencia espacial. Al utilizar Campos de Distancia con Signo (SDF), el modelo aborda eficazmente problemas como oclusiones, penetración de objetos y objetos flotantes, asegurando que la escena generada refleje con precisión las interacciones físicas del mundo real. CAST puede ser aprovechado en robótica, permitiendo flujos de trabajo eficientes de real a simulación y proporcionando entornos de simulación realistas y escalables para sistemas robóticos.

UniSkill: Imitación de videos humanos mediante representaciones de habilidades de encarnación cruzada
UniSkill: Imitating Human Videos via Cross-Embodiment Skill Representations

May 13

ByHanjung Kim, Jaehyun Kang, Hyolim Kang, Meedeum Cho, Seon Joo Kim, Youngwoon Lee

La mímica es un mecanismo fundamental de aprendizaje en los seres humanos, permitiendo a los individuos aprender nuevas tareas observando e imitando a expertos. Sin embargo, aplicar esta capacidad a los robots presenta desafíos significativos debido a las diferencias inherentes entre las formas de los humanos y los robots, tanto en su apariencia visual como en sus capacidades físicas. Si bien métodos anteriores abordan esta brecha utilizando conjuntos de datos de múltiples formas con escenas y tareas compartidas, recolectar datos alineados a gran escala entre humanos y robots no es trivial. En este artículo, proponemos UniSkill, un marco novedoso que aprende representaciones de habilidades independientes de la forma a partir de datos de video a gran escala de múltiples formas, sin necesidad de etiquetas, permitiendo que las habilidades extraídas de videos humanos se transfieran efectivamente a políticas de robots entrenadas únicamente con datos de robots. Nuestros experimentos, tanto en entornos simulados como en el mundo real, muestran que nuestras habilidades de múltiples formas guían con éxito a los robots en la selección de acciones apropiadas, incluso con videos no vistos previamente. El sitio web del proyecto se puede encontrar en: https://kimhanjung.github.io/UniSkill.

WavReward: Modelos de diálogo hablado con evaluadores de recompensa generalistas
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators

May 14

ByShengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao

Los modelos de diálogo hablado de extremo a extremo, como GPT-4o-audio, han captado recientemente una atención significativa en el dominio del habla. Sin embargo, la evaluación del desempeño conversacional de los modelos de diálogo hablado ha sido en gran medida pasada por alto. Esto se debe principalmente a que los chatbots inteligentes transmiten una gran cantidad de información no textual que no puede ser fácilmente medida utilizando modelos de lenguaje basados en texto como ChatGPT. Para abordar esta brecha, proponemos WavReward, un modelo de retroalimentación de recompensas basado en modelos de lenguaje de audio que puede evaluar tanto el coeficiente intelectual (IQ) como el coeficiente emocional (EQ) de los sistemas de diálogo hablado con entrada de voz. Específicamente, 1) basado en modelos de lenguaje de audio, WavReward incorpora el proceso de razonamiento profundo y el mecanismo de recompensa no lineal para el post-entrenamiento. Al utilizar retroalimentación de múltiples muestras mediante el algoritmo de aprendizaje por refuerzo, construimos un evaluador especializado adaptado a los modelos de diálogo hablado. 2) Introducimos ChatReward-30K, un conjunto de datos de preferencias utilizado para entrenar WavReward. ChatReward-30K incluye tanto aspectos de comprensión como de generación de los modelos de diálogo hablado. Estos escenarios abarcan diversas tareas, como chats basados en texto, nueve atributos acústicos de chats de instrucción y chats implícitos. WavReward supera a los modelos de evaluación de última generación anteriores en múltiples escenarios de diálogo hablado, logrando una mejora sustancial en la precisión objetiva de Qwen2.5-Omni del 55.1% al 91.5%. En pruebas subjetivas A/B, WavReward también lidera con un margen del 83%. Estudios de ablación exhaustivos confirman la necesidad de cada componente de WavReward. Todos los datos y el código estarán disponibles públicamente en https://github.com/jishengpeng/WavReward después de que el artículo sea aceptado.

SweRank: Localización de Problemas en Software con Clasificación de Código
SweRank: Software Issue Localization with Code Ranking

May 7

ByRevanth Gangi Reddy, Tarun Suresh, JaeHyeok Doo, Ye Liu, Xuan Phi Nguyen, Yingbo Zhou, Semih Yavuz, Caiming Xiong, Heng Ji, Shafiq Joty

La localización de problemas de software, la tarea de identificar las ubicaciones precisas del código (archivos, clases o funciones) relevantes para una descripción de problema en lenguaje natural (por ejemplo, informe de errores, solicitud de funcionalidad), es un aspecto crítico pero que consume mucho tiempo en el desarrollo de software. Si bien los enfoques agentes recientes basados en LLM (Modelos de Lenguaje de Gran Escala) muestran promesas, a menudo incurren en una latencia y un costo significativos debido a razonamientos complejos de múltiples pasos y a la dependencia de LLM de código cerrado. Por otro lado, los modelos tradicionales de clasificación de código, típicamente optimizados para la recuperación de consulta a código o de código a código, tienen dificultades con la naturaleza verbosa y descriptiva de fallos de las consultas de localización de problemas. Para cerrar esta brecha, presentamos SweRank, un marco eficiente y efectivo de recuperación y reclasificación para la localización de problemas de software. Para facilitar el entrenamiento, construimos SweLoc, un conjunto de datos a gran escala curado a partir de repositorios públicos de GitHub, que incluye descripciones de problemas del mundo real emparejadas con las modificaciones de código correspondientes. Los resultados empíricos en SWE-Bench-Lite y LocBench muestran que SweRank alcanza un rendimiento de vanguardia, superando tanto a modelos de clasificación previos como a sistemas costosos basados en agentes que utilizan LLM de código cerrado como Claude-3.5. Además, demostramos la utilidad de SweLoc para mejorar varios modelos existentes de recuperación y reclasificación para la localización de problemas, estableciendo el conjunto de datos como un recurso valioso para la comunidad.

Omni-R1: ¿Realmente necesitas audio para afinar tu modelo de lenguaje de audio?
Omni-R1: Do You Really Need Audio to Fine-Tune Your Audio LLM?

May 14

ByAndrew Rouditchenko, Saurabhchand Bhati, Edson Araujo, Samuel Thomas, Hilde Kuehne, Rogerio Feris, James Glass

Proponemos Omni-R1, que ajusta un modelo de lenguaje multimodal reciente, Qwen2.5-Omni, en un conjunto de datos de preguntas y respuestas de audio utilizando el método de aprendizaje por refuerzo GRPO. Esto resulta en un nuevo rendimiento de vanguardia en el reciente benchmark MMAU. Omni-R1 logra las mayores precisiones en las categorías de sonidos, música, habla y promedio general, tanto en las divisiones Test-mini como Test-full. Para comprender la mejora en el rendimiento, probamos modelos con y sin audio y descubrimos que gran parte de la mejora atribuible a GRPO podría deberse a un razonamiento basado en texto más efectivo. También hicimos un descubrimiento sorprendente: el ajuste fino sin audio en un conjunto de datos exclusivamente textual fue efectivo para mejorar el rendimiento basado en audio.

VCRBench: Exploración de las capacidades de razonamiento causal a largo plazo en grandes modelos de lenguaje y video
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models

May 13

ByPritam Sarkar, Ali Etemad

A pesar de los recientes avances en la comprensión de videos, las capacidades de los Modelos de Lenguaje de Video a Gran Escala (LVLMs, por sus siglas en inglés) para realizar razonamiento causal basado en video siguen siendo poco exploradas, en gran parte debido a la ausencia de benchmarks relevantes y dedicados para evaluar el razonamiento causal en entornos visualmente fundamentados y orientados a objetivos. Para llenar este vacío, presentamos un nuevo benchmark llamado Razonamiento Causal de Largo Plazo Basado en Video (VCRBench). Creamos VCRBench utilizando videos procedimentales de actividades cotidianas simples, donde los pasos están deliberadamente mezclados, con cada clip capturando un evento causal clave, para probar si los LVLMs pueden identificar, razonar y secuenciar correctamente los eventos necesarios para alcanzar un objetivo específico. Además, el benchmark está cuidadosamente diseñado para evitar que los LVLMs exploten atajos lingüísticos, como se observa en formatos de preguntas de opción múltiple o binarias, al mismo tiempo que se evitan los desafíos asociados con la evaluación de preguntas abiertas. Nuestra evaluación de los LVLMs más avanzados en VCRBench sugiere que estos modelos tienen dificultades con el razonamiento causal de largo plazo basado en video, principalmente debido a su dificultad para modelar dependencias causales de largo alcance directamente a partir de observaciones visuales. Como un paso simple hacia la habilitación de tales capacidades, proponemos la Descomposición Reconocimiento-Razonamiento (RRD, por sus siglas en inglés), un enfoque modular que divide el razonamiento causal basado en video en dos sub-tareas: reconocimiento de video y razonamiento causal. Nuestros experimentos en VCRBench muestran que RRD aumenta significativamente la precisión en VCRBench, con mejoras de hasta un 25.2%. Finalmente, nuestro análisis exhaustivo revela insights interesantes, por ejemplo, que los LVLMs dependen principalmente del conocimiento lingüístico para tareas complejas de razonamiento causal de largo plazo basado en video.

Comprensión y Mitigación de la Toxicidad en Conjuntos de Datos de Pretrenamiento de Imagen-Texto: Un Estudio de Caso sobre LLaVA
Understanding and Mitigating Toxicity in Image-Text Pretraining Datasets: A Case Study on LLaVA

May 9

ByKarthik Reddy Kanjula, Surya Guthikonda, Nahid Alam, Shayekh Bin Islam

Los conjuntos de datos de preentrenamiento son fundamentales para el desarrollo de modelos multimodales, aunque a menudo contienen sesgos inherentes y contenido tóxico proveniente de los corpus a escala web de los que se obtienen. En este artículo, investigamos la prevalencia de toxicidad en el conjunto de datos de preentrenamiento de imágenes y texto de LLaVA, examinando cómo se manifiesta el contenido dañino en diferentes modalidades. Presentamos un análisis exhaustivo de las categorías comunes de toxicidad y proponemos estrategias de mitigación específicas, lo que resulta en la creación de un conjunto de datos refinado con toxicidad mitigada. Este conjunto de datos elimina 7,531 pares de imágenes y texto tóxicos del conjunto de preentrenamiento de LLaVA. Ofrecemos directrices para implementar pipelines robustos de detección de toxicidad. Nuestros hallazgos subrayan la necesidad de identificar y filtrar activamente contenido tóxico —como discursos de odio, imágenes explícitas y acoso dirigido— para construir sistemas multimodales más responsables y equitativos. El conjunto de datos con toxicidad mitigada es de código abierto y está disponible para futuras investigaciones.

DetReIDX: Un Conjunto de Datos de Prueba de Estrés para el Reconocimiento de Personas Basado en UAV en Escenarios del Mundo Real
DetReIDX: A Stress-Test Dataset for Real-World UAV-Based Person Recognition

May 7

ByKailash A. Hambarde, Nzakiese Mbongo, Pavan Kumar MP, Satish Mekewad, Carolina Fernandes, Gökhan Silahtaroğlu, Alice Nithya, Pawan Wasnik, MD. Rashidunnabi, Pranita Samale, Hugo Proença

La tecnología de reidentificación de personas (ReID) ha demostrado un rendimiento relativamente bueno en condiciones controladas y a nivel del suelo, pero se ve afectada cuando se implementa en entornos reales desafiantes. Esto se debe evidentemente a factores de variabilidad extrema en los datos, como cambios en la resolución, el punto de vista, la escala, las oclusiones y las variaciones en la apariencia debido a la ropa o a diferencias entre sesiones. Además, los conjuntos de datos disponibles públicamente no incorporan de manera realista este tipo y magnitud de variabilidad, lo que limita el avance de esta tecnología. Este artículo presenta DetReIDX, un conjunto de datos a gran escala de personas capturadas desde el aire y el suelo, diseñado específicamente como una prueba de estrés para la ReID en condiciones del mundo real. DetReIDX es un conjunto multi-sesión que incluye más de 13 millones de cuadros delimitadores de 509 identidades, recopilados en siete campus universitarios de tres continentes, con altitudes de drones que van desde 5,8 hasta 120 metros. Más importante aún, como una novedad clave, los sujetos de DetReIDX fueron grabados en (al menos) dos sesiones en días diferentes, con cambios en la ropa, la luz del día y la ubicación, lo que lo hace adecuado para evaluar la ReID de personas a largo plazo. Además, los datos fueron anotados con 16 atributos biométricos blandos y etiquetas multitarea para detección, seguimiento, ReID y reconocimiento de acciones. Para proporcionar evidencia empírica de la utilidad de DetReIDX, consideramos las tareas específicas de detección humana y ReID, donde los métodos de vanguardia (SOTA) degradan catastróficamente su rendimiento (hasta un 80% en precisión de detección y más del 70% en Rank-1 ReID) cuando se exponen a las condiciones de DetReIDX. El conjunto de datos, las anotaciones y los protocolos de evaluación oficiales están disponibles públicamente en https://www.it.ubi.pt/DetReIDX/.

Detrás de Maya: Construyendo un Modelo de Lenguaje Visual Multilingüe
Behind Maya: Building a Multilingual Vision Language Model

May 13

ByNahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji

En los últimos tiempos, hemos presenciado un rápido desarrollo de los grandes Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés). Estos han mostrado resultados impresionantes en benchmarks académicos, principalmente en idiomas ampliamente hablados, pero carecen de rendimiento en lenguajes de bajos recursos y contextos culturales diversos. Para abordar estas limitaciones, presentamos Maya, un VLM Multilingüe de código abierto. Nuestras contribuciones son: 1) un conjunto de datos de preentrenamiento multilingüe de imágenes y texto en ocho idiomas, basado en el conjunto de datos de preentrenamiento de LLaVA; y 2) un modelo multilingüe de imágenes y texto que admite estos idiomas, mejorando la comprensión cultural y lingüística en tareas de visión-lenguaje. El código está disponible en https://github.com/nahidalam/maya.

Control de Densidad de Descenso Más Pronunciado para Representación Compacta con Splatting Gaussiano 3D
Steepest Descent Density Control for Compact 3D Gaussian Splatting

May 8

ByPeihao Wang, Yuehao Wang, Dilin Wang, Sreyas Mohan, Zhiwen Fan, Lemeng Wu, Ruisi Cai, Yu-Ying Yeh, Zhangyang Wang, Qiang Liu, Rakesh Ranjan

El Splatting 3D Gaussiano (3DGS) ha surgido como una técnica poderosa para la síntesis de nuevas vistas en tiempo real y alta resolución. Al representar escenas como una mezcla de primitivas gaussianas, el 3DGS aprovecha las canalizaciones de rasterización de GPU para un renderizado y reconstrucción eficientes. Para optimizar la cobertura de la escena y capturar detalles finos, el 3DGS emplea un algoritmo de densificación para generar puntos adicionales. Sin embargo, este proceso a menudo conduce a nubes de puntos redundantes, lo que resulta en un uso excesivo de memoria, un rendimiento más lento y demandas sustanciales de almacenamiento, planteando desafíos significativos para su implementación en dispositivos con recursos limitados. Para abordar esta limitación, proponemos un marco teórico que desmitifica y mejora el control de densidad en el 3DGS. Nuestro análisis revela que la división es crucial para escapar de puntos de silla. A través de un enfoque teórico de optimización, establecemos las condiciones necesarias para la densificación, determinamos el número mínimo de gaussianas descendientes, identificamos la dirección óptima de actualización de parámetros y proporcionamos una solución analítica para normalizar la opacidad de las descendientes. Basándonos en estas ideas, presentamos SteepGS, que incorpora un control de densidad más pronunciado, una estrategia fundamentada que minimiza la pérdida mientras mantiene una nube de puntos compacta. SteepGS logra una reducción de ~50% en los puntos gaussianos sin comprometer la calidad del renderizado, mejorando significativamente tanto la eficiencia como la escalabilidad.

Razonamiento de Subtareas Visualmente Interpretable para Respuesta a Preguntas Visuales
Visually Interpretable Subtask Reasoning for Visual Question Answering

May 12

ByYu Cheng, Arushi Goel, Hakan Bilen

Responder a preguntas visuales complejas como `¿Qué muebles rojos se pueden usar para sentarse?' requiere un razonamiento de múltiples pasos, que incluye reconocimiento de objetos, filtrado de atributos y comprensión relacional. Trabajos recientes han mejorado la interpretabilidad en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) al descomponer las tareas en programas de subtareas, pero estos métodos son computacionalmente costosos y menos precisos debido a una mala adaptación a los datos objetivo. Para abordar esto, presentamos VISTAR (Modelo de Razonamiento Consciente de Subtareas Visualmente Interpretable), un marco de entrenamiento basado en subtareas que mejora tanto la interpretabilidad como el razonamiento al generar explicaciones textuales y visuales dentro de los MLLMs. En lugar de depender de modelos externos, VISTAR ajusta finamente los MLLMs para producir racionales estructurados de Subtareas-de-Pensamiento (secuencias de razonamiento paso a paso). Los experimentos en dos puntos de referencia muestran que VISTAR mejora consistentemente la precisión del razonamiento mientras mantiene la interpretabilidad. Nuestro código y conjunto de datos estarán disponibles en https://github.com/ChengJade/VISTAR.

BLIP3-o: Una Familia de Modelos Multimodales Unificados Completamente Abiertos - Arquitectura, Entrenamiento y Conjunto de Datos
BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

May 14

ByJiuhai Chen, Zhiyang Xu, Xichen Pan, Yushi Hu, Can Qin, Tom Goldstein, Lifu Huang, Tianyi Zhou, Saining Xie, Silvio Savarese, Le Xue, Caiming Xiong, Ran Xu