Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

CAT4D: Crea Cualquier Cosa en 4D con Modelos de Difusión de Video de Múltiples Vistas
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27

ByRundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski

Presentamos CAT4D, un método para crear escenas 4D (3D dinámico) a partir de video monocular. CAT4D aprovecha un modelo de difusión de video de múltiples vistas entrenado en una combinación diversa de conjuntos de datos para permitir la síntesis de vistas novedosas en poses y marcas de tiempo de cámara especificadas. Combinado con un enfoque de muestreo novedoso, este modelo puede transformar un solo video monocular en un video de múltiples vistas, permitiendo una reconstrucción 4D robusta mediante la optimización de una representación gaussiana 3D deformable. Demostramos un rendimiento competitivo en síntesis de vistas novedosas y benchmarks de reconstrucción de escenas dinámicas, y destacamos las capacidades creativas para la generación de escenas 4D a partir de videos reales o generados. Consulte nuestra página del proyecto para ver resultados y demos interactivas: cat-4d.github.io.

Agentes de GUI con Grandes Modelos de Lenguaje: Una Encuesta
Large Language Model-Brained GUI Agents: A Survey

Nov 27

ByChaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

Las interfaces gráficas de usuario (GUIs) han sido fundamentales en la interacción humano-computadora, proporcionando una forma intuitiva y visual de acceder e interactuar con sistemas digitales. La llegada de los LLMs, en particular los modelos multimodales, ha marcado el inicio de una nueva era de automatización de GUIs. Han demostrado capacidades excepcionales en comprensión del lenguaje natural, generación de código y procesamiento visual. Esto ha allanado el camino para una nueva generación de agentes de GUI con LLM capaces de interpretar elementos de GUI complejos y ejecutar acciones de forma autónoma basándose en instrucciones en lenguaje natural. Estos agentes representan un cambio de paradigma, permitiendo a los usuarios realizar tareas complejas y de múltiples pasos a través de comandos conversacionales simples. Sus aplicaciones abarcan desde la navegación web, interacciones con aplicaciones móviles, hasta la automatización de escritorios, ofreciendo una experiencia de usuario transformadora que revoluciona la interacción de los individuos con el software. Este campo emergente avanza rápidamente, con progresos significativos tanto en la investigación como en la industria. Para proporcionar una comprensión estructurada de esta tendencia, este artículo presenta un estudio exhaustivo de agentes de GUI con LLM, explorando su evolución histórica, componentes principales y técnicas avanzadas. Abordamos preguntas de investigación como los marcos existentes de agentes de GUI, la recopilación y utilización de datos para entrenar agentes de GUI especializados, el desarrollo de modelos de acción extensos adaptados para tareas de GUI, y las métricas de evaluación y puntos de referencia necesarios para evaluar su efectividad. Además, examinamos las aplicaciones emergentes impulsadas por estos agentes. A través de un análisis detallado, este estudio identifica brechas clave en la investigación y esboza una hoja de ruta para futuros avances en el campo. Al consolidar conocimientos fundamentales y desarrollos de vanguardia, este trabajo tiene como objetivo guiar tanto a investigadores como a profesionales en la superación de desafíos y en la realización del pleno potencial de los agentes de GUI con LLM.

MARVEL-40M+: Elaboración Visual Multinivel para la Creación de Contenido Texto a 3D de Alta Fidelidad
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26

BySankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal

La generación de contenido 3D de alta fidelidad a partir de indicaciones de texto sigue siendo un desafío significativo en visión por computadora debido al tamaño limitado, la diversidad y la profundidad de anotación de los conjuntos de datos existentes. Para abordar esto, presentamos MARVEL-40M+, un extenso conjunto de datos con 40 millones de anotaciones de texto para más de 8.9 millones de activos 3D recopilados de siete importantes conjuntos de datos 3D. Nuestra contribución es un novedoso proceso de anotación en múltiples etapas que integra VLMs y LLMs preentrenados de múltiples vistas de código abierto para producir automáticamente descripciones de varios niveles, que van desde detalladas (150-200 palabras) hasta etiquetas semánticas concisas (10-20 palabras). Esta estructura respalda tanto la reconstrucción 3D detallada como el prototipado rápido. Además, incorporamos metadatos humanos de los conjuntos de datos fuente en nuestro proceso de anotación para agregar información específica del dominio en nuestras anotaciones y reducir las alucinaciones de los VLM. Adicionalmente, desarrollamos MARVEL-FX3D, un proceso de texto a 3D en dos etapas. Ajustamos Stable Diffusion con nuestras anotaciones y utilizamos una red preentrenada de imagen a 3D para generar mallas texturizadas en 3D en 15 segundos. Evaluaciones exhaustivas muestran que MARVEL-40M+ supera significativamente a los conjuntos de datos existentes en calidad de anotación y diversidad lingüística, logrando tasas de acierto del 72.41% por GPT-4 y del 73.40% por evaluadores humanos.

Auto-Difusión para Generación de Imágenes Personalizadas sin Entrenamiento
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27

ByShengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein

Los modelos de difusión texto-imagen producen resultados impresionantes pero son herramientas frustrantes para artistas que desean un control detallado. Por ejemplo, un caso de uso común es crear imágenes de una instancia específica en contextos novedosos, es decir, "generación preservando la identidad". Esta configuración, junto con muchas otras tareas (por ejemplo, cambio de iluminación), se adapta naturalmente a los modelos generativos condicionales de imagen+texto. Sin embargo, no hay datos emparejados de alta calidad suficientes para entrenar directamente dicho modelo. Proponemos la Auto-Destilación por Difusión, un método para utilizar un modelo pre-entrenado de texto a imagen para generar su propio conjunto de datos para tareas de imagen a imagen condicionadas por texto. Primero aprovechamos la capacidad de generación en contexto de un modelo de difusión de texto a imagen para crear cuadrículas de imágenes y curar un gran conjunto de datos emparejados con la ayuda de un Modelo Visual-Lenguaje. Luego ajustamos finamente el modelo de texto a imagen a un modelo de texto+imagen a imagen utilizando el conjunto de datos emparejados curados. Demostramos que la Auto-Destilación por Difusión supera a los métodos de cero disparo existentes y es competitiva con técnicas de ajuste por instancia en una amplia gama de tareas de generación de preservación de identidad, sin requerir optimización en tiempo de prueba.

Splatting Convexo en 3D: Renderizado de Campos de Radiación con Convexos Suaves en 3D
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22

ByJan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck

Los avances recientes en la reconstrucción de campos de radiación, como el Splatting Gaussiano 3D (3DGS), han logrado una síntesis de vistas novedosas de alta calidad y renderizado rápido al representar escenas con composiciones de primitivas gaussianas. Sin embargo, los Gaussians 3D presentan varias limitaciones para la reconstrucción de escenas. Capturar con precisión bordes duros es desafiante sin aumentar significativamente el número de Gaussians, lo que crea una gran huella de memoria. Además, tienen dificultades para representar superficies planas, ya que se difuminan en el espacio. Sin regularizadores hechos a mano, tienden a dispersarse de manera irregular alrededor de la superficie real. Para superar estos problemas, presentamos un método novedoso, llamado Splatting Convexo 3D (3DCS), que aprovecha convexos suaves en 3D como primitivas para modelar campos de radiación geométricamente significativos a partir de imágenes de múltiples vistas. Las formas convexas suaves ofrecen una mayor flexibilidad que los Gaussians, lo que permite una mejor representación de escenas en 3D con bordes duros y volúmenes densos utilizando menos primitivas. Impulsado por nuestro eficiente rasterizador basado en CUDA, 3DCS logra un rendimiento superior a 3DGS en benchmarks como Mip-NeRF360, Tanks and Temples y Deep Blending. Específicamente, nuestro método alcanza una mejora de hasta 0.81 en PSNR y 0.026 en LPIPS en comparación con 3DGS, manteniendo altas velocidades de renderizado y reduciendo el número de primitivas requeridas. Nuestros resultados resaltan el potencial del Splatting Convexo 3D para convertirse en el nuevo estándar para la reconstrucción de escenas de alta calidad y la síntesis de vistas novedosas. Página del proyecto: convexsplatting.github.io.

DiffusionDrive: Modelo de Difusión Truncado para Conducción Autónoma de Extremo a Extremo
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22

ByBencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang

Recientemente, el modelo de difusión ha surgido como una técnica generativa poderosa para el aprendizaje de políticas robóticas, capaz de modelar distribuciones de acciones multimodales. Aprovechar su capacidad para la conducción autónoma de extremo a extremo es una dirección prometedora. Sin embargo, los numerosos pasos de eliminación de ruido en la política de difusión robótica y la naturaleza más dinámica y abierta de las escenas de tráfico plantean desafíos sustanciales para generar diversas acciones de conducción a velocidad en tiempo real. Para abordar estos desafíos, proponemos una nueva política de difusión truncada que incorpora anclajes previos multimodales y trunca el programa de difusión, lo que permite que el modelo aprenda la eliminación de ruido desde una distribución gaussiana anclada hasta la distribución de acciones de conducción multimodales. Además, diseñamos un decodificador de difusión en cascada eficiente para una interacción mejorada con el contexto de escena condicional. El modelo propuesto, DiffusionDrive, demuestra una reducción de 10 veces en los pasos de eliminación de ruido en comparación con la política de difusión estándar, ofreciendo una diversidad y calidad superiores en solo 2 pasos. En el conjunto de datos NAVSIM orientado a la planificación, con la columna vertebral ResNet-34 alineada, DiffusionDrive logra 88.1 PDMS sin adornos, estableciendo un nuevo récord, mientras se ejecuta a una velocidad en tiempo real de 45 FPS en una NVIDIA 4090. Los resultados cualitativos en escenarios desafiantes confirman además que DiffusionDrive puede generar de manera robusta diversas acciones de conducción plausibles. El código y el modelo estarán disponibles en https://github.com/hustvl/DiffusionDrive.

Make-It-Animatable: Un Marco Eficiente para Crear Personajes 3D Listos para Animación
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27

ByZhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang

Los personajes en 3D son esenciales para las industrias creativas modernas, pero hacerlos animables a menudo requiere un extenso trabajo manual en tareas como el rigging y el skinning. Las herramientas automáticas de rigging existentes enfrentan varias limitaciones, incluyendo la necesidad de anotaciones manuales, topologías de esqueleto rígidas y una limitada generalización a través de formas y poses diversas. Un enfoque alternativo es generar avatares animables preligados a una malla de plantilla riggeada. Sin embargo, este método a menudo carece de flexibilidad y típicamente se limita a formas humanas realistas. Para abordar estos problemas, presentamos Make-It-Animatable, un novedoso método basado en datos para preparar cualquier modelo humanoide en 3D listo para animación de personajes en menos de un segundo, independientemente de sus formas y poses. Nuestro marco unificado genera pesos de mezcla, huesos y transformaciones de poses de alta calidad. Al incorporar un autoencoder de formas basado en partículas, nuestro enfoque admite diversas representaciones en 3D, incluyendo mallas y salpicaduras gaussianas en 3D. Además, empleamos una representación de grueso a fino y una estrategia de modelado consciente de la estructura para garantizar tanto la precisión como la robustez, incluso para personajes con estructuras de esqueleto no estándar. Realizamos experimentos extensos para validar la efectividad de nuestro marco. En comparación con los métodos existentes, nuestro enfoque demuestra mejoras significativas tanto en calidad como en velocidad.

UniPose: Un marco unificado multimodal para la comprensión, generación y edición de posturas humanas
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25

ByYiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen

La postura humana juega un papel crucial en la era digital. Si bien trabajos recientes han logrado un progreso impresionante en la comprensión y generación de posturas humanas, a menudo solo admiten una sola modalidad de señales de control y operan de forma aislada, limitando su aplicación en escenarios del mundo real. Este artículo presenta UniPose, un marco que emplea Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) para comprender, generar y editar posturas humanas en diversas modalidades, incluidas imágenes, texto y posturas 3D de SMPL. Específicamente, aplicamos un tokenizador de posturas para convertir posturas 3D en tokens de postura discretos, lo que permite una integración fluida en el LLM dentro de un vocabulario unificado. Para mejorar aún más las capacidades de percepción de posturas detalladas, facilitamos a UniPose con una mezcla de codificadores visuales, entre ellos un codificador visual específico de posturas. Beneficiándose de una estrategia de aprendizaje unificada, UniPose transfiere eficazmente conocimientos entre diferentes tareas relevantes para las posturas, se adapta a tareas no vistas y muestra capacidades extendidas. Este trabajo sirve como el primer intento de construir un marco de propósito general para la comprensión, generación y edición de posturas. Experimentos extensos resaltan el rendimiento competitivo e incluso superior de UniPose en diversas tareas relevantes para las posturas.

La decodificación colaborativa hace que el modelado visual auto-regresivo sea eficiente.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26

ByZigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

En el campo de generación de imágenes en constante avance, el modelado Visual Auto-Regressive (VAR) ha captado considerable atención por su innovador enfoque de predicción a la siguiente escala. Este paradigma ofrece mejoras sustanciales en eficiencia, escalabilidad y generalización de cero disparos. Sin embargo, la naturaleza inherentemente de grueso a fino del VAR introduce una secuencia de tokens prolongada, lo que conlleva a un consumo de memoria prohibitivo y redundancias computacionales. Para abordar estos cuellos de botella, proponemos Decodificación Colaborativa (CoDe), una novedosa estrategia de decodificación eficiente diseñada para el marco de VAR. CoDe se basa en dos observaciones críticas: las demandas de parámetros sustancialmente reducidas en escalas más grandes y los patrones exclusivos de generación en diferentes escalas. Con base en estos conocimientos, dividimos el proceso de inferencia multi-escala en una colaboración fluida entre un modelo grande y un modelo pequeño. El modelo grande actúa como el 'diseñador', especializándose en generar contenido de baja frecuencia en escalas más pequeñas, mientras que el modelo más pequeño actúa como el 'perfeccionador', enfocándose únicamente en predecir detalles de alta frecuencia en escalas más grandes. Esta colaboración produce una eficiencia notable con un impacto mínimo en la calidad: CoDe logra una aceleración de 1.7 veces, reduce el uso de memoria en alrededor del 50% y conserva la calidad de imagen con solo un aumento FID insignificante de 1.95 a 1.98. Cuando se disminuyen aún más los pasos de diseño, CoDe puede lograr una impresionante relación de aceleración de 2.9 veces, alcanzando 41 imágenes/s a una resolución de 256x256 en una sola GPU NVIDIA 4090, manteniendo un FID loable de 2.27. El código está disponible en https://github.com/czg1225/CoDe

DreamCache: Generación de Imágenes Personalizadas Ligera sin Ajuste Fino a través de Caché de Características
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26

ByEmanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli

La generación de imágenes personalizadas requiere modelos generativos de texto a imagen que capturen las características principales de un sujeto de referencia para permitir una generación controlada en diferentes contextos. Los métodos existentes enfrentan desafíos debido a requisitos de entrenamiento complejos, altos costos de inferencia, flexibilidad limitada o una combinación de estos problemas. En este documento, presentamos DreamCache, un enfoque escalable para una generación eficiente y de alta calidad de imágenes personalizadas. Al almacenar en caché un pequeño número de características de imagen de referencia de un subconjunto de capas y un solo paso de tiempo del desenfocador de difusión preentrenado, DreamCache permite la modulación dinámica de las características de imagen generadas a través de adaptadores de condicionamiento ligeros y entrenados. DreamCache logra un alineamiento de imagen y texto de vanguardia, utilizando un orden de magnitud menos parámetros adicionales, y es tanto más efectivo computacionalmente como más versátil que los modelos existentes.

ChatRex: Domando LLM Multimodal para Percepción y Comprensión Conjunta
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Nov 27

ByQing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang

La percepción y la comprensión son dos pilares de la visión por computadora. Si bien los modelos de lenguaje multimodales grandes (MLLM) han demostrado notables capacidades de comprensión visual, carecen, en opinión de algunos, de habilidades de percepción precisas, por ejemplo, el modelo de vanguardia Qwen2-VL solo logra una tasa de recuperación del 43.9 en el conjunto de datos COCO, lo que limita muchas tareas que requieren la combinación de percepción y comprensión. En este trabajo, nuestro objetivo es cerrar esta brecha de percepción desde las perspectivas del diseño del modelo y el desarrollo de datos. En primer lugar, presentamos ChatRex, un MLLM con un diseño de percepción desacoplado. En lugar de que el MLL prediga directamente las coordenadas de las cajas, alimentamos las cajas de salida de una red de propuestas universal en el MLL, lo que le permite producir los índices de caja correspondientes para representar sus resultados de detección, convirtiendo la tarea de regresión en una tarea basada en recuperación que el MLL maneja de manera más competente. Desde la perspectiva de los datos, construimos un motor de datos completamente automatizado y creamos el conjunto de datos Rexverse-2M que posee múltiples granularidades para respaldar el entrenamiento conjunto de percepción y comprensión. Después del entrenamiento estándar de dos etapas, ChatRex demuestra sólidas capacidades de percepción mientras conserva el rendimiento de comprensión multimodal. La combinación de estas dos capacidades desbloquea simultáneamente muchas aplicaciones atractivas, demostrando los roles complementarios de la percepción y la comprensión en los MLLM. El código está disponible en https://github.com/IDEA-Research/ChatRex.

Generación de Sonido Foley Guiada por Video con Controles Multimodales
Video-Guided Foley Sound Generation with Multimodal Controls

Nov 26

ByZiyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon

La generación de efectos de sonido para videos a menudo requiere la creación de efectos de sonido artísticos que se alejan significativamente de fuentes de la vida real y un control flexible en el diseño de sonido. Para abordar este problema, presentamos MultiFoley, un modelo diseñado para la generación de sonido guiada por video que admite condicionamiento multimodal a través de texto, audio y video. Dado un video silencioso y una indicación de texto, MultiFoley permite a los usuarios crear sonidos limpios (por ejemplo, ruedas de monopatín girando sin ruido de viento) o sonidos más caprichosos (por ejemplo, hacer que el rugido de un león suene como el maullido de un gato). MultiFoley también permite a los usuarios elegir audio de referencia de bibliotecas de efectos de sonido (SFX) o videos parciales para el condicionamiento. Una novedad clave de nuestro modelo radica en su entrenamiento conjunto en conjuntos de datos de videos de internet con audio de baja calidad y grabaciones de SFX profesionales, lo que permite la generación de audio de alta calidad y ancho de banda completo (48kHz). A través de evaluaciones automatizadas y estudios con humanos, demostramos que MultiFoley genera con éxito sonidos de alta calidad sincronizados a través de diversos inputs condicionales y supera a los métodos existentes. Por favor, consulte nuestra página de proyecto para ver los resultados en video: https://ificl.github.io/MultiFoley/

Omegancia: Un Único Parámetro para Varias Granularidades en la Síntesis Basada en Difusión
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Nov 26

ByXinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy

En este trabajo, introducimos un único parámetro omega para controlar de manera efectiva la granularidad en la síntesis basada en difusión. Este parámetro se incorpora durante los pasos de eliminación de ruido del proceso inverso del modelo de difusión. Nuestro enfoque no requiere el reentrenamiento del modelo, modificaciones arquitectónicas o sobrecarga computacional adicional durante la inferencia, pero permite un control preciso sobre el nivel de detalles en las salidas generadas. Además, se pueden aplicar máscaras espaciales o programaciones de eliminación de ruido con diferentes valores de omega para lograr un control de granularidad específico de la región o del paso de tiempo. El conocimiento previo de la composición de imágenes a partir de señales de control o imágenes de referencia facilita aún más la creación de máscaras omega precisas para el control de la granularidad en objetos específicos. Para resaltar el papel del parámetro en el control de variaciones sutiles de detalles, la técnica se denomina Omegance, combinando "omega" y "nuance". Nuestro método demuestra un rendimiento impresionante en diversas tareas de síntesis de imágenes y videos, y es adaptable a modelos de difusión avanzados. El código está disponible en https://github.com/itsmag11/Omegance.

Modelo en borrador sabe cuándo detenerse: Una política de longitud de autoverificación para decodificación especulativa
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Nov 27

ByZiyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu

La Decodificación Especulativa (SD, por sus siglas en inglés) se ha convertido en una técnica importante para acelerar la velocidad de inferencia de grandes modelos de lenguaje. Los métodos convencionales de SD emplean una longitud de borrador fija, lo cual ignora la dificultad de generación de tokens entre tareas. En consecuencia, en este documento abordamos dicho problema e introducimos SVIP, una política de longitud de borrador dinámica consciente de la dificultad para sistemas de decodificación especulativa. Basado en un límite teórico inferior de la tasa de aceptación de tokens de borrador y su aproximación en tiempo de inferencia, SVIP determina de manera adaptativa las longitudes de las secuencias de borrador en función de la entropía de la distribución de cada token de borrador. Los resultados experimentales en bancos de pruebas y marcos de trabajo de SD convencionales demuestran el rendimiento superior de SVIP, logrando hasta un 20\% de aceleración en el tiempo de ejecución en SpecBench sobre los métodos de SD base y un 60\% de aceleración en MT-Bench para la generación de texto largo de hasta 8K tokens. Además, SVIP no requiere entrenamiento y es compatible con cualquier método de SD existente que genere tokens de borrador de forma autoregresiva. Los resultados experimentales también muestran que SVIP proporciona una mejora consistente en el tiempo de ejecución sobre GliDe & CaPE y EAGLE-2.

Optimización de la Segmentación de Tumores Cerebrales con MedNeXt: BraTS 2024 SSA y Pediatría
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Nov 24

BySarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub

La identificación de características patológicas clave en las resonancias magnéticas cerebrales es crucial para la supervivencia a largo plazo de los pacientes con glioma. Sin embargo, la segmentación manual es un proceso que consume tiempo, requiere intervención de expertos y es susceptible a errores humanos. Por lo tanto, se ha dedicado una investigación significativa al desarrollo de métodos de aprendizaje automático que puedan segmentar con precisión tumores en escaneos 3D de resonancias magnéticas cerebrales multimodales. A pesar de los avances, los modelos de vanguardia suelen estar limitados por los datos en los que se entrenan, lo que plantea preocupaciones sobre su fiabilidad al aplicarse a poblaciones diversas que pueden introducir cambios en la distribución. Estos cambios pueden deberse a tecnología de resonancia magnética de menor calidad (por ejemplo, en África subsahariana) o variaciones en las características demográficas de los pacientes (por ejemplo, niños). El desafío BraTS-2024 proporciona una plataforma para abordar estos problemas. Este estudio presenta nuestra metodología para la segmentación de tumores en las tareas BraTS-2024 SSA y Tumores Pediátricos utilizando MedNeXt, un ensamblaje exhaustivo de modelos y un postprocesamiento detallado. Nuestro enfoque demostró un rendimiento sólido en el conjunto de validación no visto, logrando un Coeficiente de Similitud de Dice (DSC) promedio de 0.896 en el conjunto de datos BraTS-2024 SSA y un DSC promedio de 0.830 en el conjunto de datos de Tumores Pediátricos de BraTS. Además, nuestro método logró una Distancia de Hausdorff promedio (HD95) de 14.682 en el conjunto de datos BraTS-2024 SSA y un HD95 promedio de 37.508 en el conjunto de datos Pediátricos de BraTS. Nuestro repositorio de GitHub se puede acceder aquí: Repositorio del Proyecto: https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics

VideoLLM sabe cuándo hablar: Mejorando la comprensión de videos sensibles al tiempo con el formato de interacción Video-Texto Dúo.
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Nov 27

ByYueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao

Las investigaciones recientes sobre grandes modelos de lenguaje de video (VideoLLM) se centran principalmente en las arquitecturas de modelos y conjuntos de datos de entrenamiento, dejando sin explorar el formato de interacción entre el usuario y el modelo. En trabajos existentes, los usuarios suelen interactuar con VideoLLMs utilizando el video completo y una consulta como entrada, tras lo cual el modelo genera una respuesta. Este formato de interacción limita la aplicación de VideoLLMs en escenarios como la comprensión de transmisiones en vivo, donde los videos no terminan y se requieren respuestas en tiempo real, y también resulta en un rendimiento insatisfactorio en tareas sensibles al tiempo que requieren la localización de segmentos de video. En este documento, nos centramos en un formato de interacción video-texto en dúo. Este formato de interacción se caracteriza por la reproducción continua del video, y tanto el usuario como el modelo pueden insertar sus mensajes de texto en cualquier posición durante la reproducción del video. Cuando un mensaje de texto termina, el video continúa reproduciéndose, similar a la alternancia de dos intérpretes en un dúo. Construimos MMDuetIT, un conjunto de datos de entrenamiento de video-texto diseñado para adaptar los VideoLLMs al formato de interacción video-texto en dúo. También presentamos la tarea de Preguntas y Respuestas de Video Ancladas con Múltiples Respuestas (MAGQA) para evaluar la capacidad de respuesta en tiempo real de los VideoLLMs. Entrenado en MMDuetIT, MMDuet demuestra que adoptar el formato de interacción video-texto en dúo permite que el modelo logre mejoras significativas en varias tareas sensibles al tiempo (76% CIDEr en la generación densa de subtítulos de video YouCook2, 90% mAP en la detección de momentos destacados QVHighlights y 25% R@0.5 en la localización temporal de videos Charades-STA) con esfuerzos de entrenamiento mínimos, y también permite que los VideoLLMs respondan en tiempo real mientras el video se reproduce. El código, los datos y la demostración están disponibles en: https://github.com/yellow-binary-tree/MMDuet.

Restauración de Imágenes Todo en Uno Adaptativa y a Ciegas
Adaptive Blind All-in-One Image Restoration

Nov 27

ByDavid Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral

Los modelos ciegos de restauración de imágenes todo en uno tienen como objetivo recuperar una imagen de alta calidad a partir de una entrada degradada con distorsiones desconocidas. Sin embargo, estos modelos requieren que todos los posibles tipos de degradación estén definidos durante la etapa de entrenamiento, mostrando una generalización limitada a degradaciones no vistas, lo que limita su aplicación práctica en casos complejos. En este documento, proponemos un modelo de restauración ciega todo en uno adaptativo y simple pero efectivo (ABAIR), que puede abordar múltiples degradaciones, generalizarse bien a degradaciones no vistas e incorporar eficientemente nuevas degradaciones mediante el entrenamiento de una pequeña fracción de parámetros. Primero, entrenamos nuestro modelo base en un gran conjunto de datos de imágenes naturales con múltiples degradaciones sintéticas, aumentadas con una cabeza de segmentación para estimar los tipos de degradación por píxel, lo que resulta en un esqueleto potente capaz de generalizar a una amplia gama de degradaciones. En segundo lugar, adaptamos nuestro modelo base a tareas variables de restauración de imágenes utilizando adaptadores independientes de bajo rango. En tercer lugar, aprendemos a combinar adaptadores de forma adaptativa para imágenes versátiles a través de un estimador de degradación flexible y ligero. Nuestro modelo es potente para manejar distorsiones específicas y flexible para adaptarse a tareas complejas, superando significativamente al estado del arte en configuraciones de IR de cinco y tres tareas, mostrando una mejor generalización a degradaciones no vistas y también a distorsiones compuestas.

Entrenamiento y Evaluación de Modelos de Lenguaje con Generación de Datos Basada en Plantillas
Training and Evaluating Language Models with Template-based Data Generation

Nov 27

ByYifan Zhang

El rápido avance de los modelos de lenguaje grandes (LLMs) como GPT-3, PaLM y Llama ha transformado significativamente el procesamiento del lenguaje natural, mostrando capacidades notables en comprensión y generación de lenguaje. Sin embargo, estos modelos a menudo tienen dificultades con tareas que requieren razonamiento complejo, especialmente en la resolución de problemas matemáticos, debido en parte a la escasez de conjuntos de datos específicos del dominio a gran escala y de alta calidad necesarios para entrenar habilidades de razonamiento sofisticadas. Para abordar esta limitación, presentamos Generación de Datos Basada en Plantillas (TDG), un enfoque novedoso que aprovecha LLMs (GPT-4) para generar automáticamente meta-plantillas parametrizadas, las cuales se utilizan luego para sintetizar una amplia variedad de problemas y soluciones de alta calidad. Aprovechando TDG, creamos TemplateMath Parte I: TemplateGSM, un conjunto de datos que consta de más de 7 millones de problemas matemáticos de escuela primaria generados sintéticamente, cada uno acompañado de soluciones en lenguaje natural y basadas en código, con el potencial de generar un número efectivamente ilimitado más. Este conjunto de datos alivia la escasez de conjuntos de datos matemáticos a gran escala y sirve como un recurso valioso para el pre-entrenamiento, ajuste fino y evaluación de LLMs en razonamiento matemático. Nuestro método no solo permite la generación de datos virtualmente infinitos, sino que también eleva la ampliación de datos a un nuevo nivel mediante el uso de GPT-4 para la generación de meta-plantillas, asegurando estructuras de problemas diversas y de alta calidad. El conjunto de datos TemplateMath Parte I: TemplateGSM está disponible públicamente en https://huggingface.co/datasets/math-ai/TemplateGSM. El código está disponible en https://github.com/iiis-ai/TemplateMath.

Edita y Mi Rostro no Permanecerá: Defensa Biométrica Personal contra la Edición Generativa Maliciosa
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25

ByHanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu

Los avances recientes en modelos de difusión han facilitado la edición generativa de imágenes, permitiendo ediciones creativas pero planteando preocupaciones éticas, especialmente en cuanto a ediciones maliciosas en retratos humanos que amenazan la privacidad y la seguridad de la identidad. Los métodos de protección existentes se basan principalmente en perturbaciones adversariales para anular las ediciones, pero a menudo fallan ante solicitudes de edición diversas. Proponemos FaceLock, un enfoque novedoso para la protección de retratos que optimiza las perturbaciones adversariales para destruir o alterar significativamente la información biométrica, volviendo los resultados editados biométricamente irreconocibles. FaceLock integra el reconocimiento facial y la percepción visual en la optimización de perturbaciones para proporcionar una protección sólida contra varios intentos de edición. También destacamos fallos en las métricas de evaluación comúnmente utilizadas y revelamos cómo pueden ser manipuladas, enfatizando la necesidad de evaluaciones confiables de la protección. Los experimentos muestran que FaceLock supera a los valores base en la defensa contra ediciones maliciosas y es resistente contra técnicas de purificación. Estudios de ablación confirman su estabilidad y amplia aplicabilidad en algoritmos de edición basados en difusión. Nuestro trabajo avanza en la defensa biométrica y sienta las bases para prácticas que preservan la privacidad en la edición de imágenes. El código está disponible en: https://github.com/taco-group/FaceLock.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

CAT4D: Crea Cualquier Cosa en 4D con Modelos de Difusión de Video de Múltiples Vistas
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27

ByRundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski

Agentes de GUI con Grandes Modelos de Lenguaje: Una Encuesta
Large Language Model-Brained GUI Agents: A Survey

Nov 27

ByChaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang

MARVEL-40M+: Elaboración Visual Multinivel para la Creación de Contenido Texto a 3D de Alta Fidelidad
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26

BySankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal

Auto-Difusión para Generación de Imágenes Personalizadas sin Entrenamiento
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27

ByShengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein

Splatting Convexo en 3D: Renderizado de Campos de Radiación con Convexos Suaves en 3D
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22

ByJan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck

DiffusionDrive: Modelo de Difusión Truncado para Conducción Autónoma de Extremo a Extremo
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22

ByBencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang

Make-It-Animatable: Un Marco Eficiente para Crear Personajes 3D Listos para Animación
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27

ByZhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang

UniPose: Un marco unificado multimodal para la comprensión, generación y edición de posturas humanas
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25

ByYiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen

La decodificación colaborativa hace que el modelado visual auto-regresivo sea eficiente.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26

ByZigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

DreamCache: Generación de Imágenes Personalizadas Ligera sin Ajuste Fino a través de Caché de Características
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26

ByEmanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli

ChatRex: Domando LLM Multimodal para Percepción y Comprensión Conjunta
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Nov 27

ByQing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang

Generación de Sonido Foley Guiada por Video con Controles Multimodales
Video-Guided Foley Sound Generation with Multimodal Controls

Nov 26

ByZiyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon

Omegancia: Un Único Parámetro para Varias Granularidades en la Síntesis Basada en Difusión
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Nov 26

ByXinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy

Modelo en borrador sabe cuándo detenerse: Una política de longitud de autoverificación para decodificación especulativa
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Nov 27

ByZiyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu

Optimización de la Segmentación de Tumores Cerebrales con MedNeXt: BraTS 2024 SSA y Pediatría
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Nov 24

BySarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub

VideoLLM sabe cuándo hablar: Mejorando la comprensión de videos sensibles al tiempo con el formato de interacción Video-Texto Dúo.
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Nov 27

ByYueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao

Restauración de Imágenes Todo en Uno Adaptativa y a Ciegas
Adaptive Blind All-in-One Image Restoration

Nov 27

ByDavid Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral

Entrenamiento y Evaluación de Modelos de Lenguaje con Generación de Datos Basada en Plantillas
Training and Evaluating Language Models with Template-based Data Generation

Nov 27

ByYifan Zhang

Edita y Mi Rostro no Permanecerá: Defensa Biométrica Personal contra la Edición Generativa Maliciosa
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25

ByHanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu