Artículos de investigación en IA seleccionados diariamente con traducciones
El lenguaje natural a menudo tiene dificultades para asociar con precisión información posicional y atributiva con múltiples instancias, lo que limita a los modelos de generación visual basados en texto actuales a composiciones más simples que solo presentan unas pocas instancias dominantes. Para abordar esta limitación, este trabajo mejora los modelos de difusión al introducir control de instancias regionales, donde cada instancia está gobernada por un cuadro delimitador emparejado con una descripción de forma libre. Los métodos previos en esta área suelen depender de codificaciones de posición implícitas o máscaras de atención explícitas para separar regiones de interés (ROIs), lo que resulta en inyecciones de coordenadas inexactas o una gran carga computacional. Inspirados por ROI-Align en detección de objetos, introducimos una operación complementaria llamada ROI-Unpool. Juntas, ROI-Align y ROI-Unpool permiten una manipulación explícita, eficiente y precisa de ROIs en mapas de características de alta resolución para generación visual. Basándonos en ROI-Unpool, proponemos ROICtrl, un adaptador para modelos de difusión preentrenados que permite un control preciso de instancias regionales. ROICtrl es compatible con modelos de difusión ajustados por la comunidad, así como con complementos basados en espaciales existentes (por ejemplo, ControlNet, T2I-Adapter) y complementos basados en incrustaciones (por ejemplo, IP-Adapter, ED-LoRA), ampliando sus aplicaciones a generación multi-instancia. Los experimentos muestran que ROICtrl logra un rendimiento superior en el control de instancias regionales mientras reduce significativamente los costos computacionales.
Muchas consultas de usuarios del mundo real (por ejemplo, "¿Cómo hacer arroz frito con huevo?") podrían beneficiarse de sistemas capaces de generar respuestas con pasos textuales acompañados de imágenes, similar a un libro de cocina. Los modelos diseñados para generar texto e imágenes entrelazados enfrentan desafíos para garantizar la consistencia dentro y entre estas modalidades. Para abordar estos desafíos, presentamos ISG, un marco de evaluación integral para la generación de texto e imagen entrelazados. ISG aprovecha una estructura de grafo de escena para capturar las relaciones entre bloques de texto e imagen, evaluando las respuestas en cuatro niveles de granularidad: holístico, estructural, a nivel de bloque y específico de imagen. Esta evaluación multinivel permite una evaluación matizada de la consistencia, coherencia y precisión, y proporciona retroalimentación interpretable de pregunta-respuesta. En conjunto con ISG, presentamos un banco de pruebas, ISG-Bench, que abarca 1,150 muestras en 8 categorías y 21 subcategorías. Este conjunto de datos de referencia incluye dependencias complejas entre lenguaje y visión, y respuestas ideales para evaluar de manera efectiva modelos en tareas centradas en la visión, como la transferencia de estilo, un área desafiante para los modelos actuales. Utilizando ISG-Bench, demostramos que los modelos recientes unificados de visión y lenguaje tienen un bajo rendimiento en la generación de contenido entrelazado. Mientras que los enfoques composicionales que combinan modelos de lenguaje e imagen por separado muestran una mejora del 111% sobre los modelos unificados a nivel holístico, su rendimiento sigue siendo subóptimo tanto a nivel de bloque como de imagen. Para facilitar el trabajo futuro, desarrollamos ISG-Agent, un agente de referencia que emplea un proceso "planificar-ejecutar-refinar" para invocar herramientas, logrando una mejora del 122% en el rendimiento.
La generación de texto a video que preserva la identidad (IPT2V) tiene como objetivo crear videos de alta fidelidad con una identidad humana consistente. Es una tarea importante en la generación de videos, pero sigue siendo un problema abierto para los modelos generativos. Este documento empuja la frontera técnica de IPT2V en dos direcciones que no han sido resueltas en la literatura: (1) Un flujo de trabajo sin ajustes tediosos caso por caso, y (2) Un esquema de control basado en heurísticas que preserva la identidad de manera consciente de la frecuencia y basado en DiT. Proponemos ConsisID, un modelo IPT2V controlable basado en DiT sin ajustes para mantener la identidad humana consistente en el video generado. Inspirado en hallazgos previos en el análisis de frecuencia de transformadores de difusión, emplea señales de control de identidad en el dominio de frecuencia, donde las características faciales pueden descomponerse en características globales de baja frecuencia y características intrínsecas de alta frecuencia. En primer lugar, desde una perspectiva de baja frecuencia, introducimos un extractor facial global, que codifica imágenes de referencia y puntos clave faciales en un espacio latente, generando características enriquecidas con información de baja frecuencia. Estas características se integran luego en capas superficiales de la red para aliviar los desafíos de entrenamiento asociados con DiT. En segundo lugar, desde una perspectiva de alta frecuencia, diseñamos un extractor facial local para capturar detalles de alta frecuencia e inyectarlos en bloques transformadores, mejorando la capacidad del modelo para preservar características detalladas. Proponemos una estrategia de entrenamiento jerárquica para aprovechar la información de frecuencia para la preservación de la identidad, transformando un modelo de generación de video preentrenado básico en un modelo IPT2V. Experimentos extensos demuestran que nuestro esquema heurístico consciente de la frecuencia proporciona una solución de control óptima para modelos basados en DiT. Gracias a este esquema, nuestro ConsisID genera videos de alta calidad que preservan la identidad, avanzando hacia una IPT2V más efectiva.
La generación de contenido 3D de alta fidelidad a partir de indicaciones de texto sigue siendo un desafío significativo en visión por computadora debido al tamaño limitado, la diversidad y la profundidad de anotación de los conjuntos de datos existentes. Para abordar esto, presentamos MARVEL-40M+, un extenso conjunto de datos con 40 millones de anotaciones de texto para más de 8.9 millones de activos 3D recopilados de siete importantes conjuntos de datos 3D. Nuestra contribución es un novedoso proceso de anotación en múltiples etapas que integra VLMs y LLMs preentrenados de múltiples vistas de código abierto para producir automáticamente descripciones de varios niveles, que van desde detalladas (150-200 palabras) hasta etiquetas semánticas concisas (10-20 palabras). Esta estructura respalda tanto la reconstrucción 3D detallada como el prototipado rápido. Además, incorporamos metadatos humanos de los conjuntos de datos fuente en nuestro proceso de anotación para agregar información específica del dominio en nuestras anotaciones y reducir las alucinaciones de los VLM. Adicionalmente, desarrollamos MARVEL-FX3D, un proceso de texto a 3D en dos etapas. Ajustamos Stable Diffusion con nuestras anotaciones y utilizamos una red preentrenada de imagen a 3D para generar mallas texturizadas en 3D en 15 segundos. Evaluaciones exhaustivas muestran que MARVEL-40M+ supera significativamente a los conjuntos de datos existentes en calidad de anotación y diversidad lingüística, logrando tasas de acierto del 72.41% por GPT-4 y del 73.40% por evaluadores humanos.
Presentamos CAT4D, un método para crear escenas 4D (3D dinámico) a partir de video monocular. CAT4D aprovecha un modelo de difusión de video de múltiples vistas entrenado en una combinación diversa de conjuntos de datos para permitir la síntesis de vistas novedosas en poses y marcas de tiempo de cámara especificadas. Combinado con un enfoque de muestreo novedoso, este modelo puede transformar un solo video monocular en un video de múltiples vistas, permitiendo una reconstrucción 4D robusta mediante la optimización de una representación gaussiana 3D deformable. Demostramos un rendimiento competitivo en síntesis de vistas novedosas y benchmarks de reconstrucción de escenas dinámicas, y destacamos las capacidades creativas para la generación de escenas 4D a partir de videos reales o generados. Consulte nuestra página del proyecto para ver resultados y demos interactivas: cat-4d.github.io.
Las interfaces gráficas de usuario (GUIs) han sido fundamentales en la interacción humano-computadora, proporcionando una forma intuitiva y visual de acceder e interactuar con sistemas digitales. La llegada de los LLMs, en particular los modelos multimodales, ha marcado el inicio de una nueva era de automatización de GUIs. Han demostrado capacidades excepcionales en comprensión del lenguaje natural, generación de código y procesamiento visual. Esto ha allanado el camino para una nueva generación de agentes de GUI con LLM capaces de interpretar elementos de GUI complejos y ejecutar acciones de forma autónoma basándose en instrucciones en lenguaje natural. Estos agentes representan un cambio de paradigma, permitiendo a los usuarios realizar tareas complejas y de múltiples pasos a través de comandos conversacionales simples. Sus aplicaciones abarcan desde la navegación web, interacciones con aplicaciones móviles, hasta la automatización de escritorios, ofreciendo una experiencia de usuario transformadora que revoluciona la interacción de los individuos con el software. Este campo emergente avanza rápidamente, con progresos significativos tanto en la investigación como en la industria. Para proporcionar una comprensión estructurada de esta tendencia, este artículo presenta un estudio exhaustivo de agentes de GUI con LLM, explorando su evolución histórica, componentes principales y técnicas avanzadas. Abordamos preguntas de investigación como los marcos existentes de agentes de GUI, la recopilación y utilización de datos para entrenar agentes de GUI especializados, el desarrollo de modelos de acción extensos adaptados para tareas de GUI, y las métricas de evaluación y puntos de referencia necesarios para evaluar su efectividad. Además, examinamos las aplicaciones emergentes impulsadas por estos agentes. A través de un análisis detallado, este estudio identifica brechas clave en la investigación y esboza una hoja de ruta para futuros avances en el campo. Al consolidar conocimientos fundamentales y desarrollos de vanguardia, este trabajo tiene como objetivo guiar tanto a investigadores como a profesionales en la superación de desafíos y en la realización del pleno potencial de los agentes de GUI con LLM.
Los avances recientes en la reconstrucción de campos de radiación, como el Splatting Gaussiano 3D (3DGS), han logrado una síntesis de vistas novedosas de alta calidad y renderizado rápido al representar escenas con composiciones de primitivas gaussianas. Sin embargo, los Gaussians 3D presentan varias limitaciones para la reconstrucción de escenas. Capturar con precisión bordes duros es desafiante sin aumentar significativamente el número de Gaussians, lo que crea una gran huella de memoria. Además, tienen dificultades para representar superficies planas, ya que se difuminan en el espacio. Sin regularizadores hechos a mano, tienden a dispersarse de manera irregular alrededor de la superficie real. Para superar estos problemas, presentamos un método novedoso, llamado Splatting Convexo 3D (3DCS), que aprovecha convexos suaves en 3D como primitivas para modelar campos de radiación geométricamente significativos a partir de imágenes de múltiples vistas. Las formas convexas suaves ofrecen una mayor flexibilidad que los Gaussians, lo que permite una mejor representación de escenas en 3D con bordes duros y volúmenes densos utilizando menos primitivas. Impulsado por nuestro eficiente rasterizador basado en CUDA, 3DCS logra un rendimiento superior a 3DGS en benchmarks como Mip-NeRF360, Tanks and Temples y Deep Blending. Específicamente, nuestro método alcanza una mejora de hasta 0.81 en PSNR y 0.026 en LPIPS en comparación con 3DGS, manteniendo altas velocidades de renderizado y reduciendo el número de primitivas requeridas. Nuestros resultados resaltan el potencial del Splatting Convexo 3D para convertirse en el nuevo estándar para la reconstrucción de escenas de alta calidad y la síntesis de vistas novedosas. Página del proyecto: convexsplatting.github.io.
Los modelos de difusión texto-imagen producen resultados impresionantes pero son herramientas frustrantes para artistas que desean un control detallado. Por ejemplo, un caso de uso común es crear imágenes de una instancia específica en contextos novedosos, es decir, "generación preservando la identidad". Esta configuración, junto con muchas otras tareas (por ejemplo, cambio de iluminación), se adapta naturalmente a los modelos generativos condicionales de imagen+texto. Sin embargo, no hay datos emparejados de alta calidad suficientes para entrenar directamente dicho modelo. Proponemos la Auto-Destilación por Difusión, un método para utilizar un modelo pre-entrenado de texto a imagen para generar su propio conjunto de datos para tareas de imagen a imagen condicionadas por texto. Primero aprovechamos la capacidad de generación en contexto de un modelo de difusión de texto a imagen para crear cuadrículas de imágenes y curar un gran conjunto de datos emparejados con la ayuda de un Modelo Visual-Lenguaje. Luego ajustamos finamente el modelo de texto a imagen a un modelo de texto+imagen a imagen utilizando el conjunto de datos emparejados curados. Demostramos que la Auto-Destilación por Difusión supera a los métodos de cero disparo existentes y es competitiva con técnicas de ajuste por instancia en una amplia gama de tareas de generación de preservación de identidad, sin requerir optimización en tiempo de prueba.
Recientemente, el modelo de difusión ha surgido como una técnica generativa poderosa para el aprendizaje de políticas robóticas, capaz de modelar distribuciones de acciones multimodales. Aprovechar su capacidad para la conducción autónoma de extremo a extremo es una dirección prometedora. Sin embargo, los numerosos pasos de eliminación de ruido en la política de difusión robótica y la naturaleza más dinámica y abierta de las escenas de tráfico plantean desafíos sustanciales para generar diversas acciones de conducción a velocidad en tiempo real. Para abordar estos desafíos, proponemos una nueva política de difusión truncada que incorpora anclajes previos multimodales y trunca el programa de difusión, lo que permite que el modelo aprenda la eliminación de ruido desde una distribución gaussiana anclada hasta la distribución de acciones de conducción multimodales. Además, diseñamos un decodificador de difusión en cascada eficiente para una interacción mejorada con el contexto de escena condicional. El modelo propuesto, DiffusionDrive, demuestra una reducción de 10 veces en los pasos de eliminación de ruido en comparación con la política de difusión estándar, ofreciendo una diversidad y calidad superiores en solo 2 pasos. En el conjunto de datos NAVSIM orientado a la planificación, con la columna vertebral ResNet-34 alineada, DiffusionDrive logra 88.1 PDMS sin adornos, estableciendo un nuevo récord, mientras se ejecuta a una velocidad en tiempo real de 45 FPS en una NVIDIA 4090. Los resultados cualitativos en escenarios desafiantes confirman además que DiffusionDrive puede generar de manera robusta diversas acciones de conducción plausibles. El código y el modelo estarán disponibles en https://github.com/hustvl/DiffusionDrive.
Los personajes en 3D son esenciales para las industrias creativas modernas, pero hacerlos animables a menudo requiere un extenso trabajo manual en tareas como el rigging y el skinning. Las herramientas automáticas de rigging existentes enfrentan varias limitaciones, incluyendo la necesidad de anotaciones manuales, topologías de esqueleto rígidas y una limitada generalización a través de formas y poses diversas. Un enfoque alternativo es generar avatares animables preligados a una malla de plantilla riggeada. Sin embargo, este método a menudo carece de flexibilidad y típicamente se limita a formas humanas realistas. Para abordar estos problemas, presentamos Make-It-Animatable, un novedoso método basado en datos para preparar cualquier modelo humanoide en 3D listo para animación de personajes en menos de un segundo, independientemente de sus formas y poses. Nuestro marco unificado genera pesos de mezcla, huesos y transformaciones de poses de alta calidad. Al incorporar un autoencoder de formas basado en partículas, nuestro enfoque admite diversas representaciones en 3D, incluyendo mallas y salpicaduras gaussianas en 3D. Además, empleamos una representación de grueso a fino y una estrategia de modelado consciente de la estructura para garantizar tanto la precisión como la robustez, incluso para personajes con estructuras de esqueleto no estándar. Realizamos experimentos extensos para validar la efectividad de nuestro marco. En comparación con los métodos existentes, nuestro enfoque demuestra mejoras significativas tanto en calidad como en velocidad.
En el campo de generación de imágenes en constante avance, el modelado Visual Auto-Regressive (VAR) ha captado considerable atención por su innovador enfoque de predicción a la siguiente escala. Este paradigma ofrece mejoras sustanciales en eficiencia, escalabilidad y generalización de cero disparos. Sin embargo, la naturaleza inherentemente de grueso a fino del VAR introduce una secuencia de tokens prolongada, lo que conlleva a un consumo de memoria prohibitivo y redundancias computacionales. Para abordar estos cuellos de botella, proponemos Decodificación Colaborativa (CoDe), una novedosa estrategia de decodificación eficiente diseñada para el marco de VAR. CoDe se basa en dos observaciones críticas: las demandas de parámetros sustancialmente reducidas en escalas más grandes y los patrones exclusivos de generación en diferentes escalas. Con base en estos conocimientos, dividimos el proceso de inferencia multi-escala en una colaboración fluida entre un modelo grande y un modelo pequeño. El modelo grande actúa como el 'diseñador', especializándose en generar contenido de baja frecuencia en escalas más pequeñas, mientras que el modelo más pequeño actúa como el 'perfeccionador', enfocándose únicamente en predecir detalles de alta frecuencia en escalas más grandes. Esta colaboración produce una eficiencia notable con un impacto mínimo en la calidad: CoDe logra una aceleración de 1.7 veces, reduce el uso de memoria en alrededor del 50% y conserva la calidad de imagen con solo un aumento FID insignificante de 1.95 a 1.98. Cuando se disminuyen aún más los pasos de diseño, CoDe puede lograr una impresionante relación de aceleración de 2.9 veces, alcanzando 41 imágenes/s a una resolución de 256x256 en una sola GPU NVIDIA 4090, manteniendo un FID loable de 2.27. El código está disponible en https://github.com/czg1225/CoDe
La generación de imágenes personalizadas requiere modelos generativos de texto a imagen que capturen las características principales de un sujeto de referencia para permitir una generación controlada en diferentes contextos. Los métodos existentes enfrentan desafíos debido a requisitos de entrenamiento complejos, altos costos de inferencia, flexibilidad limitada o una combinación de estos problemas. En este documento, presentamos DreamCache, un enfoque escalable para una generación eficiente y de alta calidad de imágenes personalizadas. Al almacenar en caché un pequeño número de características de imagen de referencia de un subconjunto de capas y un solo paso de tiempo del desenfocador de difusión preentrenado, DreamCache permite la modulación dinámica de las características de imagen generadas a través de adaptadores de condicionamiento ligeros y entrenados. DreamCache logra un alineamiento de imagen y texto de vanguardia, utilizando un orden de magnitud menos parámetros adicionales, y es tanto más efectivo computacionalmente como más versátil que los modelos existentes.
La postura humana juega un papel crucial en la era digital. Si bien trabajos recientes han logrado un progreso impresionante en la comprensión y generación de posturas humanas, a menudo solo admiten una sola modalidad de señales de control y operan de forma aislada, limitando su aplicación en escenarios del mundo real. Este artículo presenta UniPose, un marco que emplea Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) para comprender, generar y editar posturas humanas en diversas modalidades, incluidas imágenes, texto y posturas 3D de SMPL. Específicamente, aplicamos un tokenizador de posturas para convertir posturas 3D en tokens de postura discretos, lo que permite una integración fluida en el LLM dentro de un vocabulario unificado. Para mejorar aún más las capacidades de percepción de posturas detalladas, facilitamos a UniPose con una mezcla de codificadores visuales, entre ellos un codificador visual específico de posturas. Beneficiándose de una estrategia de aprendizaje unificada, UniPose transfiere eficazmente conocimientos entre diferentes tareas relevantes para las posturas, se adapta a tareas no vistas y muestra capacidades extendidas. Este trabajo sirve como el primer intento de construir un marco de propósito general para la comprensión, generación y edición de posturas. Experimentos extensos resaltan el rendimiento competitivo e incluso superior de UniPose en diversas tareas relevantes para las posturas.
La percepción y la comprensión son dos pilares de la visión por computadora. Si bien los modelos de lenguaje multimodales grandes (MLLM) han demostrado notables capacidades de comprensión visual, carecen, en opinión de algunos, de habilidades de percepción precisas, por ejemplo, el modelo de vanguardia Qwen2-VL solo logra una tasa de recuperación del 43.9 en el conjunto de datos COCO, lo que limita muchas tareas que requieren la combinación de percepción y comprensión. En este trabajo, nuestro objetivo es cerrar esta brecha de percepción desde las perspectivas del diseño del modelo y el desarrollo de datos. En primer lugar, presentamos ChatRex, un MLLM con un diseño de percepción desacoplado. En lugar de que el MLL prediga directamente las coordenadas de las cajas, alimentamos las cajas de salida de una red de propuestas universal en el MLL, lo que le permite producir los índices de caja correspondientes para representar sus resultados de detección, convirtiendo la tarea de regresión en una tarea basada en recuperación que el MLL maneja de manera más competente. Desde la perspectiva de los datos, construimos un motor de datos completamente automatizado y creamos el conjunto de datos Rexverse-2M que posee múltiples granularidades para respaldar el entrenamiento conjunto de percepción y comprensión. Después del entrenamiento estándar de dos etapas, ChatRex demuestra sólidas capacidades de percepción mientras conserva el rendimiento de comprensión multimodal. La combinación de estas dos capacidades desbloquea simultáneamente muchas aplicaciones atractivas, demostrando los roles complementarios de la percepción y la comprensión en los MLLM. El código está disponible en https://github.com/IDEA-Research/ChatRex.
La generación de efectos de sonido para videos a menudo requiere la creación de efectos de sonido artísticos que se alejan significativamente de fuentes de la vida real y un control flexible en el diseño de sonido. Para abordar este problema, presentamos MultiFoley, un modelo diseñado para la generación de sonido guiada por video que admite condicionamiento multimodal a través de texto, audio y video. Dado un video silencioso y una indicación de texto, MultiFoley permite a los usuarios crear sonidos limpios (por ejemplo, ruedas de monopatín girando sin ruido de viento) o sonidos más caprichosos (por ejemplo, hacer que el rugido de un león suene como el maullido de un gato). MultiFoley también permite a los usuarios elegir audio de referencia de bibliotecas de efectos de sonido (SFX) o videos parciales para el condicionamiento. Una novedad clave de nuestro modelo radica en su entrenamiento conjunto en conjuntos de datos de videos de internet con audio de baja calidad y grabaciones de SFX profesionales, lo que permite la generación de audio de alta calidad y ancho de banda completo (48kHz). A través de evaluaciones automatizadas y estudios con humanos, demostramos que MultiFoley genera con éxito sonidos de alta calidad sincronizados a través de diversos inputs condicionales y supera a los métodos existentes. Por favor, consulte nuestra página de proyecto para ver los resultados en video: https://ificl.github.io/MultiFoley/
En este trabajo, introducimos un único parámetro omega para controlar de manera efectiva la granularidad en la síntesis basada en difusión. Este parámetro se incorpora durante los pasos de eliminación de ruido del proceso inverso del modelo de difusión. Nuestro enfoque no requiere el reentrenamiento del modelo, modificaciones arquitectónicas o sobrecarga computacional adicional durante la inferencia, pero permite un control preciso sobre el nivel de detalles en las salidas generadas. Además, se pueden aplicar máscaras espaciales o programaciones de eliminación de ruido con diferentes valores de omega para lograr un control de granularidad específico de la región o del paso de tiempo. El conocimiento previo de la composición de imágenes a partir de señales de control o imágenes de referencia facilita aún más la creación de máscaras omega precisas para el control de la granularidad en objetos específicos. Para resaltar el papel del parámetro en el control de variaciones sutiles de detalles, la técnica se denomina Omegance, combinando "omega" y "nuance". Nuestro método demuestra un rendimiento impresionante en diversas tareas de síntesis de imágenes y videos, y es adaptable a modelos de difusión avanzados. El código está disponible en https://github.com/itsmag11/Omegance.
La Decodificación Especulativa (SD, por sus siglas en inglés) se ha convertido en una técnica importante para acelerar la velocidad de inferencia de grandes modelos de lenguaje. Los métodos convencionales de SD emplean una longitud de borrador fija, lo cual ignora la dificultad de generación de tokens entre tareas. En consecuencia, en este documento abordamos dicho problema e introducimos SVIP, una política de longitud de borrador dinámica consciente de la dificultad para sistemas de decodificación especulativa. Basado en un límite teórico inferior de la tasa de aceptación de tokens de borrador y su aproximación en tiempo de inferencia, SVIP determina de manera adaptativa las longitudes de las secuencias de borrador en función de la entropía de la distribución de cada token de borrador. Los resultados experimentales en bancos de pruebas y marcos de trabajo de SD convencionales demuestran el rendimiento superior de SVIP, logrando hasta un 20\% de aceleración en el tiempo de ejecución en SpecBench sobre los métodos de SD base y un 60\% de aceleración en MT-Bench para la generación de texto largo de hasta 8K tokens. Además, SVIP no requiere entrenamiento y es compatible con cualquier método de SD existente que genere tokens de borrador de forma autoregresiva. Los resultados experimentales también muestran que SVIP proporciona una mejora consistente en el tiempo de ejecución sobre GliDe & CaPE y EAGLE-2.
Las investigaciones recientes sobre grandes modelos de lenguaje de video (VideoLLM) se centran principalmente en las arquitecturas de modelos y conjuntos de datos de entrenamiento, dejando sin explorar el formato de interacción entre el usuario y el modelo. En trabajos existentes, los usuarios suelen interactuar con VideoLLMs utilizando el video completo y una consulta como entrada, tras lo cual el modelo genera una respuesta. Este formato de interacción limita la aplicación de VideoLLMs en escenarios como la comprensión de transmisiones en vivo, donde los videos no terminan y se requieren respuestas en tiempo real, y también resulta en un rendimiento insatisfactorio en tareas sensibles al tiempo que requieren la localización de segmentos de video. En este documento, nos centramos en un formato de interacción video-texto en dúo. Este formato de interacción se caracteriza por la reproducción continua del video, y tanto el usuario como el modelo pueden insertar sus mensajes de texto en cualquier posición durante la reproducción del video. Cuando un mensaje de texto termina, el video continúa reproduciéndose, similar a la alternancia de dos intérpretes en un dúo. Construimos MMDuetIT, un conjunto de datos de entrenamiento de video-texto diseñado para adaptar los VideoLLMs al formato de interacción video-texto en dúo. También presentamos la tarea de Preguntas y Respuestas de Video Ancladas con Múltiples Respuestas (MAGQA) para evaluar la capacidad de respuesta en tiempo real de los VideoLLMs. Entrenado en MMDuetIT, MMDuet demuestra que adoptar el formato de interacción video-texto en dúo permite que el modelo logre mejoras significativas en varias tareas sensibles al tiempo (76% CIDEr en la generación densa de subtítulos de video YouCook2, 90% mAP en la detección de momentos destacados QVHighlights y 25% [email protected] en la localización temporal de videos Charades-STA) con esfuerzos de entrenamiento mínimos, y también permite que los VideoLLMs respondan en tiempo real mientras el video se reproduce. El código, los datos y la demostración están disponibles en: https://github.com/yellow-binary-tree/MMDuet.
La identificación de características patológicas clave en las resonancias magnéticas cerebrales es crucial para la supervivencia a largo plazo de los pacientes con glioma. Sin embargo, la segmentación manual es un proceso que consume tiempo, requiere intervención de expertos y es susceptible a errores humanos. Por lo tanto, se ha dedicado una investigación significativa al desarrollo de métodos de aprendizaje automático que puedan segmentar con precisión tumores en escaneos 3D de resonancias magnéticas cerebrales multimodales. A pesar de los avances, los modelos de vanguardia suelen estar limitados por los datos en los que se entrenan, lo que plantea preocupaciones sobre su fiabilidad al aplicarse a poblaciones diversas que pueden introducir cambios en la distribución. Estos cambios pueden deberse a tecnología de resonancia magnética de menor calidad (por ejemplo, en África subsahariana) o variaciones en las características demográficas de los pacientes (por ejemplo, niños). El desafío BraTS-2024 proporciona una plataforma para abordar estos problemas. Este estudio presenta nuestra metodología para la segmentación de tumores en las tareas BraTS-2024 SSA y Tumores Pediátricos utilizando MedNeXt, un ensamblaje exhaustivo de modelos y un postprocesamiento detallado. Nuestro enfoque demostró un rendimiento sólido en el conjunto de validación no visto, logrando un Coeficiente de Similitud de Dice (DSC) promedio de 0.896 en el conjunto de datos BraTS-2024 SSA y un DSC promedio de 0.830 en el conjunto de datos de Tumores Pediátricos de BraTS. Además, nuestro método logró una Distancia de Hausdorff promedio (HD95) de 14.682 en el conjunto de datos BraTS-2024 SSA y un HD95 promedio de 37.508 en el conjunto de datos Pediátricos de BraTS. Nuestro repositorio de GitHub se puede acceder aquí: Repositorio del Proyecto: https://github.com/python-arch/BioMbz-Optimizing-Brain-Tumor-Segmentation-with-MedNeXt-BraTS-2024-SSA-and-Pediatrics
Los modelos ciegos de restauración de imágenes todo en uno tienen como objetivo recuperar una imagen de alta calidad a partir de una entrada degradada con distorsiones desconocidas. Sin embargo, estos modelos requieren que todos los posibles tipos de degradación estén definidos durante la etapa de entrenamiento, mostrando una generalización limitada a degradaciones no vistas, lo que limita su aplicación práctica en casos complejos. En este documento, proponemos un modelo de restauración ciega todo en uno adaptativo y simple pero efectivo (ABAIR), que puede abordar múltiples degradaciones, generalizarse bien a degradaciones no vistas e incorporar eficientemente nuevas degradaciones mediante el entrenamiento de una pequeña fracción de parámetros. Primero, entrenamos nuestro modelo base en un gran conjunto de datos de imágenes naturales con múltiples degradaciones sintéticas, aumentadas con una cabeza de segmentación para estimar los tipos de degradación por píxel, lo que resulta en un esqueleto potente capaz de generalizar a una amplia gama de degradaciones. En segundo lugar, adaptamos nuestro modelo base a tareas variables de restauración de imágenes utilizando adaptadores independientes de bajo rango. En tercer lugar, aprendemos a combinar adaptadores de forma adaptativa para imágenes versátiles a través de un estimador de degradación flexible y ligero. Nuestro modelo es potente para manejar distorsiones específicas y flexible para adaptarse a tareas complejas, superando significativamente al estado del arte en configuraciones de IR de cinco y tres tareas, mostrando una mejor generalización a degradaciones no vistas y también a distorsiones compuestas.
El rápido avance de los modelos de lenguaje grandes (LLMs) como GPT-3, PaLM y Llama ha transformado significativamente el procesamiento del lenguaje natural, mostrando capacidades notables en comprensión y generación de lenguaje. Sin embargo, estos modelos a menudo tienen dificultades con tareas que requieren razonamiento complejo, especialmente en la resolución de problemas matemáticos, debido en parte a la escasez de conjuntos de datos específicos del dominio a gran escala y de alta calidad necesarios para entrenar habilidades de razonamiento sofisticadas. Para abordar esta limitación, presentamos Generación de Datos Basada en Plantillas (TDG), un enfoque novedoso que aprovecha LLMs (GPT-4) para generar automáticamente meta-plantillas parametrizadas, las cuales se utilizan luego para sintetizar una amplia variedad de problemas y soluciones de alta calidad. Aprovechando TDG, creamos TemplateMath Parte I: TemplateGSM, un conjunto de datos que consta de más de 7 millones de problemas matemáticos de escuela primaria generados sintéticamente, cada uno acompañado de soluciones en lenguaje natural y basadas en código, con el potencial de generar un número efectivamente ilimitado más. Este conjunto de datos alivia la escasez de conjuntos de datos matemáticos a gran escala y sirve como un recurso valioso para el pre-entrenamiento, ajuste fino y evaluación de LLMs en razonamiento matemático. Nuestro método no solo permite la generación de datos virtualmente infinitos, sino que también eleva la ampliación de datos a un nuevo nivel mediante el uso de GPT-4 para la generación de meta-plantillas, asegurando estructuras de problemas diversas y de alta calidad. El conjunto de datos TemplateMath Parte I: TemplateGSM está disponible públicamente en https://huggingface.co/datasets/math-ai/TemplateGSM. El código está disponible en https://github.com/iiis-ai/TemplateMath.
Los avances recientes en modelos de difusión han facilitado la edición generativa de imágenes, permitiendo ediciones creativas pero planteando preocupaciones éticas, especialmente en cuanto a ediciones maliciosas en retratos humanos que amenazan la privacidad y la seguridad de la identidad. Los métodos de protección existentes se basan principalmente en perturbaciones adversariales para anular las ediciones, pero a menudo fallan ante solicitudes de edición diversas. Proponemos FaceLock, un enfoque novedoso para la protección de retratos que optimiza las perturbaciones adversariales para destruir o alterar significativamente la información biométrica, volviendo los resultados editados biométricamente irreconocibles. FaceLock integra el reconocimiento facial y la percepción visual en la optimización de perturbaciones para proporcionar una protección sólida contra varios intentos de edición. También destacamos fallos en las métricas de evaluación comúnmente utilizadas y revelamos cómo pueden ser manipuladas, enfatizando la necesidad de evaluaciones confiables de la protección. Los experimentos muestran que FaceLock supera a los valores base en la defensa contra ediciones maliciosas y es resistente contra técnicas de purificación. Estudios de ablación confirman su estabilidad y amplia aplicabilidad en algoritmos de edición basados en difusión. Nuestro trabajo avanza en la defensa biométrica y sienta las bases para prácticas que preservan la privacidad en la edición de imágenes. El código está disponible en: https://github.com/taco-group/FaceLock.