Artículos de investigación en IA seleccionados diariamente con traducciones
Los datos de instrucción de alta calidad son cruciales para alinear los modelos de lenguaje grandes (LLMs). Aunque algunos modelos, como Llama-3-Instruct, tienen pesos abiertos, sus datos de alineación permanecen privados, lo que obstaculiza la democratización de la IA. Los altos costos de mano de obra humana y un alcance limitado y predefinido para la creación de prompts impiden que los métodos existentes de creación de datos de código abierto escalen de manera efectiva, lo que potencialmente limita la diversidad y calidad de los conjuntos de datos de alineación públicos. ¿Es posible sintetizar datos de instrucción de alta calidad a gran escala extrayéndolos directamente de un LLM alineado? Presentamos un método de auto-síntesis para generar datos de alineación a gran escala llamado Magpie. Nuestra observación clave es que los LLMs alineados como Llama-3-Instruct pueden generar una consulta de usuario cuando solo introducimos las plantillas del lado izquierdo hasta la posición reservada para los mensajes del usuario, gracias a su naturaleza auto-regresiva. Utilizamos este método para hacer prompts a Llama-3-Instruct y generar 4 millones de instrucciones junto con sus respuestas correspondientes. Realizamos un análisis exhaustivo de los datos extraídos y seleccionamos 300K instancias de alta calidad. Para comparar los datos de Magpie con otros conjuntos de datos de instrucción públicos, ajustamos Llama-3-8B-Base con cada conjunto de datos y evaluamos el rendimiento de los modelos ajustados. Nuestros resultados indican que, en algunas tareas, los modelos ajustados con Magpie tienen un rendimiento comparable al oficial Llama-3-8B-Instruct, a pesar de que este último ha sido mejorado con 10 millones de puntos de datos mediante ajuste fino supervisado (SFT) y posterior aprendizaje por retroalimentación. También demostramos que usar Magpie únicamente para SFT puede superar el rendimiento de conjuntos de datos públicos anteriores utilizados tanto para SFT como para optimización de preferencias, como la optimización directa de preferencias con UltraFeedback. Esta ventaja es evidente en benchmarks de alineación como AlpacaEval, ArenaHard y WildBench.
Proponemos un marco de edición de vídeo, NaRCan, que integra un campo de deformación híbrido y un prior de difusión para generar imágenes canónicas naturales de alta calidad que representen el vídeo de entrada. Nuestro enfoque utiliza homografía para modelar el movimiento global y emplea perceptrones multicapa (MLPs) para capturar deformaciones residuales locales, mejorando la capacidad del modelo para manejar dinámicas de vídeo complejas. Al introducir un prior de difusión desde las primeras etapas del entrenamiento, nuestro modelo garantiza que las imágenes generadas mantengan una apariencia natural de alta calidad, haciendo que las imágenes canónicas producidas sean adecuadas para diversas tareas posteriores en la edición de vídeo, una capacidad no alcanzada por los métodos basados en canónicos actuales. Además, incorporamos un ajuste fino de adaptación de bajo rango (LoRA) e introducimos una técnica de programación de actualización de ruido y prior de difusión que acelera el proceso de entrenamiento en 14 veces. Los resultados experimentales extensivos muestran que nuestro método supera a los enfoques existentes en diversas tareas de edición de vídeo y produce secuencias de vídeo editadas coherentes y de alta calidad. Consulte nuestra página del proyecto para ver los resultados en vídeo en https://koi953215.github.io/NaRCan_page/.
Los pares imagen-texto obtenidos mediante rastreo web son inherentemente ruidosos. Estudios previos demuestran que alinear semánticamente y enriquecer las descripciones textuales de estos pares puede mejorar significativamente el entrenamiento de modelos en diversas tareas de visión y lenguaje, particularmente en la generación de imágenes a partir de texto. Sin embargo, las investigaciones a gran escala en esta área siguen siendo predominantemente de código cerrado. Nuestro artículo busca cerrar esta brecha en la comunidad, aprovechando el potente y de código abierto LLaMA-3, un modelo de lenguaje grande (LLM) de nivel GPT-4. Nuestro pipeline de recaptioning es sencillo: primero, ajustamos finamente un LLaVA-1.5 basado en LLaMA-3-8B y luego lo empleamos para recapturar 1.300 millones de imágenes del conjunto de datos DataComp-1B. Nuestros resultados empíricos confirman que este conjunto de datos mejorado, Recap-DataComp-1B, ofrece beneficios sustanciales en el entrenamiento de modelos avanzados de visión y lenguaje. Para modelos discriminativos como CLIP, observamos un mejor rendimiento en tareas de recuperación multimodal en escenarios de cero-shot. Para modelos generativos como los Transformers de Difusión para texto a imagen, las imágenes generadas muestran una mejora significativa en la alineación con las instrucciones textuales de los usuarios, especialmente al seguir consultas complejas. Nuestra página del proyecto es https://www.haqtu.me/Recap-Datacomp-1B/.
La generación controlada de texto a vídeo basada en movimiento implica el uso de movimientos para controlar la generación del vídeo. Los métodos anteriores generalmente requieren el entrenamiento de modelos para codificar señales de movimiento o el ajuste fino de modelos de difusión de vídeo. Sin embargo, estos enfoques suelen resultar en una generación de movimiento subóptima cuando se aplican fuera del dominio entrenado. En este trabajo, proponemos MotionClone, un marco sin necesidad de entrenamiento que permite clonar el movimiento de un vídeo de referencia para controlar la generación de texto a vídeo. Empleamos atención temporal en la inversión de vídeo para representar los movimientos en el vídeo de referencia e introducimos una guía de atención temporal primaria para mitigar la influencia de movimientos ruidosos o muy sutiles dentro de los pesos de atención. Además, para ayudar al modelo de generación a sintetizar relaciones espaciales razonables y mejorar su capacidad de seguir instrucciones, proponemos un mecanismo de guía semántica consciente de la ubicación que aprovecha la ubicación aproximada del primer plano del vídeo de referencia y las características originales de guía sin clasificador para guiar la generación del vídeo. Experimentos extensos demuestran que MotionClone muestra competencia tanto en el movimiento global de la cámara como en el movimiento local de objetos, con una notable superioridad en términos de fidelidad de movimiento, alineación textual y consistencia temporal.
En los últimos años, ha habido un rápido desarrollo en los modelos de generación 3D, abriendo nuevas posibilidades para aplicaciones como la simulación de movimientos dinámicos de objetos 3D y la personalización de sus comportamientos. Sin embargo, los modelos generativos 3D actuales tienden a centrarse únicamente en características superficiales como el color y la forma, descuidando las propiedades físicas inherentes que gobiernan el comportamiento de los objetos en el mundo real. Para simular con precisión dinámicas alineadas con la física, es esencial predecir las propiedades físicas de los materiales e incorporarlas en el proceso de predicción del comportamiento. No obstante, predecir los diversos materiales de los objetos del mundo real sigue siendo un desafío debido a la naturaleza compleja de sus atributos físicos. En este artículo, proponemos Physics3D, un método novedoso para aprender diversas propiedades físicas de objetos 3D a través de un modelo de difusión de video. Nuestro enfoque implica diseñar un sistema de simulación física altamente generalizable basado en un modelo de material viscoelástico, lo que nos permite simular una amplia gama de materiales con capacidades de alta fidelidad. Además, destilamos los conocimientos previos físicos de un modelo de difusión de video que contiene una mayor comprensión de los materiales realistas de los objetos. Experimentos extensos demuestran la efectividad de nuestro método tanto con materiales elásticos como plásticos. Physics3D muestra un gran potencial para cerrar la brecha entre el mundo físico y el espacio neural virtual, proporcionando una mejor integración y aplicación de principios físicos realistas en entornos virtuales. Página del proyecto: https://liuff19.github.io/Physics3D.
Este artículo presenta PowerInfer-2, un marco diseñado para la inferencia de alta velocidad de Modelos de Lenguaje de Gran Escala (LLMs) en smartphones, particularmente efectivo para modelos cuyo tamaño excede la capacidad de memoria del dispositivo. La idea clave de PowerInfer-2 es aprovechar los recursos heterogéneos de computación, memoria y E/S en smartphones mediante la descomposición de cálculos matriciales tradicionales en cálculos de clústeres de neuronas de grano fino. Específicamente, PowerInfer-2 incluye un motor de neuronas polimórfico que adapta las estrategias computacionales para diversas etapas de la inferencia de LLMs. Además, introduce un almacenamiento en caché segmentado de neuronas y un pipeline a nivel de clústeres de neuronas de grano fino, lo que minimiza y oculta eficazmente la sobrecarga causada por las operaciones de E/S. La implementación y evaluación de PowerInfer-2 demuestran su capacidad para soportar una amplia gama de modelos LLM en dos smartphones, logrando un aumento de velocidad de hasta 29.2x en comparación con los marcos más avanzados. Cabe destacar que PowerInfer-2 es el primer sistema en servir el modelo TurboSparse-Mixtral-47B con una tasa de generación de 11.68 tokens por segundo en un smartphone. Para modelos que caben completamente en la memoria, PowerInfer-2 puede lograr una reducción aproximada del 40% en el uso de memoria mientras mantiene velocidades de inferencia comparables a llama.cpp y MLC-LLM. Para más detalles, incluyendo un video de demostración, visite el sitio del proyecto en www.powerinfer.ai/v2.
Quizás no. Identificamos y analizamos errores en el popular benchmark de Comprensión del Lenguaje Multitarea Masiva (MMLU). Aunque MMLU es ampliamente adoptado, nuestro análisis demuestra numerosos errores en las respuestas de referencia que oscurecen las verdaderas capacidades de los LLM. Por ejemplo, encontramos que el 57% de las preguntas analizadas en el subconjunto de Virología contienen errores. Para abordar este problema, introducimos un marco integral para identificar errores en conjuntos de datos utilizando una taxonomía de errores novedosa. Luego, creamos MMLU-Redux, un subconjunto de 3,000 preguntas reanotadas manualmente en 30 temas de MMLU. Utilizando MMLU-Redux, demostramos discrepancias significativas con las métricas de rendimiento de los modelos que se reportaron originalmente. Nuestros resultados abogan firmemente por revisar las preguntas de MMLU que contienen errores para mejorar su utilidad y confiabilidad futura como benchmark. Por lo tanto, abrimos MMLU-Redux para anotaciones adicionales en https://huggingface.co/datasets/edinburgh-dawg/mmlu-redux.
En este artículo, presentamos VideoLLaMA 2, un conjunto de Modelos de Lenguaje Grande para Video (Video-LLMs) diseñados para mejorar el modelado espacio-temporal y la comprensión de audio en tareas orientadas a video y audio. Basándose en su predecesor, VideoLLaMA 2 incorpora un conector de Convolución Espacio-Temporal (STC) especialmente diseñado, que captura eficazmente las complejas dinámicas espaciales y temporales de los datos de video. Además, integramos una Rama de Audio en el modelo mediante entrenamiento conjunto, enriqueciendo así las capacidades de comprensión multimodal del modelo al incorporar de manera fluida las señales de audio. Evaluaciones exhaustivas en tareas de respuesta a preguntas de video de opción múltiple (MC-VQA), respuesta a preguntas de video abiertas (OE-VQA) y generación de subtítulos de video (VC) demuestran que VideoLLaMA 2 logra consistentemente resultados competitivos entre los modelos de código abierto e incluso se acerca a algunos modelos propietarios en varios benchmarks. Además, VideoLLaMA 2 muestra mejoras razonables en benchmarks de respuesta a preguntas solo de audio y de audio-video (AQA & OE-AVQA) en comparación con los modelos existentes. Estos avances subrayan el rendimiento superior de VideoLLaMA 2 en la comprensión multimodal, estableciendo un nuevo estándar para los sistemas de análisis inteligente de video. Todos los modelos son públicos para facilitar investigaciones futuras.
La integración del lenguaje y la percepción 3D es crucial para desarrollar agentes y robots corporizados que comprendan e interactúen con el mundo físico. Si bien los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades impresionantes de comprensión y generación de lenguaje, su adaptación a entornos 3D (3D-LLMs) sigue en sus primeras etapas. Un desafío principal es la ausencia de conjuntos de datos a gran escala que proporcionen un anclaje denso entre el lenguaje y las escenas 3D. En este artículo, presentamos 3D-GRAND, un conjunto de datos pionero a gran escala que comprende 40,087 escenas domésticas emparejadas con 6.2 millones de instrucciones de lenguaje ancladas densamente a las escenas. Nuestros resultados muestran que el ajuste por instrucciones con 3D-GRAND mejora significativamente las capacidades de anclaje y reduce las alucinaciones en los 3D-LLMs. Como parte de nuestras contribuciones, proponemos un punto de referencia integral, 3D-POPE, para evaluar sistemáticamente las alucinaciones en los 3D-LLMs, permitiendo comparaciones justas entre futuros modelos. Nuestros experimentos destacan un efecto de escalabilidad entre el tamaño del conjunto de datos y el rendimiento de los 3D-LLMs, enfatizando el papel crítico de los conjuntos de datos de texto 3D a gran escala en el avance de la investigación en IA corporizada. Notablemente, nuestros resultados muestran señales tempranas de una transferencia efectiva de simulación a realidad, indicando que los modelos entrenados con grandes cantidades de datos sintéticos pueden desempeñarse bien en escaneos 3D del mundo real. A través de 3D-GRAND y 3D-POPE, nuestro objetivo es equipar a la comunidad de IA corporizada con recursos y conocimientos esenciales, sentando las bases para 3D-LLMs más confiables y mejor anclados. Sitio web del proyecto: https://3d-grand.github.io
Los Modelos de Lenguaje Multimodal (MLLMs, por sus siglas en inglés) demuestran las capacidades emergentes de los "modelos del mundo": interpretar y razonar sobre dinámicas complejas del mundo real. Para evaluar estas habilidades, proponemos que los videos son el medio ideal, ya que encapsulan representaciones ricas de dinámicas y causalidades del mundo real. Con este fin, presentamos MMWorld, un nuevo punto de referencia para la comprensión multimodal de videos multidisciplinarios y multifacéticos. MMWorld se distingue de los puntos de referencia anteriores de comprensión de videos con dos ventajas únicas: (1) multidisciplinariedad, abarcando diversas disciplinas que a menudo requieren experiencia en el dominio para una comprensión integral; (2) razonamiento multifacético, incluyendo explicación, pensamiento contrafáctico, predicción futura, etc. MMWorld consta de un conjunto de datos anotado por humanos para evaluar MLLMs con preguntas sobre videos completos y un conjunto de datos sintético para analizar MLLMs dentro de una sola modalidad de percepción. En conjunto, MMWorld abarca 1,910 videos en siete disciplinas amplias y 69 subdisciplinas, completos con 6,627 pares de preguntas y respuestas y subtítulos asociados. La evaluación incluye 2 MLLMs propietarios y 10 de código abierto, que tienen dificultades en MMWorld (por ejemplo, GPT-4V tiene el mejor desempeño con solo un 52.3% de precisión), mostrando un amplio margen de mejora. Estudios de ablación adicionales revelan otros hallazgos interesantes, como los diferentes conjuntos de habilidades de los modelos en comparación con los humanos. Esperamos que MMWorld pueda servir como un paso esencial hacia la evaluación de modelos del mundo en videos.
Aprovechar la dispersión de activaciones es un enfoque prometedor para acelerar significativamente el proceso de inferencia de los modelos de lenguaje grandes (LLMs) sin comprometer su rendimiento. Sin embargo, la dispersión de activaciones está determinada por las funciones de activación, y las comúnmente utilizadas, como SwiGLU y GeGLU, muestran una dispersión limitada. Simplemente reemplazar estas funciones con ReLU no logra alcanzar una dispersión suficiente. Además, datos de entrenamiento inadecuados pueden aumentar aún más el riesgo de degradación del rendimiento. Para abordar estos desafíos, proponemos una nueva función dReLU, diseñada para mejorar la dispersión de activaciones en LLMs, junto con una proporción de mezcla de datos de entrenamiento de alta calidad para facilitar una esparsificación efectiva. Adicionalmente, aprovechamos los patrones de activación dispersa dentro de las redes Feed-Forward (FFN) de los expertos en modelos de Mezcla de Expertos (MoE) para impulsar aún más la eficiencia. Al aplicar nuestro método de esparsificación de neuronas a los modelos Mistral y Mixtral, solo se activan 2.5 mil millones y 4.3 mil millones de parámetros por iteración de inferencia, respectivamente, logrando un rendimiento del modelo aún más potente. Los resultados de evaluación demuestran que esta dispersión alcanza una aceleración de decodificación de 2-5 veces. Notablemente, en teléfonos móviles, nuestro TurboSparse-Mixtral-47B logra una velocidad de inferencia de 11 tokens por segundo. Nuestros modelos están disponibles en https://huggingface.co/PowerInfer.
Recientemente, la aplicación de modelos modernos de generación de imágenes a partir de texto basados en difusión para la creación de fuentes artísticas, tradicionalmente dominio de diseñadores profesionales, ha despertado un interés significativo. A diferencia de la mayoría de los estudios existentes que se centran en la generación de tipografías artísticas, nuestra investigación tiene como objetivo abordar un desafío novedoso y más exigente: la generación de efectos de texto para fuentes multilingües. Esta tarea esencialmente requiere generar contenido visual coherente y consistente dentro de los límites de un lienzo con forma de fuente, en lugar de un lienzo rectangular tradicional. Para abordar esta tarea, presentamos un novedoso modelo de difusión adaptable a formas capaz de interpretar la forma dada y planificar estratégicamente la distribución de píxeles dentro del lienzo irregular. Para lograrlo, hemos creado un conjunto de datos de imágenes-texto de alta calidad adaptable a formas e incorporamos la máscara de segmentación como una condición visual para guiar el proceso de generación de imágenes dentro del lienzo irregular. Este enfoque permite que el modelo de difusión tradicional basado en lienzos rectangulares produzca los conceptos deseados de acuerdo con las formas geométricas proporcionadas. En segundo lugar, para mantener la coherencia entre múltiples letras, también presentamos un método de transferencia de efectos adaptable a formas sin necesidad de entrenamiento, que transfiere texturas desde una letra de referencia generada a otras. Las ideas clave son construir un previo de ruido de efectos de fuente y propagar la información de efectos de fuente en un espacio latente concatenado. La eficacia de nuestro sistema FontStudio se confirma mediante estudios de preferencia de usuarios, que muestran una marcada preferencia (78% de tasas de victoria en estética) por nuestro sistema, incluso en comparación con el último producto comercial incomparable, Adobe Firefly.
Los Transformadores de Difusión Recientes (DiTs) han demostrado capacidades impresionantes en la generación de contenido unimodal de alta calidad, incluyendo imágenes, videos y audio. Sin embargo, aún no se ha explorado suficientemente si el difusor basado en transformadores puede desruir eficientemente el ruido gaussiano para la creación de contenido multimodal excepcional. Para cerrar esta brecha, presentamos AV-DiT, un novedoso y eficiente transformador de difusión audio-visual diseñado para generar videos realistas de alta calidad con pistas tanto visuales como auditivas. Para minimizar la complejidad del modelo y los costos computacionales, AV-DiT utiliza un núcleo compartido de DiT preentrenado con datos exclusivamente de imágenes, donde solo se entrenan adaptadores ligeros recién insertados. Este núcleo compartido facilita la generación tanto de audio como de video. Específicamente, la rama de video incorpora una capa de atención temporal entrenable en un bloque de DiT preentrenado y congelado para garantizar la consistencia temporal. Además, un pequeño número de parámetros entrenables adapta el bloque de DiT basado en imágenes para la generación de audio. Un bloque adicional compartido de DiT, equipado con parámetros ligeros, facilita la interacción de características entre las modalidades de audio y visuales, asegurando su alineación. Experimentos extensivos en los conjuntos de datos AIST++ y Landscape demuestran que AV-DiT alcanza un rendimiento de vanguardia en la generación conjunta de audio y video con un número significativamente menor de parámetros ajustables. Además, nuestros resultados destacan que un único núcleo generativo de imágenes compartido con adaptaciones específicas por modalidad es suficiente para construir un generador conjunto de audio y video. Nuestro código fuente y modelos preentrenados serán liberados.
La optimización de preferencias offline es un método clave para mejorar y controlar la calidad de las salidas de los Modelos de Lenguaje a Gran Escala (LLM, por sus siglas en inglés). Normalmente, la optimización de preferencias se aborda como una tarea de aprendizaje supervisado offline utilizando funciones de pérdida convexas diseñadas manualmente. Aunque estos métodos se basan en fundamentos teóricos, están intrínsecamente limitados por la creatividad humana, por lo que el amplio espacio de búsqueda de posibles funciones de pérdida permanece poco explorado. Nosotros abordamos este problema realizando descubrimiento de objetivos impulsado por LLM para descubrir automáticamente nuevos algoritmos de optimización de preferencias de vanguardia sin intervención humana (experta). Específicamente, iterativamente solicitamos a un LLM que proponga e implemente nuevas funciones de pérdida para la optimización de preferencias basándose en métricas de rendimiento previamente evaluadas. Este proceso conduce al descubrimiento de algoritmos de optimización de preferencias desconocidos y de alto rendimiento. El mejor de estos lo llamamos Optimización de Preferencias Descubierta (DiscoPOP), un algoritmo novedoso que combina de manera adaptativa pérdidas logísticas y exponenciales. Los experimentos demuestran el rendimiento de vanguardia de DiscoPOP y su transferencia exitosa a tareas no vistas.
Los modelos de difusión han demostrado un rendimiento notable en la síntesis de imágenes y videos. Sin embargo, escalarlos a entradas de alta resolución es un desafío y requiere reestructurar la canalización de difusión en múltiples componentes independientes, lo que limita la escalabilidad y complica las aplicaciones posteriores. Esto lo hace muy eficiente durante el entrenamiento y permite la optimización de extremo a extremo en videos de alta resolución. Mejoramos los modelos de difusión en dos formas fundamentales. Primero, para garantizar la consistencia entre los parches, desarrollamos la fusión de contexto profunda, una técnica arquitectónica que propaga la información de contexto desde parches de baja escala a parches de alta escala de manera jerárquica. Segundo, para acelerar el entrenamiento y la inferencia, proponemos el cómputo adaptativo, que asigna más capacidad de red y cómputo hacia los detalles gruesos de la imagen. El modelo resultante establece un nuevo estado del arte con un puntaje FVD de 66.32 y un Inception Score de 87.68 en la generación de videos condicionados por clase en UCF-101 256^2, superando métodos recientes en más del 100%. Luego, mostramos que puede ajustarse rápidamente desde un generador base de baja resolución de 36x64 para la síntesis de texto a video de alta resolución de 64x288x512. Hasta donde sabemos, nuestro modelo es la primera arquitectura basada en difusión que se entrena en tales resoluciones completamente de extremo a extremo. Página del proyecto: https://snap-research.github.io/hpdm.
Ver con claridad y alta resolución es un fundamento de los Modelos Multimodales Grandes (LMMs), lo cual ha demostrado ser vital para la percepción visual y el razonamiento. Los trabajos existentes suelen emplear un método directo de aumento de resolución, donde la imagen consta de ramas globales y locales, siendo esta última compuesta por segmentos de la imagen divididos pero redimensionados a la misma resolución que la primera. Esto significa que una mayor resolución requiere más segmentos locales, lo que resulta en costos computacionales excesivos, y al mismo tiempo, el predominio de los tokens de imagen locales puede disminuir el contexto global. En este artículo, profundizamos en estos problemas y proponemos un nuevo marco de trabajo, así como una estrategia de optimización elaborada. Específicamente, extraemos información contextual desde la vista global utilizando una mezcla de adaptadores, basándonos en la observación de que diferentes adaptadores sobresalen en diferentes tareas. Con respecto a los segmentos locales, introducimos embeddings de consulta aprendibles para reducir los tokens de imagen, seleccionando posteriormente los tokens más importantes relacionados con la pregunta del usuario mediante un selector basado en similitud. Nuestros resultados empíricos demuestran un patrón de "menos es más", donde el uso de menos tokens de imagen locales pero más informativos conduce a un mejor rendimiento. Además, un desafío significativo radica en la estrategia de entrenamiento, ya que el entrenamiento simultáneo de extremo a extremo del bloque de minería global y el bloque de compresión local no produce resultados óptimos. Por lo tanto, abogamos por un método de entrenamiento alternado, asegurando un aprendizaje equilibrado entre los aspectos globales y locales. Finalmente, también introducimos un conjunto de datos desafiante con altos requisitos de detalle de imagen, mejorando el entrenamiento de la capa de compresión local. El método propuesto, denominado LMM con Tareas Sofisticadas, Compresión de Imagen Local y Mezcla de Expertos Globales (SliME), logra un rendimiento líder en varios benchmarks con solo 2 millones de datos de entrenamiento.
Presentamos la Restauración de Subtítulos Visuales (VCR, por sus siglas en inglés), una novedosa tarea de visión y lenguaje que desafía a los modelos a restaurar con precisión textos parcialmente ocultos utilizando pistas a nivel de píxeles dentro de las imágenes. Esta tarea surge de la observación de que el texto incrustado en imágenes es intrínsecamente diferente de los elementos visuales comunes y del lenguaje natural debido a la necesidad de alinear las modalidades de visión, texto y texto incrustado en imágenes. Si bien numerosos trabajos han integrado texto incrustado en imágenes en tareas de respuesta a preguntas visuales, los enfoques para estas tareas generalmente dependen del reconocimiento óptico de caracteres o del modelado de lenguaje enmascarado, reduciendo así la tarea principalmente a un procesamiento basado en texto. Sin embargo, el procesamiento basado en texto se vuelve ineficaz en VCR, ya que la restauración precisa del texto depende de la información combinada de las imágenes proporcionadas, el contexto y las pistas sutiles de las pequeñas áreas expuestas de los textos enmascarados. Desarrollamos una canalización para generar imágenes sintéticas para la tarea VCR utilizando pares de imagen-subtítulo, con visibilidad ajustable del subtítulo para controlar la dificultad de la tarea. Con esta canalización, construimos un conjunto de datos para VCR llamado VCR-Wiki utilizando imágenes con subtítulos de Wikipedia, que comprende 2.11 millones de entidades en inglés y 346 mil en chino, en variantes de división fácil y difícil. Nuestros resultados revelan que los modelos actuales de visión y lenguaje están significativamente por detrás del rendimiento humano en la tarea VCR, y simplemente ajustar los modelos en nuestro conjunto de datos no conduce a mejoras notables. Publicamos VCR-Wiki y el código de construcción de datos para facilitar investigaciones futuras.
El modelado de series temporales multivariadas es un problema bien establecido con una amplia gama de aplicaciones, desde la atención médica hasta los mercados financieros. Los Modelos de Espacio de Estados (SSM, por sus siglas en inglés) tradicionales son enfoques clásicos para el modelado de series temporales univariadas debido a su simplicidad y poder expresivo para representar dependencias lineales. Sin embargo, tienen un poder expresivo fundamentalmente limitado para capturar dependencias no lineales, son lentos en la práctica y no logran modelar el flujo de información entre variables. A pesar de los recientes intentos de mejorar el poder expresivo de los SSM mediante el uso de SSM estructurados profundos, los métodos existentes están limitados a series temporales univariadas, no logran modelar patrones complejos (por ejemplo, patrones estacionales), no modelan dinámicamente las dependencias de las dimensiones de variable y tiempo, y/o son independientes de la entrada. Presentamos Chimera, que utiliza dos cabezales de SSM 2-D dependientes de la entrada con diferentes procesos de discretización para aprender la progresión a largo plazo y los patrones estacionales. Para mejorar la eficiencia de la recurrencia compleja en 2D, presentamos un entrenamiento rápido utilizando un nuevo escaneo selectivo paralelo en 2 dimensiones. Además, presentamos y discutimos Mamba 2D y Mamba-2 como casos especiales de nuestro SSM 2D. Nuestra evaluación experimental muestra el rendimiento superior de Chimera en una amplia y diversa gama de benchmarks, incluyendo la clasificación de series temporales de ECG y voz, la predicción de series temporales a corto y largo plazo, y la detección de anomalías en series temporales.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han avanzado hasta abarcar un conocimiento extenso en diversos dominios. Sin embargo, controlar lo que un modelo de lenguaje de gran escala no debería saber es importante para garantizar la alineación y, por lo tanto, un uso seguro. No obstante, eliminar conocimiento de un LLM de manera precisa y eficiente sigue siendo un desafío debido al posible daño colateral causado por el límite difuso entre la retención y el olvido, así como por los grandes requisitos computacionales necesarios para optimizar modelos de última generación con cientos de miles de millones de parámetros. En este trabajo, presentamos los Embedding-COrrupted (ECO) Prompts, un marco ligero para la eliminación de conocimiento en modelos de lenguaje de gran escala que aborda tanto los desafíos del entrelazamiento del conocimiento como la eficiencia en la eliminación. En lugar de depender del propio LLM para eliminar conocimiento, aplicamos un estado de olvido durante la inferencia mediante el uso de un clasificador de prompts para identificar y proteger los prompts que deben olvidarse. Aprendemos corrupciones añadidas a los embeddings de los prompts mediante optimización de orden cero hacia el objetivo de eliminación de manera offline, y corrompemos los prompts marcados por el clasificador durante la inferencia. Descubrimos que estos prompts con embeddings corrompidos no solo generan salidas deseables que satisfacen el objetivo de eliminación, sino que también se aproximan estrechamente a la salida de un modelo que nunca fue entrenado con los datos destinados al olvido. A través de experimentos exhaustivos sobre la eliminación de conocimiento, demostramos la superioridad de nuestro método para lograr una eliminación prometedora con casi cero efectos secundarios en dominios generales y en dominios estrechamente relacionados con los que se desea olvidar. Además, destacamos la escalabilidad de nuestro método en 100 LLMs, que van desde 0.5B hasta 236B parámetros, sin incurrir en costos adicionales a medida que aumenta el número de parámetros.
La patología, el examen microscópico de tejidos enfermos, es fundamental para diagnosticar diversas afecciones médicas, en particular los cánceres. Los métodos tradicionales son laboriosos y propensos a errores humanos. La patología digital, que convierte las láminas de vidrio en imágenes digitales de alta resolución para su análisis mediante algoritmos informáticos, revoluciona el campo al mejorar la precisión, consistencia y eficiencia diagnósticas a través del análisis automatizado de imágenes y el procesamiento de datos a gran escala. El preentrenamiento de transformadores fundamentales es crucial para desarrollar modelos robustos y generalizables, ya que permite aprender a partir de grandes cantidades de datos no anotados. Este artículo presenta la familia Hibou de transformadores de visión fundamentales para patología, aprovechando el marco DINOv2 para preentrenar dos variantes de modelos, Hibou-B e Hibou-L, en un conjunto de datos propietario de más de 1 millón de imágenes de láminas completas (WSIs) que representan diversos tipos de tejidos y técnicas de tinción. Nuestros modelos preentrenados demuestran un rendimiento superior en puntos de referencia tanto a nivel de parche como de lámina, superando los métodos existentes más avanzados. En particular, Hibou-L logra la mayor precisión promedio en múltiples conjuntos de datos de referencia. Para apoyar la investigación y aplicación adicional en el campo, hemos liberado el modelo Hibou-B, que puede accederse en https://github.com/HistAI/hibou.
La difusión enmascarada (o absorbente) se está explorando activamente como una alternativa a los modelos autoregresivos para el modelado generativo de datos discretos. Sin embargo, los trabajos existentes en esta área se han visto obstaculizados por formulaciones de modelos innecesariamente complejas y relaciones poco claras entre diferentes perspectivas, lo que ha llevado a una parametrización subóptima, objetivos de entrenamiento inadecuados y ajustes ad hoc para contrarrestar estos problemas. En este trabajo, nuestro objetivo es proporcionar un marco simple y general que desbloquee todo el potencial de los modelos de difusión enmascarada. Demostramos que el objetivo variacional en tiempo continuo de los modelos de difusión enmascarada es una integral ponderada simple de pérdidas de entropía cruzada. Nuestro marco también permite entrenar modelos generalizados de difusión enmascarada con programaciones de enmascaramiento dependientes del estado. Cuando se evalúan mediante perplejidad, nuestros modelos entrenados en OpenWebText superan a los modelos de difusión de lenguaje previos a escala GPT-2 y demuestran un rendimiento superior en 4 de cada 5 tareas de modelado de lenguaje zero-shot. Además, nuestros modelos superan ampliamente a los modelos de difusión discreta anteriores en el modelado de imágenes a nivel de píxeles, logrando 2.78 (CIFAR-10) y 3.42 (ImageNet 64x64) bits por dimensión, que son comparables o mejores que los modelos autoregresivos de tamaños similares.