Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos la "Ley de Representación Visual" en modelos de lenguaje multimodal de gran escala (MLLMs). Esta revela una fuerte correlación entre la combinación de alineación multimodal, correspondencia en la representación visual y el rendimiento de los MLLMs. Cuantificamos estos dos factores utilizando la puntuación de Alineación y Correspondencia multimodal (puntuación AC). A través de experimentos exhaustivos que involucran trece configuraciones diferentes de representación visual y evaluaciones en ocho benchmarks, encontramos que la puntuación AC está linealmente correlacionada con el rendimiento del modelo. Al aprovechar esta relación, logramos identificar y entrenar únicamente la representación visual óptima, lo que no requiere ajustar el modelo de lenguaje cada vez, resultando en una reducción del 99.7% en el costo computacional.
Comenzando con VisualGLM y CogVLM, hemos estado explorando continuamente los modelos de lenguaje visual (VLMs) en busca de una mejor fusión visión-lenguaje, arquitecturas eficientes de mayor resolución y modalidades y aplicaciones más amplias. Aquí presentamos la familia CogVLM2, una nueva generación de modelos de lenguaje visual para la comprensión de imágenes y videos, que incluye CogVLM2, CogVLM2-Video y GLM-4V. Como modelo de comprensión de imágenes, CogVLM2 hereda la arquitectura de experto visual con mejoras en las recetas de entrenamiento tanto en las etapas de preentrenamiento como de posentrenamiento, soportando una resolución de entrada de hasta 1344 x 1344 píxeles. Como modelo de comprensión de videos, CogVLM2-Video integra entradas de múltiples fotogramas con marcas de tiempo y propone una construcción automatizada de datos de anclaje temporal. Cabe destacar que la familia CogVLM2 ha logrado resultados de vanguardia en benchmarks como MMBench, MM-Vet, TextVQA, MVBench y VCGBench. Todos los modelos están disponibles en código abierto en https://github.com/THUDM/CogVLM2 y https://github.com/THUDM/GLM-4, contribuyendo así al avance del campo.
Los modelos de lenguaje han sido aplicados eficazmente para modelar señales naturales, como imágenes, video, habla y audio. Un componente crucial de estos modelos es el tokenizador de códec, que comprime señales naturales de alta dimensión en tokens discretos de menor dimensión. En este artículo, presentamos WavTokenizer, que ofrece varias ventajas sobre los modelos de códec acústico SOTA anteriores en el dominio del audio: 1) compresión extrema. Al comprimir las capas de cuantizadores y la dimensión temporal del códec discreto, un segundo de audio con una tasa de muestreo de 24 kHz requiere solo un cuantizador con 40 o 75 tokens. 2) calidad subjetiva mejorada. A pesar de la reducción en el número de tokens, WavTokenizer logra una calidad de reconstrucción de vanguardia con puntajes UTMOS sobresalientes y contiene inherentemente información semántica más rica. Específicamente, alcanzamos estos resultados diseñando un espacio VQ más amplio, ventanas contextuales extendidas y redes de atención mejoradas, así como introduciendo un discriminador multiescala potente y una estructura de transformada inversa de Fourier. Realizamos extensos experimentos de reconstrucción en los dominios de habla, audio y música. WavTokenizer mostró un rendimiento sólido en varias métricas objetivas y subjetivas en comparación con los modelos de vanguardia. También probamos la información semántica, la utilización de VQ y la adaptabilidad a modelos generativos. Estudios de ablación exhaustivos confirman la necesidad de cada módulo en WavTokenizer. El código relacionado, demostraciones y modelos preentrenados están disponibles en https://github.com/jishengpeng/WavTokenizer.
Los avances en la reconstrucción de escenas 3D han transformado imágenes 2D del mundo real en modelos 3D, produciendo resultados realistas a partir de cientos de fotografías de entrada. A pesar del gran éxito en escenarios de reconstrucción con vistas densas, renderizar una escena detallada a partir de un número insuficiente de vistas capturadas sigue siendo un problema de optimización mal planteado, que a menudo resulta en artefactos y distorsiones en áreas no observadas. En este artículo, proponemos ReconX, un nuevo paradigma de reconstrucción de escenas 3D que reformula el desafío ambiguo de la reconstrucción como una tarea de generación temporal. La idea clave es aprovechar el fuerte conocimiento generativo previo de los modelos de difusión de video preentrenados para la reconstrucción con vistas escasas. Sin embargo, la consistencia 3D de las vistas tiende a no preservarse con precisión en los fotogramas de video generados directamente por modelos preentrenados. Para abordar esto, dado un número limitado de vistas de entrada, el ReconX propuesto primero construye una nube de puntos global y la codifica en un espacio contextual como condición de estructura 3D. Guiado por esta condición, el modelo de difusión de video sintetiza fotogramas que preservan los detalles y exhiben un alto grado de consistencia 3D, asegurando la coherencia de la escena desde diversas perspectivas. Finalmente, recuperamos la escena 3D a partir del video generado mediante un esquema de optimización basado en 3D Gaussian Splatting con manejo de confianza. Experimentos exhaustivos en diversos conjuntos de datos del mundo real muestran la superioridad de nuestro ReconX sobre los métodos más avanzados en términos de calidad y generalización.
Presentamos SAM2Point, una exploración preliminar que adapta el Segment Anything Model 2 (SAM 2) para la segmentación 3D sin entrenamiento previo (zero-shot) y basada en indicaciones (promptable). SAM2Point interpreta cualquier dato 3D como una serie de videos multidireccionales y aprovecha SAM 2 para la segmentación en el espacio 3D, sin necesidad de entrenamiento adicional ni proyección 2D-3D. Nuestro marco admite varios tipos de indicaciones, incluyendo puntos 3D, cajas y máscaras, y puede generalizarse en diversos escenarios, como objetos 3D, escenas interiores, entornos exteriores y datos LiDAR dispersos sin procesar. Las demostraciones en múltiples conjuntos de datos 3D, como Objaverse, S3DIS, ScanNet, Semantic3D y KITTI, destacan las sólidas capacidades de generalización de SAM2Point. Hasta donde sabemos, presentamos la implementación más fiel de SAM en 3D, que podría servir como punto de partida para futuras investigaciones en segmentación 3D basada en indicaciones. Demo en línea: https://huggingface.co/spaces/ZiyuG/SAM2Point . Código: https://github.com/ZiyuGuo99/SAM2Point .
Los modelos de lenguaje han demostrado un rendimiento notable en la resolución de tareas de razonamiento; sin embargo, incluso los modelos más potentes aún cometen errores de razonamiento ocasionalmente. Recientemente, ha habido una investigación activa dirigida a mejorar la precisión del razonamiento, particularmente mediante el uso de modelos de lenguaje preentrenados para "autocorregir" sus errores a través de indicaciones de múltiples rondas. En este artículo, seguimos esta línea de trabajo pero nos enfocamos en comprender la utilidad de incorporar datos de "corrección de errores" directamente en la etapa de preentrenamiento. Estos datos consisten en pasos de solución erróneos seguidos inmediatamente por sus correcciones. Utilizando un conjunto de datos matemáticos sintéticos, mostramos resultados prometedores: este tipo de datos de preentrenamiento puede ayudar a los modelos de lenguaje a lograr una mayor precisión de razonamiento directamente (es decir, a través de una simple autoregresión, sin indicaciones de múltiples rondas) en comparación con el preentrenamiento con la misma cantidad de datos libres de errores. También profundizamos en muchos detalles, como (1) cómo este enfoque difiere de la búsqueda por haz, (2) cómo se pueden preparar dichos datos, (3) si es necesario enmascarar los tokens erróneos, (4) la cantidad de error requerida, (5) si estos datos pueden posponerse a la etapa de ajuste fino, y muchos otros.
El modelo de difusión ha demostrado capacidades excepcionales en la generación controlada de imágenes, lo que ha impulsado aún más el interés en la transferencia de estilos de imagen. Los trabajos existentes se centran principalmente en métodos basados en entrenamiento libre (por ejemplo, inversión de imágenes) debido a la escasez de datos específicos. En este estudio, presentamos una canalización de construcción de datos para tripletas de imágenes de contenido-estilo-estilizado que genera y limpia automáticamente tripletas de datos estilizados. Basándonos en esta canalización, construimos el conjunto de datos IMAGStyle, el primer conjunto de datos a gran escala para transferencia de estilos que contiene 210k tripletas de imágenes, disponible para que la comunidad lo explore e investigue. Equipados con IMAGStyle, proponemos CSGO, un modelo de transferencia de estilos basado en entrenamiento de extremo a extremo, que desacopla explícitamente las características de contenido y estilo empleando inyección de características independiente. El CSGO unificado implementa transferencia de estilos impulsada por imágenes, síntesis estilizada impulsada por texto y síntesis estilizada impulsada por edición de texto. Experimentos extensivos demuestran la efectividad de nuestro enfoque para mejorar las capacidades de control de estilo en la generación de imágenes. Visualizaciones adicionales y acceso al código fuente se pueden encontrar en la página del proyecto: https://csgo-gen.github.io/.
Presentamos Spann3R, un enfoque novedoso para la reconstrucción densa en 3D a partir de colecciones de imágenes ordenadas o desordenadas. Basado en el paradigma DUSt3R, Spann3R utiliza una arquitectura basada en transformadores para regresar directamente mapas de puntos a partir de imágenes sin ningún conocimiento previo de la escena o los parámetros de la cámara. A diferencia de DUSt3R, que predice mapas de puntos por par de imágenes, cada uno expresado en su propio sistema de coordenadas local, Spann3R puede predecir mapas de puntos por imagen expresados en un sistema de coordenadas global, eliminando así la necesidad de una alineación global basada en optimización. La idea clave de Spann3R es gestionar una memoria espacial externa que aprende a mantener un registro de toda la información 3D relevante previa. Spann3R luego consulta esta memoria espacial para predecir la estructura 3D del siguiente fotograma en un sistema de coordenadas global. Aprovechando los pesos preentrenados de DUSt3R y un ajuste fino adicional en un subconjunto de conjuntos de datos, Spann3R muestra un rendimiento competitivo y una capacidad de generalización en varios conjuntos de datos no vistos, y puede procesar colecciones de imágenes ordenadas en tiempo real. Página del proyecto: https://hengyiwang.github.io/projects/spanner.
La ofuscación de autoría, que consiste en reescribir un texto para ocultar intencionalmente la identidad del autor, es una tarea importante pero desafiante. Los métodos actuales que utilizan modelos de lenguaje de gran escala (LLMs) carecen de interpretabilidad y controlabilidad, a menudo ignorando las características estilísticas específicas del autor, lo que resulta en un rendimiento general menos robusto. Para abordar este problema, desarrollamos StyleRemix, un método de ofuscación adaptable e interpretable que perturba elementos estilísticos específicos y detallados del texto original. StyleRemix utiliza módulos preentrenados de Adaptación de Bajo Rango (LoRA) para reescribir un texto a lo largo de varios ejes estilísticos (por ejemplo, formalidad y longitud) manteniendo un bajo costo computacional. StyleRemix supera a los métodos de referencia más avanzados y a LLMs mucho más grandes en una variedad de dominios, según evaluaciones tanto automáticas como humanas. Además, publicamos AuthorMix, un conjunto extenso de 30K textos de alta calidad y formato largo de un grupo diverso de 14 autores y 4 dominios, y DiSC, un corpus paralelo de 1,500 textos que abarcan siete ejes estilísticos en 16 direcciones únicas.
Los nuevos métodos de aprendizaje automático para la generación de datos tabulares a menudo se desarrollan en conjuntos de datos pequeños que no coinciden con la escala requerida para aplicaciones científicas. Investigamos una propuesta reciente de utilizar XGBoost como aproximador de funciones en modelos de difusión y emparejamiento de flujos (flow-matching) para datos tabulares, que resultó ser extremadamente intensivo en memoria, incluso en conjuntos de datos diminutos. En este trabajo, realizamos un análisis crítico de la implementación existente desde una perspectiva de ingeniería y demostramos que estas limitaciones no son fundamentales para el método; con una mejor implementación, puede escalarse a conjuntos de datos 370 veces más grandes que los utilizados previamente. Nuestra implementación eficiente también permite escalar modelos a tamaños mucho mayores, lo que demostramos que conduce directamente a un mejor rendimiento en tareas de referencia. También proponemos mejoras algorítmicas que pueden beneficiar aún más el uso de recursos y el rendimiento del modelo, incluyendo árboles de múltiples salidas (multi-output trees) que son adecuados para el modelado generativo. Finalmente, presentamos resultados en conjuntos de datos científicos a gran escala derivados de la física experimental de partículas como parte del Fast Calorimeter Simulation Challenge. El código está disponible en https://github.com/layer6ai-labs/calo-forest.
Numerosos procesos biológicos y físicos pueden modelarse como sistemas de entidades interactuantes que evolucionan continuamente en el tiempo, por ejemplo, la dinámica de células en comunicación o partículas físicas. Aprender la dinámica de tales sistemas es esencial para predecir la evolución temporal de poblaciones en muestras novedosas y entornos no vistos. Los modelos basados en flujo permiten aprender estas dinámicas a nivel poblacional: modelan la evolución de la distribución completa de muestras. Sin embargo, los modelos basados en flujo actuales están limitados a una única población inicial y un conjunto de condiciones predefinidas que describen diferentes dinámicas. Argumentamos que múltiples procesos en las ciencias naturales deben representarse como campos vectoriales en la variedad de Wasserstein de densidades de probabilidad. Es decir, el cambio de la población en cualquier momento depende de la población misma debido a las interacciones entre las muestras. En particular, esto es crucial para la medicina personalizada, donde el desarrollo de enfermedades y su respectiva respuesta al tratamiento dependen del microentorno de células específico de cada paciente. Proponemos Meta Flow Matching (MFM), un enfoque práctico para integrar a lo largo de estos campos vectoriales en la variedad de Wasserstein mediante la amortización del modelo de flujo sobre las poblaciones iniciales. Específicamente, incrustamos la población de muestras utilizando una Red Neuronal de Grafos (GNN) y usamos estas incrustaciones para entrenar un modelo de Flow Matching. Esto otorga a MFM la capacidad de generalizar sobre las distribuciones iniciales, a diferencia de métodos propuestos previamente. Demostramos la capacidad de MFM para mejorar la predicción de respuestas individuales al tratamiento en un conjunto de datos a gran escala de cribado de fármacos a nivel de célula única en múltiples pacientes.