Artículos de investigación en IA seleccionados diariamente con traducciones
En este informe técnico, proponemos ChemVLM, el primer modelo de lenguaje grande multimodal de código abierto dedicado a los campos de la química, diseñado para abordar la incompatibilidad entre la comprensión de imágenes químicas y el análisis de texto. Construido sobre la arquitectura VIT-MLP-LLM, aprovechamos ChemLLM-20B como el modelo grande fundamental, dotando a nuestro modelo con capacidades robustas en la comprensión y utilización del conocimiento de texto químico. Además, empleamos InternVIT-6B como un potente codificador de imágenes. Hemos recopilado datos de alta calidad del dominio químico, incluyendo moléculas, fórmulas de reacciones y datos de exámenes de química, y los hemos compilado en un conjunto de datos bilingüe multimodal de preguntas y respuestas. Probamos el rendimiento de nuestro modelo en múltiples bancos de pruebas de código abierto y tres conjuntos de evaluación personalizados. Los resultados experimentales demuestran que nuestro modelo logra un excelente rendimiento, asegurando resultados de vanguardia en cinco de las seis tareas involucradas. Nuestro modelo se puede encontrar en https://huggingface.co/AI4Chem/ChemVLM-26B.
Los modelos de texto a imagen son herramientas poderosas para la creación de imágenes. Sin embargo, el proceso de generación es similar a un lanzamiento de dados y dificulta lograr una sola imagen que capture todo lo que un usuario desea. En este documento, proponemos un marco de trabajo para crear la imagen deseada componiéndola a partir de varias partes de imágenes generadas, formando en esencia un Fotomontaje Generativo. Dado un conjunto de imágenes generadas por ControlNet utilizando la misma condición de entrada y diferentes semillas, permitimos a los usuarios seleccionar las partes deseadas de los resultados generados utilizando una interfaz de pincel. Introducimos una técnica novedosa que toma los trazos del pincel del usuario, segmenta las imágenes generadas utilizando una optimización basada en grafos en el espacio de características de difusión, y luego compone las regiones segmentadas mediante un nuevo método de mezcla en el espacio de características. Nuestro método preserva fielmente las regiones seleccionadas por el usuario mientras las compone armónicamente. Demostramos que nuestro marco flexible puede ser utilizado para muchas aplicaciones, incluyendo la generación de nuevas combinaciones de apariencia, corrigiendo formas y artefactos incorrectos, y mejorando el alineamiento de las indicaciones. Mostramos resultados convincentes para cada aplicación y demostramos que nuestro método supera a los métodos existentes de mezcla de imágenes y a varias líneas base.
Este documento presenta la serie Aquila2, que comprende una amplia gama de modelos bilingües con tamaños de parámetros de 7, 34 y 70 mil millones. Estos modelos se entrenan en base a un marco innovador llamado HeuriMentor (HM), que ofrece información en tiempo real sobre la convergencia del modelo y mejora el proceso de entrenamiento y la gestión de datos. El Sistema HM, que incluye el Motor de Entrenamiento Adaptativo (ATE), el Monitor de Estado de Entrenamiento (TSM) y la Unidad de Gestión de Datos (DMU), permite monitorear con precisión el progreso del entrenamiento del modelo y facilita la optimización eficiente de la distribución de datos, mejorando así la efectividad del entrenamiento. Evaluaciones exhaustivas muestran que la serie de modelos Aquila2 tiene un rendimiento comparable en los benchmarks en inglés y chino. Específicamente, Aquila2-34B solo muestra una ligera disminución en el rendimiento al cuantificar a Int4. Además, hemos puesto a disposición públicamente nuestro código de entrenamiento (https://github.com/FlagOpen/FlagScale) y los pesos del modelo (https://github.com/FlagAI-Open/Aquila2) para apoyar la investigación en curso y el desarrollo de aplicaciones.
Describimos un conjunto de datos a gran escala, denominado {\em DeepSpeak}, que contiene metraje real y deepfake de personas hablando y gesticulando frente a sus cámaras web. Los videos reales en esta primera versión del conjunto de datos constan de 9 horas de metraje de 220 individuos diversos. Conformando más de 25 horas de metraje, los videos falsos consisten en una variedad de deepfakes de intercambio facial y sincronización labial de última generación con voces naturales y generadas por IA. Esperamos lanzar futuras versiones de este conjunto de datos con tecnologías de deepfake diferentes y actualizadas. Este conjunto de datos está disponible de forma gratuita para fines de investigación y no comerciales; las solicitudes para uso comercial serán consideradas.
Los avances recientes en los métodos de Cadena de Pensamientos (CoT) y Programa de Pensamientos (PoT) han mejorado significativamente las capacidades de razonamiento matemático de los modelos de lenguaje, facilitando su integración en conjuntos de datos de ajuste de instrucciones con LLMs. Sin embargo, los métodos existentes para la creación de conjuntos de datos a gran escala requieren una cantidad considerable de datos iniciales y altos costos computacionales para la síntesis de datos, lo que plantea desafíos significativos en cuanto a escalabilidad. Presentamos InfinityMATH, un conjunto de datos escalable para el ajuste de instrucciones en razonamiento matemático programático. El proceso de construcción enfatiza la separación de los números de los problemas matemáticos para sintetizar programas independientes de números, lo que permite una escalabilidad eficiente y flexible al minimizar la dependencia de valores numéricos específicos. Experimentos de ajuste fino con modelos de lenguaje y código de código abierto, como Llama2 y CodeLlama, demuestran los beneficios prácticos de InfinityMATH. Estos modelos ajustados mostraron mejoras relativas significativas en promedio, tanto en conjuntos de datos internos como externos, que oscilaron entre el 184,7% y el 514,3%. Además, estos modelos exhibieron una alta robustez en los conjuntos de pruebas GSM8K+ y MATH+, que son versiones mejoradas de conjuntos de pruebas con variaciones simplemente numéricas. InfinityMATH garantiza que los modelos sean más versátiles y efectivos en una gama más amplia de problemas matemáticos. Los datos están disponibles en https://huggingface.co/datasets/flagopen/InfinityMATH.
La modelización y manipulación de escenas 3D capturadas del mundo real son fundamentales en varias aplicaciones, atrayendo un creciente interés de investigación. Mientras que trabajos previos en edición han logrado resultados interesantes mediante la manipulación de mallas 3D, a menudo requieren mallas reconstruidas con precisión para llevar a cabo la edición, lo que limita su aplicación en la generación de contenido 3D. Para abordar esta brecha, presentamos un novedoso enfoque de edición de escenas 3D impulsado por una sola imagen basado en el "splatting" gaussiano 3D, que permite una manipulación intuitiva mediante la edición directa del contenido en un plano de imagen 2D. Nuestro método aprende a optimizar los gaussianos 3D para alinearse con una versión editada de la imagen renderizada desde un punto de vista especificado por el usuario de la escena original. Para capturar la deformación de objetos a larga distancia, introducimos una pérdida posicional en el proceso de optimización del "splatting" gaussiano 3D y permitimos la propagación de gradientes a través de una reparametrización. Para manejar los gaussianos 3D ocultos al renderizar desde el punto de vista especificado, construimos una estructura basada en anclas y empleamos una estrategia de optimización de grueso a fino capaz de manejar la deformación a larga distancia manteniendo la estabilidad estructural. Además, diseñamos una novedosa estrategia de enmascaramiento para identificar de manera adaptativa regiones de deformación no rígida para modelado a escala fina. Experimentos extensos muestran la efectividad de nuestro método en el manejo de detalles geométricos, deformaciones a larga distancia y no rígidas, demostrando una flexibilidad y calidad de edición superiores en comparación con enfoques anteriores.
Recientemente, se han investigado tareas de generación de formas de onda universales condicionadas a varios escenarios fuera de distribución. Aunque los métodos basados en GAN han demostrado su fortaleza en la generación rápida de formas de onda, son vulnerables a escenarios de desajuste entre entrenamiento e inferencia como la conversión de texto a voz en dos etapas. Mientras tanto, los modelos basados en difusión han mostrado su potente rendimiento generativo en otros dominios; sin embargo, permanecen fuera del foco de atención debido a la lenta velocidad de inferencia en tareas de generación de formas de onda. Sobre todo, no existe una arquitectura de generador que pueda desentrañar explícitamente las características periódicas naturales de las señales de formas de onda de alta resolución. En este documento, proponemos PeriodWave, un modelo novedoso de generación de formas de onda universal. En primer lugar, introducimos un estimador de coincidencia de flujo consciente del periodo que puede capturar las características periódicas de la señal de forma de onda al estimar los campos vectoriales. Además, utilizamos un estimador multi-periódico que evita superposiciones para capturar diferentes características periódicas de las señales de formas de onda. Aunque aumentar el número de períodos puede mejorar significativamente el rendimiento, esto requiere más costos computacionales. Para reducir este problema, también proponemos un estimador universal condicional de un solo periodo que puede realizar inferencia en paralelo por lotes de forma periódica. Además, utilizamos la transformada wavelet discreta para desentrañar sin pérdidas la información de frecuencia de las señales de formas de onda para modelado de alta frecuencia, e introducimos FreeU para reducir el ruido de alta frecuencia en la generación de formas de onda. Los resultados experimentales demostraron que nuestro modelo supera a los modelos anteriores tanto en la reconstrucción de Mel-espectrogramas como en tareas de conversión de texto a voz. Todo el código fuente estará disponible en https://github.com/sh-lee-prml/PeriodWave.
Entender la semántica 3D de una escena es un problema fundamental para varios escenarios como agentes incorporados. Si bien NeRFs y 3DGS destacan en la síntesis de vistas novedosas, los métodos anteriores para comprender su semántica se han limitado a una comprensión 3D incompleta: sus resultados de segmentación son máscaras 2D y su supervisión está anclada en píxeles 2D. Este artículo vuelve a abordar el conjunto de problemas para perseguir una mejor comprensión 3D de una escena modelada por NeRFs y 3DGS de la siguiente manera. 1) Supervisamos directamente los puntos 3D para entrenar el campo de incrustación de lenguaje. Logra una precisión de vanguardia sin depender de incrustaciones de lenguaje a múltiples escalas. 2) Transferimos el campo de lenguaje pre-entrenado a 3DGS, logrando la primera velocidad de renderizado en tiempo real sin sacrificar tiempo de entrenamiento o precisión. 3) Introducimos un protocolo de consulta y evaluación 3D para evaluar la geometría y semántica reconstruidas juntas. El código, los puntos de control y las anotaciones estarán disponibles en línea. Página del proyecto: https://hyunji12.github.io/Open3DRF