Artículos de investigación en IA seleccionados diariamente con traducciones
El rápido desarrollo de los modelos de lenguaje de gran escala (LLMs) de código abierto ha sido verdaderamente notable. Sin embargo, la ley de escalamiento descrita en la literatura previa presenta conclusiones variadas, lo que arroja una sombra de incertidumbre sobre el escalamiento de los LLMs. Nos adentramos en el estudio de las leyes de escalamiento y presentamos nuestros hallazgos distintivos que facilitan el escalamiento de modelos a gran escala en dos configuraciones de código abierto comúnmente utilizadas, 7B y 67B. Guiados por las leyes de escalamiento, presentamos DeepSeek LLM, un proyecto dedicado a avanzar en los modelos de lenguaje de código abierto con una perspectiva a largo plazo. Para respaldar la fase de pre-entrenamiento, hemos desarrollado un conjunto de datos que actualmente consta de 2 billones de tokens y está en continua expansión. Además, realizamos un ajuste fino supervisado (SFT) y una Optimización Directa de Preferencias (DPO) en los modelos base de DeepSeek LLM, lo que resulta en la creación de los modelos DeepSeek Chat. Nuestros resultados de evaluación demuestran que DeepSeek LLM 67B supera a LLaMA-2 70B en varios puntos de referencia, particularmente en los dominios de código, matemáticas y razonamiento. Además, las evaluaciones de respuesta abierta revelan que DeepSeek LLM 67B Chat exhibe un rendimiento superior en comparación con GPT-3.5.
Los avances en Comprensión de Documentos Visualmente Ricos (VrDU, por sus siglas en inglés) han permitido la extracción de información y la respuesta a preguntas sobre documentos con diseños complejos. Han surgido dos tipos principales de arquitecturas: modelos basados en transformadores inspirados en LLM (Modelos de Lenguaje de Gran Escala) y Redes Neuronales de Grafos. En este artículo, presentamos DocGraphLM, un marco novedoso que combina modelos de lenguaje preentrenados con semántica de grafos. Para lograrlo, proponemos 1) una arquitectura de codificador conjunto para representar documentos, y 2) un enfoque innovador de predicción de enlaces para reconstruir grafos de documentos. DocGraphLM predice tanto las direcciones como las distancias entre nodos utilizando una función de pérdida conjunta convergente que prioriza la restauración del vecindario y reduce el peso en la detección de nodos distantes. Nuestros experimentos en tres conjuntos de datos de última generación (SotA) muestran una mejora consistente en tareas de extracción de información (IE) y respuesta a preguntas (QA) con la adopción de características de grafos. Además, reportamos que la adopción de estas características acelera la convergencia en el proceso de aprendizaje durante el entrenamiento, a pesar de construirse únicamente mediante predicción de enlaces.
Nos adentramos en un desafío sutil pero significativo inherente a los Transformadores de Visión (ViTs): los mapas de características de estos modelos presentan artefactos en forma de cuadrícula, lo cual perjudica el rendimiento de los ViTs en tareas posteriores. Nuestras investigaciones rastrean este problema fundamental hasta los embeddings posicionales en la etapa de entrada. Para abordarlo, proponemos un nuevo modelo de ruido, que es universalmente aplicable a todos los ViTs. Específicamente, el modelo de ruido descompone las salidas de los ViTs en tres componentes: un término semántico libre de artefactos de ruido y dos términos relacionados con artefactos que dependen de las ubicaciones de los píxeles. Esta descomposición se logra mediante la aplicación de consistencia de características entre vistas con campos neuronales en una base por imagen. Este proceso de optimización por imagen extrae características libres de artefactos a partir de las salidas brutas de los ViTs, proporcionando características limpias para aplicaciones fuera de línea. Ampliando el alcance de nuestra solución para admitir funcionalidad en línea, introducimos un desruidificador aprendible para predecir características libres de artefactos directamente a partir de las salidas sin procesar de los ViTs, el cual muestra capacidades de generalización notables para datos nuevos sin necesidad de optimización por imagen. Nuestro enfoque de dos etapas, denominado Transformadores de Visión con Desruido (DVT), no requiere reentrenar los ViTs preentrenados existentes y es inmediatamente aplicable a cualquier arquitectura basada en Transformadores. Evaluamos nuestro método en una variedad de ViTs representativos (DINO, MAE, DeiT-III, EVA02, CLIP, DINOv2, DINOv2-reg). Evaluaciones extensas demuestran que nuestro DVT mejora de manera consistente y significativa los modelos de propósito general más avanzados en tareas semánticas y geométricas a través de múltiples conjuntos de datos (por ejemplo, +3.84 mIoU). Esperamos que nuestro estudio fomente una reevaluación del diseño de los ViTs, especialmente en lo que respecta al uso ingenuo de los embeddings posicionales.
Stable Diffusion XL (SDXL) se ha convertido en el mejor modelo de texto a imagen (T2I) de código abierto por su versatilidad y calidad de imagen de primer nivel. Abordar de manera eficiente las demandas computacionales de los modelos SDXL es crucial para una mayor accesibilidad y aplicabilidad. En este trabajo, presentamos dos variantes reducidas, Segmind Stable Diffusion (SSD-1B) y Segmind-Vega, con UNets de 1.3B y 0.74B parámetros, respectivamente, logradas mediante la eliminación progresiva utilizando pérdidas a nivel de capa, enfocadas en reducir el tamaño del modelo mientras se preserva la calidad generativa. Publicamos los pesos de estos modelos en https://hf.co/Segmind. Nuestra metodología implica la eliminación de redes residuales y bloques transformadores de la estructura U-Net de SDXL, lo que resulta en reducciones significativas en parámetros y latencia. Nuestros modelos compactos emulan eficazmente el SDXL original al aprovechar el conocimiento transferido, logrando resultados competitivos frente a SDXL más grandes con miles de millones de parámetros. Nuestro trabajo subraya la eficacia de la destilación de conocimiento combinada con pérdidas a nivel de capa para reducir el tamaño del modelo mientras se preservan las capacidades generativas de alta calidad de SDXL, facilitando así una implementación más accesible en entornos con recursos limitados.
CLIP y el Modelo Segment Anything (SAM) son modelos fundamentales de visión (VFMs) destacados. SAM sobresale en tareas de segmentación en diversos dominios, mientras que CLIP es reconocido por sus capacidades de reconocimiento zero-shot. Este artículo presenta una exploración en profundidad de la integración de estos dos modelos en un marco unificado. Específicamente, introducimos el Open-Vocabulary SAM, un modelo inspirado en SAM diseñado para la segmentación interactiva y el reconocimiento simultáneos, aprovechando dos módulos únicos de transferencia de conocimiento: SAM2CLIP y CLIP2SAM. El primero adapta el conocimiento de SAM a CLIP mediante destilación y adaptadores transformadores aprendibles, mientras que el segundo transfiere el conocimiento de CLIP a SAM, mejorando sus capacidades de reconocimiento. Experimentos extensos en varios conjuntos de datos y detectores muestran la efectividad de Open-Vocabulary SAM tanto en tareas de segmentación como de reconocimiento, superando significativamente los enfoques básicos de simplemente combinar SAM y CLIP. Además, con la ayuda del entrenamiento con datos de clasificación de imágenes, nuestro método puede segmentar y reconocer aproximadamente 22,000 clases.
En los últimos años, la generación de voz ha experimentado avances notables, logrando ahora una capacidad de generación en una sola toma que a menudo es prácticamente indistinguible de la voz humana real. Integrar estos avances en la generación de voz con modelos de lenguaje extensos podría revolucionar una amplia gama de aplicaciones. Sin embargo, ciertas aplicaciones, como los sistemas conversacionales de asistencia, requieren herramientas de generación de voz natural y conversacional que también funcionen de manera eficiente en tiempo real. Los modelos actuales más avanzados, como VALL-E y SoundStorm, impulsados por códecs neuronales jerárquicos de audio, requieren grandes componentes neuronales y extensos datos de entrenamiento para funcionar bien. En contraste, MQTTS busca construir modelos TTS conversacionales más compactos mientras aprovecha datos de habla conversacional de la vida real a menor escala. Sin embargo, su naturaleza autoregresiva genera una alta latencia en la inferencia, lo que limita su uso en tiempo real. Para mitigar las limitaciones actuales de los modelos TTS más avanzados mientras se capitalizan sus fortalezas, en este trabajo presentamos la serie de modelos Pheme que 1) ofrece modelos compactos pero de alto rendimiento, 2) permite la generación paralela de voz, 3) produce habla conversacional natural, y 4) puede entrenarse de manera eficiente con datos conversacionales a menor escala, reduciendo la demanda de datos en más de 10 veces pero aún igualando la calidad de los modelos TTS autoregresivos. También demostramos que, a través de una simple destilación maestro-estudiante, podemos lograr mejoras significativas en la calidad de la voz para configuraciones de un solo hablante sobre puntos de control preentrenados de Pheme, dependiendo únicamente de voz sintética generada por modelos maestros mucho más grandes. Las muestras de audio y los modelos preentrenados están disponibles en línea.