Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

YuLan-Mini: Un modelo de lenguaje de código abierto eficiente en datos
YuLan-Mini: An Open Data-efficient Language Model

Dec 23

ByYiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen

La pre-entrenamiento efectivo de grandes modelos de lenguaje (LLMs) ha sido un desafío debido a las enormes demandas de recursos y la complejidad de los procesos técnicos involucrados. Este documento presenta un informe técnico detallado sobre YuLan-Mini, un modelo base altamente capaz con 2.42 mil millones de parámetros que logra un rendimiento de primer nivel entre modelos de escala de parámetros similares. Nuestro enfoque de pre-entrenamiento se centra en mejorar la eficacia del entrenamiento a través de tres contribuciones técnicas clave: un elaborado pipeline de datos que combina la limpieza de datos con estrategias de programación de datos, un método de optimización robusto para mitigar la inestabilidad del entrenamiento y un enfoque de recocido efectivo que incorpora selección de datos dirigida y entrenamiento de largo contexto. Notablemente, YuLan-Mini, entrenado en 1.08 billones de tokens, logra un rendimiento comparable a modelos líderes en la industria que requieren significativamente más datos. Para facilitar la reproducción, publicamos todos los detalles de la composición de datos para cada fase de entrenamiento. Los detalles del proyecto se pueden acceder en el siguiente enlace: https://github.com/RUC-GSAI/YuLan-Mini.

¿Una bala de plata o un compromiso para la atención total? Un estudio exhaustivo de la compresión de contexto basada en tokens de esencia.
A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

Dec 23

ByChenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou

En este trabajo, realizamos una investigación exhaustiva de los métodos de compresión de contexto basados en la esencia para mejorar el procesamiento de contextos largos en modelos de lenguaje grandes. Nos centramos en dos preguntas clave: (1) ¿Hasta qué punto pueden estos métodos reemplazar a los modelos de atención completos? y (2) ¿Qué patrones de falla potenciales surgen debido a la compresión? A través de experimentos extensos, demostramos que si bien la compresión basada en la esencia puede lograr un rendimiento casi sin pérdidas en tareas como la generación aumentada por recuperación y la pregunta y respuesta en documentos largos, enfrenta desafíos en tareas como la recuperación sintética. Además, identificamos tres patrones clave de falla: perdido por el límite, perdido si sorpresa y perdido en el camino. Para mitigar estos problemas, proponemos dos estrategias efectivas: autoencodificación detallada, que mejora la reconstrucción de la información original de los tokens, y estimación de importancia de tokens por segmentos, que ajusta la optimización basada en las dependencias de los tokens. Nuestro trabajo proporciona ideas valiosas para comprender la compresión de contexto basada en tokens de esencia y ofrece estrategias prácticas para mejorar las capacidades de compresión.

MMFactory: Un motor de búsqueda de soluciones universales para tareas de visión y lenguaje.
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24

ByWan-Cyuan Fan, Tanzila Rahman, Leonid Sigal

Con los avances en modelos fundamentales y visión-lenguaje, y técnicas efectivas de ajuste fino, se han desarrollado una gran cantidad de modelos tanto generales como de propósito especial para una variedad de tareas visuales. A pesar de la flexibilidad y accesibilidad de estos modelos, ningún modelo único es capaz de manejar todas las tareas y/o aplicaciones que puedan ser imaginadas por los usuarios potenciales. Enfoques recientes, como la programación visual y los LLM multimodales con herramientas integradas, tienen como objetivo abordar tareas visuales complejas a través de la síntesis de programas. Sin embargo, dichos enfoques pasan por alto las restricciones del usuario (por ejemplo, necesidades de rendimiento / computacionales), producen soluciones específicas de muestra en tiempo de prueba que son difíciles de implementar y, a veces, requieren instrucciones de bajo nivel que pueden estar más allá de las capacidades de un usuario inexperto. Para abordar estas limitaciones, presentamos MMFactory, un marco universal que incluye componentes de enrutamiento de modelos y métricas, actuando como un motor de búsqueda de soluciones a través de varios modelos disponibles. Basado en una descripción de tarea y algunas pares de entrada-salida de muestra y (opcionalmente) restricciones de recursos y/o rendimiento, MMFactory puede sugerir un conjunto diverso de soluciones programáticas al instanciar y combinar herramientas visio-linguales de su repositorio de modelos. Además de sintetizar estas soluciones, MMFactory también propone métricas y evalúa el rendimiento/características de recursos, permitiendo a los usuarios elegir una solución que cumpla con sus restricciones de diseño únicas. Desde el punto de vista técnico, también presentamos un proponente de soluciones basado en comités que aprovecha la conversación LLM multiagente para generar soluciones ejecutables, diversas, universales y robustas para el usuario. Los resultados experimentales muestran que MMFactory supera a los métodos existentes al ofrecer soluciones de vanguardia adaptadas a las especificaciones del problema del usuario. La página del proyecto está disponible en https://davidhalladay.github.io/mmfactory_demo.

Molar: LLMs Multimodales con Alineación de Filtrado Colaborativo para una Recomendación Secuencial Mejorada
Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation

Dec 24

ByYucong Luo, Qitao Qin, Hao Zhang, Mingyue Cheng, Ruiran Yan, Kefan Wang, Jie Ouyang

Los sistemas de recomendación secuencial (SR) han evolucionado significativamente en la última década, pasando de los enfoques tradicionales de filtrado colaborativo a técnicas de aprendizaje profundo y, más recientemente, a modelos de lenguaje extenso (LLMs). Si bien la adopción de LLMs ha impulsado avances sustanciales, estos modelos carecen inherentemente de información de filtrado colaborativo, confiando principalmente en datos de contenido textual y descuidando otras modalidades, lo que resulta en un rendimiento de recomendación subóptimo. Para abordar esta limitación, proponemos Molar, un marco de recomendación secuencial de lenguaje extenso multimodal que integra múltiples modalidades de contenido con información de ID para capturar señales colaborativas de manera efectiva. Molar emplea un MLLM para generar representaciones unificadas de elementos a partir de datos tanto textuales como no textuales, facilitando un modelado multimodal completo y enriqueciendo incrustaciones de elementos. Además, incorpora señales de filtrado colaborativo a través de un mecanismo de post-alineación, que alinea representaciones de usuarios de modelos basados en contenido e ID, asegurando una personalización precisa y un rendimiento robusto. Al combinar de manera fluida contenido multimodal con percepciones de filtrado colaborativo, Molar captura tanto los intereses del usuario como la semántica contextual, lo que resulta en una precisión de recomendación superior. Experimentos extensos validan que Molar supera significativamente a los baselines tradicionales y basados en LLM, resaltando su fortaleza en la utilización de datos multimodales y señales colaborativas para tareas de recomendación secuencial. El código fuente está disponible en https://anonymous.4open.science/r/Molar-8B06/.

YuLan-Mini: Un modelo de lenguaje de código abierto eficiente en datos

YuLan-Mini: An Open Data-efficient Language Model

Dec 23

ByYiwen Hu, Huatong Song, Jia Deng, Jiapeng Wang, Jie Chen, Kun Zhou, Yutao Zhu, Jinhao Jiang, Zican Dong, Wayne Xin Zhao, Ji-Rong Wen

¿Una bala de plata o un compromiso para la atención total? Un estudio exhaustivo de la compresión de contexto basada en tokens de esencia.

A Silver Bullet or a Compromise for Full Attention? A Comprehensive Study of Gist Token-based Context Compression

Dec 23

ByChenlong Deng, Zhisong Zhang, Kelong Mao, Shuaiyi Li, Xinting Huang, Dong Yu, Zhicheng Dou

MMFactory: Un motor de búsqueda de soluciones universales para tareas de visión y lenguaje.

MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

Dec 24

ByWan-Cyuan Fan, Tanzila Rahman, Leonid Sigal

Molar: LLMs Multimodales con Alineación de Filtrado Colaborativo para una Recomendación Secuencial Mejorada

Molar: Multimodal LLMs with Collaborative Filtering Alignment for Enhanced Sequential Recommendation

Dec 24

ByYucong Luo, Qitao Qin, Hao Zhang, Mingyue Cheng, Ruiran Yan, Kefan Wang, Jie Ouyang