Artículos de investigación en IA seleccionados diariamente con traducciones
Los avances recientes en autoencoders de video (Video AEs) han mejorado significativamente la calidad y eficiencia de la generación de video. En este documento, proponemos un autoencoder de video novedoso y compacto, VidTwin, que desacopla el video en dos espacios latentes distintos: vectores latentes de Estructura, que capturan el contenido general y el movimiento global, y vectores latentes de Dinámica, que representan detalles detallados y movimientos rápidos. Específicamente, nuestro enfoque aprovecha una estructura Codificador-Decodificador, complementada con dos submódulos para extraer estos espacios latentes, respectivamente. El primer submódulo emplea un Q-Former para extraer tendencias de movimiento de baja frecuencia, seguido de bloques de submuestreo para eliminar detalles de contenido redundantes. El segundo promedia los vectores latentes a lo largo de la dimensión espacial para capturar el movimiento rápido. Experimentos extensos muestran que VidTwin logra una alta tasa de compresión del 0.20% con una alta calidad de reconstrucción (PSNR de 28.14 en el conjunto de datos MCL-JCV), y se desempeña de manera eficiente y efectiva en tareas generativas posteriores. Además, nuestro modelo demuestra explicabilidad y escalabilidad, allanando el camino para futuras investigaciones en representación latente y generación de video. Nuestro código ha sido publicado en https://github.com/microsoft/VidTok/tree/main/vidtwin.
La pre-entrenamiento efectivo de grandes modelos de lenguaje (LLMs) ha sido un desafío debido a las enormes demandas de recursos y la complejidad de los procesos técnicos involucrados. Este documento presenta un informe técnico detallado sobre YuLan-Mini, un modelo base altamente capaz con 2.42 mil millones de parámetros que logra un rendimiento de primer nivel entre modelos de escala de parámetros similares. Nuestro enfoque de pre-entrenamiento se centra en mejorar la eficacia del entrenamiento a través de tres contribuciones técnicas clave: un elaborado pipeline de datos que combina la limpieza de datos con estrategias de programación de datos, un método de optimización robusto para mitigar la inestabilidad del entrenamiento y un enfoque de recocido efectivo que incorpora selección de datos dirigida y entrenamiento de largo contexto. Notablemente, YuLan-Mini, entrenado en 1.08 billones de tokens, logra un rendimiento comparable a modelos líderes en la industria que requieren significativamente más datos. Para facilitar la reproducción, publicamos todos los detalles de la composición de datos para cada fase de entrenamiento. Los detalles del proyecto se pueden acceder en el siguiente enlace: https://github.com/RUC-GSAI/YuLan-Mini.
En este trabajo, realizamos una investigación exhaustiva de los métodos de compresión de contexto basados en la esencia para mejorar el procesamiento de contextos largos en modelos de lenguaje grandes. Nos centramos en dos preguntas clave: (1) ¿Hasta qué punto pueden estos métodos reemplazar a los modelos de atención completos? y (2) ¿Qué patrones de falla potenciales surgen debido a la compresión? A través de experimentos extensos, demostramos que si bien la compresión basada en la esencia puede lograr un rendimiento casi sin pérdidas en tareas como la generación aumentada por recuperación y la pregunta y respuesta en documentos largos, enfrenta desafíos en tareas como la recuperación sintética. Además, identificamos tres patrones clave de falla: perdido por el límite, perdido si sorpresa y perdido en el camino. Para mitigar estos problemas, proponemos dos estrategias efectivas: autoencodificación detallada, que mejora la reconstrucción de la información original de los tokens, y estimación de importancia de tokens por segmentos, que ajusta la optimización basada en las dependencias de los tokens. Nuestro trabajo proporciona ideas valiosas para comprender la compresión de contexto basada en tokens de esencia y ofrece estrategias prácticas para mejorar las capacidades de compresión.
Con los avances en modelos fundamentales y visión-lenguaje, y técnicas efectivas de ajuste fino, se han desarrollado una gran cantidad de modelos tanto generales como de propósito especial para una variedad de tareas visuales. A pesar de la flexibilidad y accesibilidad de estos modelos, ningún modelo único es capaz de manejar todas las tareas y/o aplicaciones que puedan ser imaginadas por los usuarios potenciales. Enfoques recientes, como la programación visual y los LLM multimodales con herramientas integradas, tienen como objetivo abordar tareas visuales complejas a través de la síntesis de programas. Sin embargo, dichos enfoques pasan por alto las restricciones del usuario (por ejemplo, necesidades de rendimiento / computacionales), producen soluciones específicas de muestra en tiempo de prueba que son difíciles de implementar y, a veces, requieren instrucciones de bajo nivel que pueden estar más allá de las capacidades de un usuario inexperto. Para abordar estas limitaciones, presentamos MMFactory, un marco universal que incluye componentes de enrutamiento de modelos y métricas, actuando como un motor de búsqueda de soluciones a través de varios modelos disponibles. Basado en una descripción de tarea y algunas pares de entrada-salida de muestra y (opcionalmente) restricciones de recursos y/o rendimiento, MMFactory puede sugerir un conjunto diverso de soluciones programáticas al instanciar y combinar herramientas visio-linguales de su repositorio de modelos. Además de sintetizar estas soluciones, MMFactory también propone métricas y evalúa el rendimiento/características de recursos, permitiendo a los usuarios elegir una solución que cumpla con sus restricciones de diseño únicas. Desde el punto de vista técnico, también presentamos un proponente de soluciones basado en comités que aprovecha la conversación LLM multiagente para generar soluciones ejecutables, diversas, universales y robustas para el usuario. Los resultados experimentales muestran que MMFactory supera a los métodos existentes al ofrecer soluciones de vanguardia adaptadas a las especificaciones del problema del usuario. La página del proyecto está disponible en https://davidhalladay.github.io/mmfactory_demo.
Los sistemas de recomendación secuencial (SR) han evolucionado significativamente en la última década, pasando de los enfoques tradicionales de filtrado colaborativo a técnicas de aprendizaje profundo y, más recientemente, a modelos de lenguaje extenso (LLMs). Si bien la adopción de LLMs ha impulsado avances sustanciales, estos modelos carecen inherentemente de información de filtrado colaborativo, confiando principalmente en datos de contenido textual y descuidando otras modalidades, lo que resulta en un rendimiento de recomendación subóptimo. Para abordar esta limitación, proponemos Molar, un marco de recomendación secuencial de lenguaje extenso multimodal que integra múltiples modalidades de contenido con información de ID para capturar señales colaborativas de manera efectiva. Molar emplea un MLLM para generar representaciones unificadas de elementos a partir de datos tanto textuales como no textuales, facilitando un modelado multimodal completo y enriqueciendo incrustaciones de elementos. Además, incorpora señales de filtrado colaborativo a través de un mecanismo de post-alineación, que alinea representaciones de usuarios de modelos basados en contenido e ID, asegurando una personalización precisa y un rendimiento robusto. Al combinar de manera fluida contenido multimodal con percepciones de filtrado colaborativo, Molar captura tanto los intereses del usuario como la semántica contextual, lo que resulta en una precisión de recomendación superior. Experimentos extensos validan que Molar supera significativamente a los baselines tradicionales y basados en LLM, resaltando su fortaleza en la utilización de datos multimodales y señales colaborativas para tareas de recomendación secuencial. El código fuente está disponible en https://anonymous.4open.science/r/Molar-8B06/.