Artículos de investigación en IA seleccionados diariamente con traducciones
En este documento, nuestro objetivo es mejorar el rendimiento de SwiftBrush, un destacado modelo de difusión de texto a imagen de un solo paso, para que sea competitivo con su contraparte de difusión estable de múltiples pasos. Inicialmente, exploramos el equilibrio calidad-diversidad entre SwiftBrush y SD Turbo: el primero destaca en diversidad de imágenes, mientras que el segundo sobresale en calidad de imagen. Esta observación motiva nuestras modificaciones propuestas en la metodología de entrenamiento, que incluyen una mejor inicialización de pesos y un entrenamiento eficiente de LoRA. Además, nuestra introducción de una nueva pérdida CLIP limitada mejora el alineamiento imagen-texto y da como resultado una mejor calidad de imagen. Notablemente, al combinar los pesos de modelos entrenados con LoRA eficiente y entrenamiento completo, logramos un nuevo modelo de difusión de un solo paso de última generación, alcanzando un FID de 8.14 y superando a todos los modelos basados en GAN y de difusión estable de múltiples pasos. El código de evaluación está disponible en: https://github.com/vinairesearch/swiftbrushv2.
En los últimos años, los modelos base (MBs) como los grandes modelos de lenguaje (GMLs) y los modelos de difusión latente (MDLs) han impactado profundamente diversos sectores, incluida la música. Esta revisión exhaustiva examina los modelos pre-entrenados de última generación y los modelos base en música, abarcando desde el aprendizaje de representaciones, el aprendizaje generativo y el aprendizaje multimodal. Primero contextualizamos la importancia de la música en diversas industrias y rastreamos la evolución de la IA en la música. Al delinear las modalidades enfocadas por los modelos base, descubrimos que muchas de las representaciones musicales están poco exploradas en el desarrollo de MBs. Luego, se hace hincapié en la falta de versatilidad de los métodos anteriores en diversas aplicaciones musicales, junto con el potencial de los MBs en la comprensión, generación y aplicación médica de la música. Al explorar exhaustivamente los detalles del paradigma de pre-entrenamiento del modelo, las elecciones arquitectónicas, la tokenización, las metodologías de ajuste fino y la controlabilidad, destacamos los temas importantes que deberían haber sido bien explorados, como la sintonización de instrucciones y el aprendizaje en contexto, la ley de escalado y la capacidad emergente, así como el modelado de secuencias largas, etc. Una sección dedicada presenta ideas sobre agentes musicales, acompañada de un análisis exhaustivo de conjuntos de datos y evaluaciones esenciales para el pre-entrenamiento y tareas posteriores. Finalmente, al subrayar la importancia vital de consideraciones éticas, abogamos porque la investigación futura sobre MBs para la música se centre más en problemas como la interpretabilidad, la transparencia, la responsabilidad humana y cuestiones de derechos de autor. El documento ofrece ideas sobre los desafíos y tendencias futuras en MBs para la música, con el objetivo de dar forma a la trayectoria de la colaboración humano-IA en el ámbito musical.
La resolución de problemas en los problemas de GitHub es una tarea crítica en la ingeniería de software, que recientemente ha ganado una atención significativa tanto en la industria como en la academia. Dentro de esta tarea, SWE-bench ha sido lanzado para evaluar las capacidades de resolución de problemas de grandes modelos de lenguaje (LLMs), pero hasta ahora solo se ha centrado en la versión de Python. Sin embargo, es importante también ofrecer soporte para más lenguajes de programación, ya que hay una fuerte demanda en la industria. Como primer paso hacia el soporte multilingüe, hemos desarrollado una versión en Java de SWE-bench, llamada SWE-bench-java. Hemos publicado el conjunto de datos, junto con el entorno de evaluación basado en Docker correspondiente y la tabla de clasificación, que se mantendrán y actualizarán continuamente en los próximos meses. Para verificar la fiabilidad de SWE-bench-java, implementamos un método clásico SWE-agent y probamos varios LLMs potentes en él. Como es bien sabido, desarrollar un benchmark multilingüe de alta calidad es un proceso que consume tiempo y requiere mucho trabajo, por lo que agradecemos las contribuciones a través de solicitudes de extracción o colaboración para acelerar su iteración y perfeccionamiento, allanando el camino hacia la programación completamente automatizada.
El rápido avance de los modelos generativos visuales requiere métodos de evaluación eficientes y confiables. La plataforma Arena, que recopila votos de usuarios en comparaciones de modelos, puede clasificar los modelos según las preferencias humanas. Sin embargo, los métodos tradicionales de Arena, aunque establecidos, requieren un número excesivo de comparaciones para que la clasificación converja y son vulnerables al ruido de preferencias en las votaciones, lo que sugiere la necesidad de enfoques mejores adaptados a los desafíos de evaluación contemporáneos. En este documento, presentamos K-Sort Arena, una plataforma eficiente y confiable basada en una idea clave: las imágenes y videos poseen una intuición perceptual más alta que los textos, lo que permite una evaluación rápida de múltiples muestras simultáneamente. En consecuencia, K-Sort Arena emplea comparaciones de K-elementos, permitiendo que K modelos participen en competencias de todos contra todos, lo que proporciona información mucho más rica que las comparaciones de a pares. Para mejorar la robustez del sistema, aprovechamos modelado probabilístico y técnicas de actualización bayesiana. Proponemos una estrategia de emparejamiento basada en exploración-explotación para facilitar comparaciones más informativas. En nuestros experimentos, K-Sort Arena muestra una convergencia 16.3 veces más rápida en comparación con el algoritmo ELO ampliamente utilizado. Para validar aún más la superioridad y obtener una tabla de clasificación integral, recopilamos comentarios humanos a través de evaluaciones crowdsourced de numerosos modelos de texto a imagen y texto a video de vanguardia. Gracias a su alta eficiencia, K-Sort Arena puede incorporar continuamente modelos emergentes y actualizar la tabla de clasificación con un mínimo de votos. Nuestro proyecto ha pasado por varios meses de pruebas internas y ahora está disponible en https://huggingface.co/spaces/ksort/K-Sort-Arena.
La amplia adopción de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) propietarios basados en la nube ha introducido desafíos significativos, incluyendo dependencias operativas, preocupaciones de privacidad y la necesidad de conectividad continua a internet. En este trabajo, presentamos un flujo de trabajo de LLMOps, "LlamaDuo", para la migración sin problemas de conocimientos y habilidades de LLMs orientados al servicio a modelos más pequeños y manejables localmente. Este flujo de trabajo es crucial para garantizar la continuidad del servicio en presencia de fallas operativas, políticas estrictas de privacidad o requisitos sin conexión. Nuestro LlamaDuo implica el ajuste fino de un modelo de lenguaje pequeño contra el LLM de servicio utilizando un conjunto de datos sintético generado por este último. Si el rendimiento del modelo ajustado finamente no cumple con las expectativas, se mejora mediante un ajuste fino adicional con datos similares adicionales creados por el LLM de servicio. Este proceso iterativo garantiza que el modelo más pequeño eventualmente pueda igualar o incluso superar las capacidades del LLM de servicio en tareas específicas posteriores, ofreciendo una solución práctica y escalable para gestionar implementaciones de IA en entornos restringidos. Se realizan experimentos extensos con LLMs de vanguardia para demostrar la efectividad, adaptabilidad y asequibilidad de LlamaDuo en diversas tareas posteriores. Nuestra implementación del flujo de trabajo está disponible en https://github.com/deep-diver/llamaduo.
Encontrar la tasa de aprendizaje óptima para el preentrenamiento de modelos de lenguaje es una tarea desafiante. Esto se debe no solo a la complicada correlación entre la tasa de aprendizaje, el tamaño del lote, el número de tokens de entrenamiento, el tamaño del modelo y otros hiperparámetros, sino también porque resulta prohibitivamente costoso realizar una búsqueda de hiperparámetros para grandes modelos de lenguaje con miles de millones o billones de parámetros. Estudios recientes proponen utilizar modelos proxy pequeños y un corpus reducido para realizar búsquedas de hiperparámetros y trasladar los parámetros óptimos a modelos grandes y corpus extensos. Si bien la transferibilidad de cero disparos está teórica y empíricamente demostrada para hiperparámetros relacionados con el tamaño del modelo, como la profundidad y el ancho, la transferencia de cero disparos de un corpus pequeño a un corpus grande está poco explorada. En este artículo, estudiamos la correlación entre la tasa de aprendizaje óptima, el tamaño del lote y el número de tokens de entrenamiento para el programador WSD propuesto recientemente. Después de miles de experimentos pequeños, encontramos una relación de ley de potencia entre las variables y demostramos su transferibilidad entre tamaños de modelos. Basándonos en la observación, proponemos un nuevo programador de tasa de aprendizaje, el programador Power, que es agnóstico sobre el número de tokens de entrenamiento y el tamaño del lote. El experimento muestra que combinar el programador Power con la Parametrización Máxima de Actualización (muP) puede lograr consistentemente un rendimiento impresionante con un conjunto de hiperparámetros independientemente del número de tokens de entrenamiento, tamaño del lote, tamaño del modelo e incluso la arquitectura del modelo. Nuestros modelos densos de 3B y MoE entrenados con el programador Power logran un rendimiento comparable a los modelos de lenguaje pequeños de última generación. Ponemos a disposición estos modelos preentrenados en https://ibm.biz/BdKhLa.
En los juegos de disparos en primera persona multijugador como Counter-Strike: Global Offensive (CS:GO), el movimiento coordinado es un componente crítico en el juego estratégico de alto nivel. Sin embargo, la complejidad de la coordinación de equipos y la variedad de condiciones presentes en los mapas de juegos populares hacen impracticable la creación de políticas de movimiento hechas a mano para cada escenario. Mostramos que es posible adoptar un enfoque basado en datos para crear controladores de movimiento similares a los humanos para CS:GO. Curamos un conjunto de datos de movimiento de equipo que comprende 123 horas de trazas de juego profesional, y utilizamos este conjunto de datos para entrenar un modelo de movimiento basado en transformadores que genera movimiento de equipo similar al humano para todos los jugadores en una ronda de "Retakes" del juego. Es importante destacar que el modelo de predicción de movimiento es eficiente. Realizar inferencias para todos los jugadores toma menos de 0.5 ms por paso de juego (costo amortizado) en un solo núcleo de CPU, lo que lo hace plausible para su uso en juegos comerciales hoy en día. Evaluadores humanos determinan que nuestro modelo se comporta más como humanos que tanto los bots disponibles comercialmente como los controladores de movimiento procedurales escritos por expertos (16% a 59% más alto según la calificación de "similar al humano" de TrueSkill). Mediante experimentos que involucran el autojuego de bots en el juego, demostramos que nuestro modelo realiza formas simples de trabajo en equipo, comete menos errores comunes de movimiento y produce distribuciones de movimiento, tiempos de vida de los jugadores y ubicaciones de eliminación similares a las observadas en partidas profesionales de CS:GO.
Los modelos de generación de video tienen un gran potencial en áreas como la producción cinematográfica. Sin embargo, los modelos actuales de difusión de video requieren altos costos computacionales y producen resultados subóptimos debido a la alta complejidad de la tarea de generación de video. En este documento, proponemos ConFiner, un marco eficiente de alta calidad para la generación de video que desacopla la generación de video en tareas más simples: control de estructura y refinamiento espacio-temporal. Puede generar videos de alta calidad con una cadena de expertos en modelos de difusión listos para usar, siendo cada experto responsable de una tarea subacoplada. Durante el refinamiento, introducimos el denoising coordinado, que puede fusionar las capacidades de múltiples expertos en difusión en una sola muestra. Además, diseñamos el marco ConFiner-Long, que puede generar videos largos coherentes con tres estrategias de restricción en ConFiner. Los resultados experimentales indican que con solo el 10\% del costo de inferencia, nuestro ConFiner supera a modelos representativos como Lavie y Modelscope en todas las métricas objetivas y subjetivas. Y ConFiner-Long puede generar videos de alta calidad y coherentes con hasta 600 fotogramas.
Los Modelos de Lenguaje Multimodales a Gran Escala (MM-LLMs) han experimentado avances significativos en el último año, demostrando un rendimiento impresionante en diversas tareas. Sin embargo, para democratizar verdaderamente la IA, los modelos deben mostrar capacidades sólidas y ser capaces de funcionar eficientemente en huellas computacionales pequeñas accesibles para la mayoría. Como parte de esta búsqueda, presentamos LLaVaOLMoBitnet1B, el primer LLM Multimodal Ternario capaz de aceptar entradas de Imagen(es)+Texto para producir respuestas textuales coherentes. El modelo se encuentra completamente de código abierto junto con scripts de entrenamiento para fomentar una mayor investigación en este ámbito. Este informe técnico adjunto destaca el proceso de entrenamiento, detalles de evaluación, desafíos asociados con modelos ternarios y oportunidades futuras. Enlace al modelo: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
El creciente uso de Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) ha resultado en una creciente demanda de sistemas de servidores a escala planetaria, donde decenas de miles de GPUs sirven continuamente a cientos de millones de usuarios. En consecuencia, el rendimiento (bajo restricciones de latencia razonables) ha surgido como una métrica clave que determina el rendimiento de los sistemas de servidores. Para aumentar el rendimiento, se han explorado varios métodos de paralelismo entre dispositivos (por ejemplo, datos, tensores, canalización). Sin embargo, los métodos existentes no consideran la superposición de la utilización de diferentes recursos dentro de un solo dispositivo, lo que conduce a una subutilización y un rendimiento subóptimo. Proponemos NanoFlow, un nuevo marco de servidores que explota el paralelismo intra-dispositivo, que superpone el uso de recursos, incluidos cálculo, memoria y red, dentro de un solo dispositivo a través de la programación conjunta de operaciones. Para explotar el paralelismo intra-dispositivo, NanoFlow introduce dos innovaciones clave: primero, NanoFlow divide las solicitudes en nano-lotes en la granularidad de operaciones, lo que rompe la dependencia de operaciones secuenciales en la inferencia de LLM y permite la superposición; luego, para beneficiarse de la superposición, NanoFlow utiliza una canalización a nivel de operación con programación de unidades de ejecución, que divide las unidades funcionales del dispositivo y ejecuta simultáneamente diferentes operaciones en cada unidad. NanoFlow automatiza la configuración de la canalización mediante un algoritmo de búsqueda de parámetros, lo que permite portar fácilmente NanoFlow a diferentes modelos. Implementamos NanoFlow en GPUs de NVIDIA y evaluamos el rendimiento de servidores de extremo a extremo en varios modelos populares como LLaMA-2-70B, Mixtral 8x7B, LLaMA-3-8B, etc. Con cargas de trabajo prácticas, NanoFlow proporciona un aumento de rendimiento de 1.91 veces en comparación con los sistemas de servidores de última generación, logrando entre el 59% y el 72% del rendimiento óptimo en los modelos portados.
Los modelos de lenguaje grandes (LLMs) han revolucionado el procesamiento del lenguaje, ofreciendo resultados sobresalientes en múltiples aplicaciones. Sin embargo, desplegar LLMs en dispositivos periféricos plantea varios desafíos en cuanto a memoria, energía y costos de cómputo, limitando su uso generalizado en dispositivos como teléfonos móviles. Una solución prometedora es reducir el número de bits utilizados para representar pesos y activaciones. Si bien trabajos existentes han tenido cierto éxito al cuantificar LLMs a anchos de bits más bajos, por ejemplo, pesos de 4 bits, cuantificar activaciones más allá de 16 bits a menudo conlleva grandes sobrecargas computacionales debido al escaso soporte de cuantificación en el dispositivo, o una considerable disminución de precisión. Sin embargo, las activaciones de 8 bits son muy atractivas para el despliegue en dispositivos, ya que permitirían a los LLMs aprovechar plenamente el hardware amigable para móviles, por ejemplo, las Unidades de Procesamiento Neural (NPUs). En este trabajo, realizamos un primer intento de facilitar el despliegue en dispositivos de LLMs utilizando cuantificación solo con números enteros. Primero investigamos las limitaciones de los métodos de cuantificación existentes para el despliegue en dispositivos, con un enfoque especial en la cuantificación de activaciones. Luego abordamos estas limitaciones al introducir un método simple de cuantificación posterior al entrenamiento, llamado MobileQuant, que amplía trabajos previos de transformación equivalente de pesos optimizando conjuntamente la transformación de pesos y los parámetros del rango de activación de manera integral. MobileQuant demuestra capacidades superiores sobre los métodos existentes al 1) lograr una cuantificación casi sin pérdidas en una amplia gama de benchmarks de LLMs, 2) reducir la latencia y el consumo de energía en un 20\%-50\% en comparación con las estrategias actuales de cuantificación en dispositivos, 3) requerir un presupuesto de cómputo limitado, 4) ser compatible con unidades de cómputo amigables para móviles, por ejemplo, NPU.
Los videos de transición desempeñan un papel crucial en la producción de medios, mejorando el flujo y la coherencia de las narrativas visuales. Los métodos tradicionales como el morphing a menudo carecen de atractivo artístico y requieren habilidades especializadas, lo que limita su efectividad. Los avances recientes en la generación de videos basada en modelos de difusión ofrecen nuevas posibilidades para crear transiciones, pero enfrentan desafíos como la modelización deficiente de las relaciones entre fotogramas y cambios abruptos de contenido. Proponemos un enfoque novedoso de Generación de Videos de Transición (TVG) sin entrenamiento, utilizando modelos de difusión a nivel de video que abordan estas limitaciones sin necesidad de entrenamiento adicional. Nuestro método aprovecha la Regresión de Procesos Gaussianos (GPR) para modelar representaciones latentes, garantizando transiciones suaves y dinámicas entre fotogramas. Además, introducimos controles condicionales basados en interpolación y una arquitectura de Fusión Bidireccional Consciente de la Frecuencia (FBiF) para mejorar el control temporal y la fiabilidad de las transiciones. Las evaluaciones de conjuntos de datos de referencia y pares de imágenes personalizadas demuestran la efectividad de nuestro enfoque en la generación de videos de transición suaves de alta calidad. El código se proporciona en https://sobeymil.github.io/tvg.com.
Los modelos de lenguaje grandes (LLMs) como ChatGPT y Gemini han avanzado significativamente en el procesamiento del lenguaje natural, permitiendo diversas aplicaciones como chatbots y generación automatizada de contenido. Sin embargo, estos modelos pueden ser explotados por individuos malintencionados que crean estímulos tóxicos para obtener respuestas dañinas o poco éticas. Estos individuos a menudo emplean técnicas de jailbreaking para evadir los mecanismos de seguridad, resaltando la necesidad de métodos robustos de detección de estímulos tóxicos. Las técnicas de detección existentes, tanto caja negra como caja blanca, enfrentan desafíos relacionados con la diversidad de estímulos tóxicos, la escalabilidad y la eficiencia computacional. En respuesta, proponemos ToxicDetector, un método greybox ligero diseñado para detectar eficientemente estímulos tóxicos en LLMs. ToxicDetector aprovecha los LLMs para crear estímulos conceptuales tóxicos, utiliza vectores de incrustación para formar vectores de características y emplea un clasificador de Perceptrón Multicapa (MLP) para la clasificación de estímulos. Nuestra evaluación en varias versiones de los modelos LLama, Gemma-2 y múltiples conjuntos de datos demuestra que ToxicDetector logra una alta precisión del 96.39\% y una baja tasa de falsos positivos del 2.00\%, superando a los métodos de vanguardia. Además, el tiempo de procesamiento de ToxicDetector de 0.0780 segundos por estímulo lo hace altamente adecuado para aplicaciones en tiempo real. ToxicDetector logra alta precisión, eficiencia y escalabilidad, convirtiéndolo en un método práctico para la detección de estímulos tóxicos en LLMs.
Los trabajos existentes en la reconstrucción humana a partir de una sola imagen sufren de una débil generalización debido a la falta de datos de entrenamiento suficientes o inconsistencias tridimensionales por la falta de un conocimiento multi-vista integral. En este documento, presentamos MagicMan, un modelo de difusión multi-vista específico para humanos diseñado para generar imágenes de nuevas vistas de alta calidad a partir de una sola imagen de referencia. En su núcleo, aprovechamos un modelo de difusión 2D pre-entrenado como prior generativo para la generalización, con el modelo paramétrico SMPL-X como prior del cuerpo 3D para promover la conciencia 3D. Para abordar el desafío crítico de mantener la consistencia al lograr una generación densa multi-vista para una mejor reconstrucción humana 3D, primero introducimos una atención híbrida multi-vista para facilitar tanto un intercambio eficiente como exhaustivo de información entre diferentes vistas. Además, presentamos una rama dual consciente de la geometría para realizar una generación simultánea en los dominios RGB y normales, mejorando aún más la consistencia a través de pistas de geometría. Por último, para abordar problemas de forma incorrecta que surgen de una estimación inexacta de SMPL-X que entra en conflicto con la imagen de referencia, proponemos una novedosa estrategia de refinamiento iterativo, que optimiza progresivamente la precisión de SMPL-X mientras mejora la calidad y consistencia de las vistas múltiples generadas. Los extensos resultados experimentales demuestran que nuestro método supera significativamente a los enfoques existentes tanto en la síntesis de nuevas vistas como en las tareas subsiguientes de reconstrucción humana 3D.