Artículos de investigación en IA seleccionados diariamente con traducciones
El Pretrenamiento Contraste Lenguaje-Imagen (CLIP) se utiliza ampliamente para entrenar modelos que alinean imágenes y textos en un espacio de incrustación común, mapeándolos a vectores de tamaño fijo. Estos modelos son fundamentales para la recuperación de información multimodal y tareas relacionadas. Sin embargo, los modelos CLIP generalmente tienen un rendimiento inferior en tareas exclusivas de texto en comparación con modelos especializados en texto. Esto genera ineficiencias en los sistemas de recuperación de información que mantienen incrustaciones y modelos separados para tareas exclusivas de texto y multimodales. Proponemos un método novedoso de entrenamiento contrastivo multitarea para abordar este problema, el cual utilizamos para entrenar el modelo jina-clip-v1, logrando un rendimiento de vanguardia tanto en tareas de recuperación texto-imagen como texto-texto.
En los últimos años, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han logrado avances notables en diversos dominios. Sin embargo, la falta de actualización oportuna y el costo de la actualización del conocimiento, junto con los problemas de alucinación de los LLMs, han limitado su aplicación en tareas intensivas en conocimiento, donde la generación aumentada por recuperación (RAG, por sus siglas en inglés) puede ser de ayuda. No obstante, los modelos existentes aumentados por recuperación suelen utilizar la similitud como puente entre consultas y documentos, siguiendo un procedimiento de recuperar y luego leer. En este trabajo, argumentamos que la similitud no siempre es la panacea y que depender completamente de ella puede, en ocasiones, degradar el rendimiento de la generación aumentada por recuperación. Con este fin, proponemos MetRag, un marco de Generación Aumentada por Recuperación mejorado con Pensamientos Multicapa. Para empezar, más allá del pensamiento orientado a la similitud existente, adoptamos un modelo de utilidad a pequeña escala que obtiene supervisión de un LLM para un pensamiento orientado a la utilidad y, además, desarrollamos un modelo más inteligente al combinar de manera integral los pensamientos orientados a la similitud y a la utilidad. Además, dado que el conjunto de documentos recuperados tiende a ser extenso y su uso aislado dificulta captar las similitudes y características entre ellos, proponemos utilizar un LLM como resumidor adaptativo a la tarea para dotar a la generación aumentada por recuperación de un pensamiento orientado a la compacidad. Finalmente, con los pensamientos multicapa de las etapas anteriores, se invoca a un LLM para la generación aumentada por conocimiento. Experimentos exhaustivos en tareas intensivas en conocimiento han demostrado la superioridad de MetRag.
Este estudio profundiza en el ámbito de la comprensión multimodal (es decir, modalidades de video y movimiento) del comportamiento humano, aprovechando las potentes capacidades de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A diferencia de los LLMs recientes diseñados para la comprensión exclusiva de video o movimiento, argumentamos que entender el comportamiento humano requiere un modelado conjunto tanto de videos como de secuencias de movimiento (por ejemplo, secuencias SMPL) para capturar de manera efectiva la dinámica y la semántica detallada de las partes del cuerpo. En este contexto, presentamos MotionLLM, un marco sencillo pero efectivo para la comprensión, descripción y razonamiento del movimiento humano. Específicamente, MotionLLM adopta una estrategia de entrenamiento unificada de video-movimiento que aprovecha las ventajas complementarias de los datos existentes de texto-video de nivel grueso y los datos de texto-movimiento de nivel fino para obtener insights ricos en espacio-tiempo. Además, recopilamos un conjunto de datos sustancial, MoVid, que incluye videos, movimientos, descripciones e instrucciones diversos. Adicionalmente, proponemos el MoVid-Bench, con anotaciones manuales cuidadosas, para una mejor evaluación de la comprensión del comportamiento humano en video y movimiento. Experimentos extensos demuestran la superioridad de MotionLLM en la descripción, la comprensión espacio-temporal y la capacidad de razonamiento.
En este trabajo, presentamos Xwin-LM, un conjunto integral de metodologías de alineación para modelos de lenguaje de gran escala (LLMs). Este conjunto abarca varias técnicas clave, incluyendo ajuste fino supervisado (SFT), modelado de recompensas (RM), ajuste fino por muestreo de rechazo (RS) y optimización directa de preferencias (DPO). Los componentes principales son los siguientes: (1) Xwin-LM-SFT, modelos ajustados inicialmente con datos de instrucción de alta calidad; (2) Xwin-Pair, un conjunto de datos de preferencias a gran escala y de múltiples turnos, meticulosamente anotado utilizando GPT-4; (3) Xwin-RM, modelos de recompensa entrenados en Xwin-Pair, desarrollados con escalas de 7B, 13B y 70B parámetros; (4) Xwin-Set, un conjunto de datos de preferencias múltiples en el que cada indicación está vinculada a 64 respuestas únicas generadas por Xwin-LM-SFT y puntuadas por Xwin-RM; (5) Xwin-LM-RS, modelos ajustados con las respuestas de mayor puntuación de Xwin-Set; (6) Xwin-LM-DPO, modelos optimizados adicionalmente en Xwin-Set utilizando el algoritmo DPO. Nuestras evaluaciones en AlpacaEval y MT-bench demuestran mejoras consistentes y significativas a lo largo de la pipeline, evidenciando la fortaleza y escalabilidad de Xwin-LM. El repositorio https://github.com/Xwin-LM/Xwin-LM se actualizará continuamente para fomentar la investigación comunitaria.
Los métodos de generación de música controlable son fundamentales para la creación de música basada en IA centrada en el ser humano, pero actualmente están limitados por compromisos entre velocidad, calidad y diseño de control. En particular, la Optimización de Tiempo de Inferencia de Difusión (DITTO) ofrece resultados de vanguardia, pero es más de 10 veces más lenta que el tiempo real, lo que limita su uso práctico. Proponemos la Optimización de Tiempo de Inferencia de Difusión Destilada (o DITTO-2), un nuevo método para acelerar el control basado en optimización en tiempo de inferencia y desbloquear la generación más rápida que el tiempo real para una amplia variedad de aplicaciones, como la restauración de música, la extensión, la intensidad, la melodía y el control de la estructura musical. Nuestro método funciona (1) destilando un modelo de difusión preentrenado para un muestreo rápido mediante un proceso eficiente de destilación de consistencia o trayectoria de consistencia modificada, (2) realizando optimización en tiempo de inferencia utilizando nuestro modelo destilado con muestreo de un solo paso como una tarea de optimización sustituta eficiente, y (3) ejecutando una generación final de muestreo de múltiples pasos (decodificación) utilizando nuestros latentes de ruido estimados para una generación controlable, rápida y de la mejor calidad. A través de una evaluación exhaustiva, encontramos que nuestro método no solo acelera la generación más de 10-20 veces, sino que también mejora simultáneamente la adherencia al control y la calidad de la generación. Además, aplicamos nuestro enfoque a una nueva aplicación de maximización de adherencia al texto (puntuación CLAP) y demostramos que podemos convertir un modelo de difusión no condicional sin entradas de texto en un modelo que ofrece un control de texto de vanguardia. Los ejemplos de sonido se pueden encontrar en https://ditto-music.github.io/ditto2/.
Presentamos MOFA-Video, un método avanzado de animación de imágenes controlable que genera video a partir de una imagen dada utilizando diversas señales controlables adicionales (como referencias de puntos clave humanos, trayectorias manuales e incluso otro video proporcionado) o sus combinaciones. Esto difiere de métodos anteriores que solo pueden funcionar en un dominio de movimiento específico o muestran capacidades de control limitadas con un prior de difusión. Para lograr nuestro objetivo, diseñamos varios adaptadores de campo de movimiento conscientes del dominio (\ie, MOFA-Adapters) para controlar los movimientos generados en el pipeline de generación de video. Para los MOFA-Adapters, consideramos la consistencia temporal del movimiento del video y generamos primero el flujo de movimiento denso a partir de las condiciones de control dispersas dadas, y luego, las características multiescala de la imagen dada se envuelven como una guía para la generación estable de video mediante difusión. Entrenamos de manera independiente dos adaptadores de movimiento para las trayectorias manuales y los puntos clave humanos, ya que ambos contienen información dispersa sobre el control. Después del entrenamiento, los MOFA-Adapters en diferentes dominios también pueden trabajar juntos para una generación de video más controlable.
La generación 3D ha experimentado un progreso notable en los últimos años. Las técnicas existentes, como los métodos de destilación de puntuación, producen resultados destacados, pero requieren una optimización extensa por escena, lo que afecta la eficiencia en términos de tiempo. Por otro lado, los enfoques basados en reconstrucción priorizan la eficiencia, pero comprometen la calidad debido a su manejo limitado de la incertidumbre. Presentamos GECO, un método novedoso para el modelado generativo 3D de alta calidad que opera en un segundo. Nuestro enfoque aborda los problemas prevalentes de incertidumbre e ineficiencia en los métodos actuales mediante un proceso de dos etapas. En la etapa inicial, entrenamos un modelo generativo multi-vista de un solo paso con destilación de puntuación. Luego, se aplica una destilación en la segunda etapa para abordar el desafío de la inconsistencia de vistas en la predicción multi-vista. Este proceso de dos etapas asegura un enfoque equilibrado en la generación 3D, optimizando tanto la calidad como la eficiencia. Nuestros experimentos exhaustivos demuestran que GECO logra una generación de imagen a 3D de alta calidad con un nivel de eficiencia sin precedentes.
A medida que los modelos de difusión condicionados por texto (DMs) logran avances en la generación de imágenes, videos y contenido 3D, el enfoque de la comunidad investigadora se ha desplazado hacia la tarea más desafiante de la síntesis de texto a 4D, que introduce una dimensión temporal para generar objetos 3D dinámicos. En este contexto, identificamos el Muestreo de Destilación de Puntuaciones (SDS), una técnica ampliamente utilizada para la síntesis de texto a 3D, como un obstáculo significativo para el rendimiento en texto a 4D debido a sus problemas de caras múltiples (Janus-faced) y texturas poco realistas, junto con altos costos computacionales. En este artículo, proponemos Alineaciones a Nivel de Píxeles para Texto a 4D mediante Gaussian Splatting (PLA4D), un método novedoso que utiliza fotogramas de texto a video como objetivos explícitos de alineación de píxeles para generar objetos 3D estáticos e inyectarles movimiento. Específicamente, introducimos la Alineación Focal para calibrar las poses de la cámara en la renderización y el Aprendizaje Contrastivo GS-Mesh para destilar prioridades geométricas a partir de contrastes de imágenes renderizadas a nivel de píxel. Además, desarrollamos la Alineación de Movimiento utilizando una red de deformación para impulsar cambios en los Gaussianos e implementamos el Refinamiento de Referencia para superficies suaves de objetos 4D. Estas técnicas permiten que el Gaussian Splatting 4D alinee geometría, textura y movimiento con videos generados a nivel de píxel. En comparación con métodos anteriores, PLA4D produce salidas sintetizadas con mejores detalles de textura en menos tiempo y mitiga eficazmente el problema de caras múltiples. PLA4D está completamente implementado utilizando modelos de código abierto, ofreciendo una dirección accesible, fácil de usar y prometedora para la creación de contenido digital 4D. Nuestra página del proyecto: https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}.
Cómo evaluar las capacidades de codificación de los Modelos de Lenguaje de Gran Escala (LLMs) sigue siendo una pregunta abierta. Encontramos que los puntos de referencia existentes están mal alineados con los repositorios de código del mundo real y son insuficientes para evaluar las habilidades de codificación de los LLMs. Para abordar esta brecha de conocimiento, proponemos un nuevo punto de referencia llamado DevEval, que presenta tres avances. (1) DevEval está alineado con los repositorios del mundo real en múltiples dimensiones, como las distribuciones de código y las distribuciones de dependencias. (2) DevEval está anotado por 13 desarrolladores y contiene anotaciones completas (por ejemplo, requisitos, repositorios originales, código de referencia y dependencias de referencia). (3) DevEval comprende 1,874 muestras de prueba de 117 repositorios, cubriendo 10 dominios populares (por ejemplo, Internet, Base de Datos). Basándonos en DevEval, proponemos la generación de código a nivel de repositorio y evaluamos 8 LLMs populares en DevEval (por ejemplo, gpt-4, gpt-3.5, StarCoder 2, DeepSeek Coder, CodeLLaMa). Nuestros experimentos revelan las capacidades de codificación de estos LLMs en repositorios de código del mundo real. Por ejemplo, en nuestros experimentos, el Pass@1 más alto de gpt-4-turbo es solo del 53.04%. También analizamos los casos fallidos de los LLMs y resumimos sus deficiencias. Esperamos que DevEval pueda facilitar el desarrollo de LLMs en repositorios de código reales. DevEval, los prompts y las predicciones de los LLMs han sido publicados.
El auge de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) ha permitido el desarrollo de aplicaciones basadas en LLMs (también conocidas como agentes de IA o co-pilotos), un nuevo paradigma de software que combina las fortalezas de los LLMs con el software convencional. Diversas aplicaciones de LLMs de diferentes usuarios pueden diseñar flujos de trabajo complejos utilizando múltiples solicitudes de LLM para completar una tarea. Sin embargo, deben utilizar la API simplificada a nivel de solicitud proporcionada por los servicios públicos de LLM actuales, perdiendo información esencial a nivel de aplicación. Los servicios públicos de LLM tienen que optimizar ciegamente las solicitudes individuales de LLM, lo que resulta en un rendimiento subóptimo de extremo a extremo para las aplicaciones basadas en LLM. Este artículo presenta Parrot, un sistema de servicio de LLM que se centra en la experiencia de extremo a extremo de las aplicaciones basadas en LLM. Parrot propone la Variable Semántica, una abstracción unificada para exponer el conocimiento a nivel de aplicación a los servicios públicos de LLM. Una Variable Semántica anota una variable de entrada/salida en el prompt de una solicitud y crea la tubería de datos al conectar múltiples solicitudes de LLM, proporcionando una forma natural de programar aplicaciones de LLM. Exponer las Variables Semánticas al servicio público de LLM permite realizar análisis convencional de flujo de datos para descubrir la correlación entre múltiples solicitudes de LLM. Esta correlación abre un espacio de optimización completamente nuevo para el rendimiento de extremo a extremo de las aplicaciones basadas en LLM. Evaluaciones extensas demuestran que Parrot puede lograr mejoras de hasta un orden de magnitud para casos de uso populares y prácticos de aplicaciones de LLM.
Recientemente, las técnicas de generación de videos han avanzado rápidamente. Dada la popularidad del contenido de video en las plataformas de redes sociales, estos modelos intensifican las preocupaciones sobre la propagación de información falsa. Por lo tanto, existe una creciente demanda de detectores capaces de distinguir entre videos generados por IA falsos y mitigar el daño potencial causado por la información falsa. Sin embargo, la falta de conjuntos de datos a gran escala de los generadores de video más avanzados representa una barrera para el desarrollo de dichos detectores. Para abordar esta brecha, presentamos el primer conjunto de datos de detección de videos generados por IA, GenVideo. Cuenta con las siguientes características: (1) un gran volumen de videos, incluyendo más de un millón de videos generados por IA y videos reales recopilados; (2) una rica diversidad de contenido generado y metodologías, cubriendo un amplio espectro de categorías de video y técnicas de generación. Realizamos estudios extensos del conjunto de datos y propusimos dos métodos de evaluación adaptados a escenarios similares a los del mundo real para evaluar el rendimiento de los detectores: la tarea de clasificación de videos entre generadores evalúa la generalización de los detectores entrenados en diferentes generadores; la tarea de clasificación de videos degradados evalúa la robustez de los detectores para manejar videos que han perdido calidad durante su difusión. Además, introdujimos un módulo plug-and-play, llamado Detail Mamba (DeMamba), diseñado para mejorar los detectores al identificar videos generados por IA mediante el análisis de inconsistencias en las dimensiones temporales y espaciales. Nuestros extensos experimentos demuestran la superior generalización y robustez de DeMamba en GenVideo en comparación con los detectores existentes. Creemos que el conjunto de datos GenVideo y el módulo DeMamba avanzarán significativamente el campo de la detección de videos generados por IA. Nuestro código y conjunto de datos estarán disponibles en https://github.com/chenhaoxing/DeMamba.