Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de difusión han demostrado una eficacia notable en diversas tareas de imagen a imagen. En esta investigación, presentamos Imagine yourself, un modelo de vanguardia diseñado para la generación personalizada de imágenes. A diferencia de las técnicas convencionales de personalización basadas en ajustes, Imagine yourself opera como un modelo sin ajustes, permitiendo que todos los usuarios aprovechen un marco compartido sin ajustes individualizados. Además, trabajos anteriores se enfrentaron a desafíos para equilibrar la preservación de la identidad, seguir instrucciones complejas y preservar una buena calidad visual, lo que resultó en modelos con un fuerte efecto de copiar y pegar de las imágenes de referencia. Por lo tanto, apenas pueden generar imágenes siguiendo instrucciones que requieran cambios significativos en la imagen de referencia, como cambiar la expresión facial, las poses de la cabeza y el cuerpo, y la diversidad de las imágenes generadas es baja. Para abordar estas limitaciones, nuestro método propuesto introduce 1) un nuevo mecanismo de generación de datos emparejados sintéticos para fomentar la diversidad de imágenes, 2) una arquitectura de atención completamente paralela con tres codificadores de texto y un codificador de visión completamente entrenable para mejorar la fidelidad del texto, y 3) una novedosa metodología de ajuste fino en múltiples etapas de grueso a fino que empuja gradualmente los límites de la calidad visual. Nuestro estudio demuestra que Imagine yourself supera al modelo de personalización de vanguardia, mostrando capacidades superiores en la preservación de la identidad, calidad visual y alineación del texto. Este modelo establece una base sólida para diversas aplicaciones de personalización. Los resultados de la evaluación humana validan la superioridad SOTA del modelo en todos los aspectos (preservación de la identidad, fidelidad del texto y atractivo visual) en comparación con los modelos de personalización anteriores.
Entender la sátira y el humor es una tarea desafiante incluso para los modelos actuales de Visión-Lenguaje. En este documento, proponemos las tareas desafiantes de Detección de Imágenes Satíricas (detectar si una imagen es satírica), Comprensión (generar la razón detrás de que la imagen sea satírica) y Completado (dada la mitad de la imagen, seleccionar la otra mitad entre 2 opciones dadas, de modo que la imagen completa sea satírica) y lanzamos un conjunto de datos de alta calidad llamado YesBut, que consta de 2547 imágenes, 1084 satíricas y 1463 no satíricas, que contienen diferentes estilos artísticos, para evaluar esas tareas. Cada imagen satírica en el conjunto de datos representa un escenario normal, junto con un escenario conflictivo que es gracioso o irónico. A pesar del éxito de los Modelos de Visión-Lenguaje actuales en tareas multimodales como Preguntas y Respuestas Visuales y Subtitulado de Imágenes, nuestros experimentos de evaluación muestran que dichos modelos tienen un rendimiento deficiente en las tareas propuestas en el Conjunto de Datos YesBut en Configuraciones de Cero Disparo con respecto tanto a la evaluación automatizada como humana. Además, lanzamos un conjunto de datos de 119 fotografías reales y satíricas para investigaciones adicionales. El conjunto de datos y el código están disponibles en https://github.com/abhi1nandy2/yesbut_dataset.
Impulsado por la realización de que los emuladores de IA pueden rivalizar con el rendimiento de los modelos tradicionales de predicción numérica del clima que se ejecutan en sistemas HPC, ahora hay un número creciente de grandes modelos de IA que abordan casos de uso como pronósticos, escalamiento descendente o pronóstico inmediato. Mientras que los desarrollos paralelos en la literatura de IA se centran en modelos fundamentales, es decir, modelos que pueden ajustarse eficazmente para abordar múltiples casos de uso diferentes, los desarrollos en el ámbito del clima y clima se centran principalmente en casos de uso únicos con un énfasis particular en el pronóstico a medio plazo. Cerramos esta brecha presentando Prithvi WxC, un modelo fundamental de 2.3 mil millones de parámetros desarrollado utilizando 160 variables del Análisis Retrospectivo de la Era Moderna para Investigación y Aplicaciones, Versión 2 (MERRA-2). Prithvi WxC emplea una arquitectura basada en codificador-decodificador, incorporando conceptos de varios modelos transformadores recientes para capturar eficazmente dependencias regionales y globales en los datos de entrada. El modelo ha sido diseñado para acomodar un gran número de tokens para modelar fenómenos climáticos en diferentes topologías a resoluciones finas. Además, se entrena con un objetivo mixto que combina los paradigmas de reconstrucción enmascarada con pronósticos. Probamos el modelo en un conjunto de desafiantes tareas secundarias, a saber: Pronóstico de despliegue autoregresivo, Escalamiento descendente, Parametrización de flujo de ondas gravitatorias y Estimación de eventos extremos. El modelo preentrenado con 2.3 mil millones de parámetros, junto con los flujos de trabajo de ajuste fino asociados, se ha lanzado públicamente como una contribución de código abierto a través de Hugging Face.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han demostrado mejoras significativas en el rendimiento en diversas tareas cognitivas. Una aplicación emergente es el uso de LLMs para mejorar las capacidades de generación aumentada por recuperación (RAG). Estos sistemas requieren que los LLMs comprendan las consultas de los usuarios, recuperen información relevante y sinteticen respuestas coherentes y precisas. Dado el creciente despliegue de tales sistemas en el mundo real, la evaluación integral se vuelve crucial. Con este fin, proponemos FRAMES (Conjunto de Medición de Factibilidad, Recuperación y Razonamiento), un conjunto de datos de evaluación de alta calidad diseñado para probar la capacidad de los LLMs para proporcionar respuestas factuales, evaluar las capacidades de recuperación y evaluar el razonamiento necesario para generar respuestas finales. Si bien trabajos anteriores han proporcionado conjuntos de datos y puntos de referencia para evaluar estas habilidades de forma aislada, FRAMES ofrece un marco unificado que proporciona una imagen más clara del rendimiento de los LLMs en escenarios de RAG de extremo a extremo. Nuestro conjunto de datos comprende preguntas desafiantes de múltiples pasos que requieren la integración de información de múltiples fuentes. Presentamos resultados de línea base que demuestran que incluso los LLMs de última generación tienen dificultades con esta tarea, logrando una precisión de 0.40 sin recuperación. La precisión mejora significativamente con nuestro propuesto proceso de recuperación de múltiples pasos, alcanzando una precisión de 0.66 (>50% de mejora). Esperamos que nuestro trabajo ayude a cerrar las brechas de evaluación y contribuya al desarrollo de sistemas RAG más robustos y capaces.
Los códecs de música son un aspecto vital de la investigación de códecs de audio, y la compresión de ultra bajo bitrate tiene una importancia significativa para la transmisión y generación de música. Debido a la complejidad de los fondos musicales y la riqueza de las voces, depender únicamente de la modelización de información semántica o acústica no puede reconstruir eficazmente música con voces y fondos. Para abordar este problema, proponemos MuCodec, dirigido específicamente a la compresión y reconstrucción de música en ultra bajos bitrates. MuCodec emplea MuEncoder para extraer características acústicas y semánticas, las discretiza con RVQ, y obtiene características Mel-VAE a través de coincidencia de flujos. La música se reconstruye luego utilizando un decodificador MEL-VAE pre-entrenado y HiFi-GAN. MuCodec puede reconstruir música de alta fidelidad a ultra bajos (0.35kbps) o altos bitrates (1.35kbps), logrando los mejores resultados hasta la fecha tanto en métricas subjetivas como objetivas. Código y Demo: https://xuyaoxun.github.io/MuCodec_demo/.
Presentamos PortraitGen, un potente método de edición de videos de retratos que logra una estilización consistente y expresiva con indicaciones multimodales. Los métodos tradicionales de edición de videos de retratos a menudo tienen dificultades con la consistencia tridimensional y temporal, y suelen carecer de calidad y eficiencia de renderizado. Para abordar estos problemas, elevamos los fotogramas de video de retratos a un campo gaussiano 3D dinámico unificado, que garantiza coherencia estructural y temporal entre los fotogramas. Además, diseñamos un novedoso mecanismo de Textura Gaussiana Neuronal que no solo permite una edición de estilo sofisticada, sino que también logra una velocidad de renderizado de más de 100FPS. Nuestro enfoque incorpora entradas multimodales a través de conocimientos destilados de modelos generativos 2D a gran escala. Nuestro sistema también incorpora orientación de similitud de expresiones y un módulo de edición de retratos consciente de la cara, mitigando efectivamente problemas de degradación asociados con actualizaciones iterativas de conjuntos de datos. Experimentos extensos demuestran la consistencia temporal, eficiencia de edición y calidad de renderizado superior de nuestro método. La amplia aplicabilidad del enfoque propuesto se demuestra a través de diversas aplicaciones, incluida la edición basada en texto, la edición basada en imágenes y el reiluminado, destacando su gran potencial para avanzar en el campo de la edición de videos. Se proporcionan videos de demostración y código publicado en nuestra página del proyecto: https://ustc3dv.github.io/PortraitGen/
La descomposición de la imagen intrínseca tiene como objetivo separar la reflectancia superficial y los efectos de la iluminación dada una sola fotografía. Debido a la complejidad del problema, la mayoría de los trabajos previos asumen una iluminación de un solo color y un mundo lambertiano, lo que limita su uso en aplicaciones de edición de imágenes conscientes de la iluminación. En este trabajo, separamos una imagen de entrada en su albedo difuso, sombreado difuso colorido y componentes residuales especulares. Llegamos a nuestro resultado eliminando gradualmente primero la iluminación de un solo color y luego las suposiciones del mundo lambertiano. Mostramos que al dividir el problema en subproblemas más simples, se puede lograr la estimación de sombreado difuso colorido en entornos no controlados a pesar de los conjuntos de datos de referencia limitados. Nuestro modelo intrínseco extendido permite el análisis consciente de la iluminación de fotografías y puede utilizarse para aplicaciones de edición de imágenes como la eliminación de la especularidad y el equilibrio de blancos píxel por píxel.
Experimentar videos volumétricos de alta fidelidad tan fluidamente como los videos 2D es un sueño de larga data. Sin embargo, los métodos actuales de gráficos 3D dinámicos, a pesar de su alta calidad de renderizado, enfrentan desafíos al transmitir en dispositivos móviles debido a limitaciones computacionales y de ancho de banda. En este documento, presentamos V3 (Visualización de Videos Volumétricos), un enfoque novedoso que permite un renderizado móvil de alta calidad a través de la transmisión de gaussianas dinámicas. Nuestra innovación clave es visualizar los gráficos 3D dinámicos como videos 2D, facilitando el uso de códecs de video de hardware. Además, proponemos una estrategia de entrenamiento de dos etapas para reducir los requisitos de almacenamiento con una velocidad de entrenamiento rápida. La primera etapa utiliza codificación hash y MLP superficial para aprender el movimiento, luego reduce el número de gaussianas a través de la poda para cumplir con los requisitos de transmisión, mientras que la segunda etapa ajusta otros atributos gaussianos utilizando pérdida de entropía residual y pérdida temporal para mejorar la continuidad temporal. Esta estrategia, que desenreda el movimiento y la apariencia, mantiene una alta calidad de renderizado con requisitos de almacenamiento compactos. Mientras tanto, diseñamos un reproductor multiplataforma para decodificar y renderizar videos gaussianos 2D. Experimentos extensos demuestran la efectividad de V3, superando a otros métodos al permitir un renderizado y transmisión de alta calidad en dispositivos comunes, algo nunca antes visto. Como los primeros en transmitir gaussianas dinámicas en dispositivos móviles, nuestro reproductor compañero ofrece a los usuarios una experiencia de video volumétrico sin precedentes, incluyendo desplazamiento suave y uso compartido instantáneo. Nuestra página de proyecto con el código fuente está disponible en https://authoritywang.github.io/v3/.
Los LLMs han demostrado un rendimiento loable en diversos dominios. Sin embargo, formular indicaciones de alta calidad para ayudarles en su trabajo plantea un desafío para los no expertos en IA. La investigación existente en ingeniería de indicaciones sugiere principios de optimización algo dispersos y diseños de optimizadores de indicaciones empíricamente dependientes. Desafortunadamente, estos esfuerzos carecen de un diseño estructural, lo que conlleva altos costos de aprendizaje y no es propicio para la actualización iterativa de indicaciones, especialmente para los no expertos en IA. Inspirados en lenguajes de programación estructurados y reutilizables, proponemos LangGPT, un marco de diseño estructural de indicaciones. Además, presentamos Minstrel, un sistema de agentes multi-generativos con reflexión para automatizar la generación de indicaciones estructurales. Experimentos y el estudio de caso ilustran que las indicaciones estructurales generadas por Minstrel o escritas manualmente mejoran significativamente el rendimiento de los LLMs. Además, analizamos la facilidad de uso de las indicaciones estructurales a través de una encuesta a usuarios en nuestra comunidad en línea.
Presentamos V-AURA, el primer modelo autoregresivo que logra una alta alineación temporal y relevancia en la generación de video a audio. V-AURA utiliza un extractor de características visuales de alta velocidad de fotogramas y una estrategia de fusión de características audiovisuales para capturar eventos de movimiento visual detallados y garantizar una alineación temporal precisa. Además, proponemos VisualSound, un conjunto de datos de referencia con alta relevancia audiovisual. VisualSound se basa en VGGSound, un conjunto de datos de video que consiste en muestras en entornos naturales extraídas de YouTube. Durante la curación, eliminamos muestras donde los eventos auditivos no están alineados con los visuales. V-AURA supera a los modelos actuales de última generación en alineación temporal y relevancia semántica manteniendo una calidad de audio comparable. El código, las muestras, VisualSound y los modelos están disponibles en https://v-aura.notion.site
Los Modelos de Lenguaje Grandes (LLMs) han demostrado un potencial notable en diversos ámbitos, incluida la ciberseguridad. El uso de LLMs comerciales basados en la nube puede resultar poco deseable debido a preocupaciones de privacidad, costos y limitaciones de conectividad de red. En este documento, presentamos Hackphyr, un LLM ajustado localmente para ser utilizado como un agente red-team dentro de entornos de seguridad de red. Nuestro modelo ajustado fino de 7 mil millones de parámetros puede ejecutarse en una sola tarjeta GPU y logra un rendimiento comparable con modelos comerciales mucho más grandes y potentes, como GPT-4. Hackphyr supera claramente a otros modelos, incluido GPT-3.5-turbo, y a baselines, como agentes Q-learning, en escenarios complejos previamente no vistos. Para lograr este rendimiento, generamos un nuevo conjunto de datos de ciberseguridad específico de la tarea para mejorar las capacidades del modelo base. Finalmente, realizamos un análisis exhaustivo de los comportamientos de los agentes que proporciona información sobre las habilidades de planificación y posibles deficiencias de dichos agentes, contribuyendo a una comprensión más amplia de los agentes basados en LLM en contextos de ciberseguridad.
La integración de herramientas en agentes basados en LLM superó las dificultades de los LLM independientes y las capacidades limitadas de los agentes tradicionales. Sin embargo, la conjunción de estas tecnologías y las mejoras propuestas en varios trabajos de vanguardia siguieron una arquitectura de software no unificada que resultó en una falta de modularidad. De hecho, se centraron principalmente en funcionalidades y pasaron por alto la definición de los límites de los componentes dentro del agente. Esto causó ambigüedades terminológicas y arquitectónicas entre los investigadores, las cuales abordamos en este documento proponiendo un marco unificado que establece una base clara para el desarrollo de agentes basados en LLM desde perspectivas funcionales y arquitectónicas de software. Nuestro marco, LLM-Agent-UMF (Marco Unificado de Modelado de Agentes basados en LLM), distingue claramente entre los diferentes componentes de un agente, separando los LLM y las herramientas de un elemento recién introducido: el núcleo-agente, que desempeña el papel de coordinador central del agente y que comprende cinco módulos: planificación, memoria, perfil, acción y seguridad, esta última a menudo descuidada en trabajos anteriores. Las diferencias en la estructura interna de los núcleos-agentes nos llevaron a clasificarlos en una taxonomía de tipos pasivos y activos. Basándonos en esto, propusimos diferentes arquitecturas de agentes multinúcleo combinando características únicas de varios agentes individuales. Con fines de evaluación, aplicamos este marco a una selección de agentes de vanguardia, demostrando así su alineación con sus funcionalidades y aclarando los aspectos arquitectónicos pasados por alto. Además, evaluamos a fondo cuatro de nuestras arquitecturas propuestas integrando agentes distintivos en sistemas híbridos de núcleos-agentes activos/pasivos. Este análisis proporcionó ideas claras sobre posibles mejoras y resaltó los desafíos involucrados en la combinación de agentes específicos.