Artículos de investigación en IA seleccionados diariamente con traducciones
La integración y despliegue de agentes inteligentes basados en modelos de lenguaje de gran escala (LLM) han estado plagados de desafíos que comprometen su eficiencia y eficacia. Entre estos problemas se encuentran la programación y asignación de recursos subóptimas para las solicitudes de los agentes sobre el LLM, las dificultades para mantener el contexto durante las interacciones entre el agente y el LLM, y las complejidades inherentes a la integración de agentes heterogéneos con diferentes capacidades y especializaciones. El rápido aumento en la cantidad y complejidad de los agentes agrava aún más estos problemas, lo que a menudo conduce a cuellos de botella y a una utilización subóptima de los recursos. Inspirados por estos desafíos, este artículo presenta AIOS, un sistema operativo para agentes LLM, que integra modelos de lenguaje de gran escala en los sistemas operativos (OS). Específicamente, AIOS está diseñado para optimizar la asignación de recursos, facilitar el cambio de contexto entre agentes, permitir la ejecución concurrente de agentes, proporcionar servicios de herramientas para los agentes y mantener el control de acceso para los agentes. Presentamos la arquitectura de dicho sistema operativo, delineamos los desafíos centrales que busca resolver y proporcionamos el diseño básico y la implementación de AIOS. Nuestros experimentos sobre la ejecución concurrente de múltiples agentes demuestran la confiabilidad y eficiencia de nuestros módulos de AIOS. A través de esto, nuestro objetivo no solo es mejorar el rendimiento y la eficiencia de los agentes LLM, sino también sentar las bases para un mejor desarrollo y despliegue del ecosistema AIOS en el futuro. El proyecto es de código abierto en https://github.com/agiresearch/AIOS.
Los modelos de difusión de texto a imagen tienen una capacidad sin precedentes para generar imágenes diversas y de alta calidad. Sin embargo, a menudo tienen dificultades para capturar fielmente la semántica deseada de instrucciones complejas que incluyen múltiples sujetos. Recientemente, se han introducido numerosas extensiones de diseño a imagen para mejorar el control del usuario, con el objetivo de localizar sujetos representados por tokens específicos. Sin embargo, estos métodos a menudo producen imágenes semánticamente inexactas, especialmente cuando se trata de múltiples sujetos semántica o visualmente similares. En este trabajo, estudiamos y analizamos las causas de estas limitaciones. Nuestra exploración revela que el problema principal surge de la fuga semántica inadvertida entre los sujetos durante el proceso de eliminación de ruido. Esta fuga se atribuye a las capas de atención del modelo de difusión, que tienden a mezclar las características visuales de diferentes sujetos. Para abordar estos problemas, introducimos Atención Acotada, un método que no requiere entrenamiento y que limita el flujo de información durante el proceso de muestreo. La Atención Acotada previene la fuga perjudicial entre sujetos y permite guiar la generación para promover la individualidad de cada sujeto, incluso con condiciones complejas de múltiples sujetos. A través de una extensa experimentación, demostramos que nuestro método permite la generación de múltiples sujetos que se alinean mejor con las instrucciones y diseños proporcionados.
Este trabajo presenta FlashFace, una herramienta práctica que permite a los usuarios personalizar fácilmente sus propias fotos al instante al proporcionar una o varias imágenes de referencia de rostros y un texto descriptivo. Nuestro enfoque se distingue de los métodos existentes de personalización de fotos humanas por una mayor fidelidad en la preservación de la identidad y un mejor seguimiento de las instrucciones, gracias a dos diseños sutiles. En primer lugar, codificamos la identidad facial en una serie de mapas de características en lugar de un solo token de imagen como en trabajos anteriores, lo que permite al modelo retener más detalles de los rostros de referencia (por ejemplo, cicatrices, tatuajes y forma del rostro). En segundo lugar, introducimos una estrategia de integración desacoplada para equilibrar la guía de texto e imagen durante el proceso de generación de imágenes a partir de texto, mitigando el conflicto entre los rostros de referencia y los textos descriptivos (por ejemplo, personalizar a un adulto como un "niño" o un "anciano"). Los resultados experimentales extensos demuestran la eficacia de nuestro método en diversas aplicaciones, incluyendo la personalización de imágenes humanas, el intercambio de rostros bajo indicaciones lingüísticas, la transformación de personajes virtuales en personas reales, etc. Página del proyecto: https://jshilong.github.io/flashface-page.
Los recientes avances en los modelos de difusión los han posicionado a la vanguardia de la generación de imágenes. A pesar de su rendimiento superior, los modelos de difusión no están exentos de inconvenientes; se caracterizan por arquitecturas complejas y demandas computacionales sustanciales, lo que resulta en una latencia significativa debido a su proceso de muestreo iterativo. Para mitigar estas limitaciones, introducimos un enfoque dual que involucra la miniaturización del modelo y una reducción en los pasos de muestreo, con el objetivo de disminuir considerablemente la latencia del modelo. Nuestra metodología aprovecha la destilación de conocimiento para simplificar las arquitecturas U-Net y el decodificador de imágenes, e introduce una innovadora técnica de entrenamiento de DM en un solo paso que utiliza emparejamiento de características y destilación de puntuaciones. Presentamos dos modelos, SDXS-512 y SDXS-1024, que logran velocidades de inferencia de aproximadamente 100 FPS (30 veces más rápido que SD v1.5) y 30 FPS (60 veces más rápido que SDXL) en una sola GPU, respectivamente. Además, nuestro enfoque de entrenamiento ofrece aplicaciones prometedoras en el control condicionado por imágenes, facilitando una traducción eficiente de imagen a imagen.
La compresión de modelos de lenguaje de gran capacidad (LLMs, por sus siglas en inglés) ha surgido como una estrategia preferida para realizar inferencias eficientes en términos de recursos. Si bien los métodos de compresión más avanzados (SoTA, por sus siglas en inglés) muestran avances impresionantes en la preservación del rendimiento en tareas benignas, los riesgos potenciales de la compresión en términos de seguridad y confiabilidad han sido ampliamente ignorados. Este estudio realiza la primera evaluación exhaustiva de tres (3) LLMs líderes utilizando cinco (5) técnicas de compresión SoTA en ocho (8) dimensiones de confiabilidad. Nuestros experimentos destacan la compleja interacción entre la compresión y la confiabilidad, revelando algunos patrones interesantes. Encontramos que la cuantización es actualmente un enfoque más efectivo que la poda para lograr simultáneamente eficiencia y confiabilidad. Por ejemplo, un modelo cuantizado a 4 bits mantiene la confiabilidad de su contraparte original, pero la poda del modelo degrada significativamente la confiabilidad, incluso con un 50% de dispersión. Además, emplear la cuantización dentro de un rango moderado de bits podría mejorar inesperadamente ciertas dimensiones de confiabilidad, como la ética y la equidad. Por el contrario, la cuantización extrema a niveles de bits muy bajos (3 bits) tiende a reducir significativamente la confiabilidad. Este mayor riesgo no puede ser descubierto solo observando el rendimiento benigno, lo que a su vez exige una evaluación integral de la confiabilidad en la práctica. Estos hallazgos culminan en recomendaciones prácticas para lograr simultáneamente alta utilidad, eficiencia y confiabilidad en los LLMs. Los modelos y el código están disponibles en https://decoding-comp-trust.github.io/.
Presentamos RakutenAI-7B, una suite de modelos de lenguaje grande orientados al japonés que logran el mejor rendimiento en los benchmarks de Japanese LM Harness entre los modelos abiertos de 7B. Junto con el modelo base, lanzamos modelos ajustados para instrucciones y chat, RakutenAI-7B-instruct y RakutenAI-7B-chat respectivamente, bajo la licencia Apache 2.0.
Los recientes avances en la generación de texto a video han demostrado la utilidad de los potentes modelos de difusión. Sin embargo, el problema no es trivial cuando se trata de adaptar modelos de difusión para animar imágenes estáticas (es decir, generación de imagen a video). La dificultad surge del hecho de que el proceso de difusión de los fotogramas animados subsiguientes no solo debe preservar la alineación fiel con la imagen dada, sino también buscar la coherencia temporal entre los fotogramas adyacentes. Para mitigar esto, presentamos TRIP, una nueva receta del paradigma de difusión de imagen a video que se centra en el prior de ruido de imagen derivado de la imagen estática para desencadenar conjuntamente el razonamiento relacional entre fotogramas y facilitar el modelado temporal coherente mediante el aprendizaje de residuos temporales. Técnicamente, el prior de ruido de imagen se obtiene primero a través de un proceso de difusión inversa de un paso basado tanto en la imagen estática como en los códigos latentes del video ruidoso. A continuación, TRIP ejecuta un esquema de doble vía similar a un residuo para la predicción del ruido: 1) una vía directa que toma el prior de ruido de imagen como el ruido de referencia de cada fotograma para amplificar la alineación entre el primer fotograma y los fotogramas subsiguientes; 2) una vía de residuo que emplea una red 3D-UNet sobre los códigos latentes del video ruidoso y la imagen estática para permitir el razonamiento relacional entre fotogramas, facilitando así el aprendizaje del ruido residual para cada fotograma. Además, tanto el ruido de referencia como el ruido residual de cada fotograma se fusionan dinámicamente mediante un mecanismo de atención para la generación final del video. Experimentos extensos en los conjuntos de datos WebVid-10M, DTDB y MSR-VTT demuestran la efectividad de nuestro TRIP para la generación de imagen a video. Consulte nuestra página del proyecto en https://trip-i2v.github.io/TRIP/.
Las innovaciones recientes en la generación de texto a 3D han destacado el uso de Muestreo de Destilación de Puntuación (Score Distillation Sampling, SDS), que permite el aprendizaje sin ejemplos previos (zero-shot) de modelos 3D implícitos (NeRF) al destilar directamente conocimiento previo de modelos de difusión 2D. Sin embargo, los modelos actuales basados en SDS aún enfrentan dificultades con indicaciones de texto complejas y comúnmente producen modelos 3D distorsionados con texturas poco realistas o problemas de inconsistencia entre vistas. En este trabajo, presentamos un novedoso modelo de difusión de texto a 3D guiado por indicaciones visuales (VP3D), que explícitamente aprovecha el conocimiento de apariencia visual en indicaciones visuales 2D para mejorar la generación de texto a 3D. En lugar de supervisar SDS únicamente con indicaciones de texto, VP3D primero utiliza un modelo de difusión 2D para generar una imagen de alta calidad a partir del texto de entrada, la cual actúa como indicación visual para fortalecer la optimización de SDS con una apariencia visual explícita. Además, complementamos la optimización de SDS con una función de recompensa diferenciable adicional que fomenta que las imágenes renderizadas de los modelos 3D se alineen visualmente mejor con la indicación visual 2D y coincidan semánticamente con la indicación de texto. A través de experimentos exhaustivos, demostramos que la Indicación Visual 2D en nuestro VP3D facilita significativamente el aprendizaje de la apariencia visual de los modelos 3D, lo que resulta en una mayor fidelidad visual con texturas más detalladas. También es destacable que, al reemplazar la indicación visual autogenerada con una imagen de referencia dada, VP3D es capaz de iniciar una nueva tarea de generación de texto a 3D estilizada. Nuestra página del proyecto está disponible en https://vp3d-cvpr24.github.io.