Artículos de investigación en IA seleccionados diariamente con traducciones
La generación personalizada de imágenes a partir de texto ha surgido como una herramienta poderosa y muy demandada, permitiendo a los usuarios crear imágenes personalizadas basadas en sus conceptos y descripciones específicas. Sin embargo, los enfoques existentes para la personalización enfrentan múltiples desafíos, incluyendo tiempos de ajuste prolongados, grandes requisitos de almacenamiento, la necesidad de múltiples imágenes de entrada por identidad y limitaciones en la preservación de la identidad y la capacidad de edición. Para abordar estos obstáculos, presentamos PhotoVerse, una metodología innovadora que incorpora un mecanismo de condicionamiento de doble rama en los dominios de texto e imagen, proporcionando un control efectivo sobre el proceso de generación de imágenes. Además, introducimos la pérdida de identidad facial como un componente novedoso para mejorar la preservación de la identidad durante el entrenamiento. Notablemente, nuestro PhotoVerse propuesto elimina la necesidad de ajustes en tiempo de prueba y depende únicamente de una sola foto facial de la identidad objetivo, reduciendo significativamente el costo de recursos asociado con la generación de imágenes. Después de una única fase de entrenamiento, nuestro enfoque permite generar imágenes de alta calidad en solo unos segundos. Además, nuestro método puede producir imágenes diversas que abarcan varias escenas y estilos. La evaluación exhaustiva demuestra el rendimiento superior de nuestro enfoque, que logra los objetivos duales de preservar la identidad y facilitar la edición. Página del proyecto: https://photoverse2d.github.io/
Los modelos de difusión han revolucionado la generación de imágenes a partir de texto gracias a su calidad excepcional y creatividad. Sin embargo, su proceso de muestreo de múltiples pasos es conocido por ser lento, requiriendo a menudo decenas de pasos de inferencia para obtener resultados satisfactorios. Intentos previos de mejorar su velocidad de muestreo y reducir costos computacionales mediante destilación no han logrado obtener un modelo funcional de un solo paso. En este artículo, exploramos un método reciente llamado Rectified Flow, que, hasta ahora, solo se había aplicado a conjuntos de datos pequeños. El núcleo de Rectified Flow radica en su procedimiento de reflujo, que endereza las trayectorias de los flujos de probabilidad, refina el acoplamiento entre ruidos e imágenes, y facilita el proceso de destilación con modelos estudiantiles. Proponemos una novedosa pipeline condicionada por texto para convertir Stable Diffusion (SD) en un modelo ultra-rápido de un solo paso, donde encontramos que el reflujo juega un papel crítico en mejorar la asignación entre ruido e imágenes. Aprovechando nuestra nueva pipeline, creamos, hasta donde sabemos, el primer generador de imágenes a partir de texto basado en difusión de un solo paso con calidad de imagen a nivel SD, logrando un FID (Frechet Inception Distance) de 23.3 en MS COCO 2017-5k, superando significativamente la técnica anterior más avanzada, destilación progresiva (37.2 → 23.3 en FID). Al utilizar una red expandida con 1.7B parámetros, mejoramos aún más el FID a 22.4. Llamamos a nuestros modelos de un solo paso InstaFlow. En MS COCO 2014-30k, InstaFlow produce un FID de 13.1 en solo 0.09 segundos, el mejor en el régimen de ≤ 0.1 segundos, superando al reciente StyleGAN-T (13.9 en 0.1 segundo). Notablemente, el entrenamiento de InstaFlow solo cuesta 199 días de GPU A100. Página del proyecto: https://github.com/gnobitab/InstaFlow.
El servicio de alto rendimiento de modelos de lenguaje grandes (LLMs) requiere procesar un número suficiente de solicitudes simultáneamente. Sin embargo, los sistemas existentes enfrentan dificultades porque la memoria de caché de clave-valor (KV cache) para cada solicitud es enorme y varía dinámicamente en tamaño. Cuando se gestiona de manera ineficiente, esta memoria puede desperdiciarse significativamente debido a la fragmentación y la duplicación redundante, lo que limita el tamaño del lote. Para abordar este problema, proponemos PagedAttention, un algoritmo de atención inspirado en las técnicas clásicas de memoria virtual y paginación de los sistemas operativos. Sobre este, construimos vLLM, un sistema de servicio de LLMs que logra (1) un desperdicio casi nulo en la memoria de KV cache y (2) un uso flexible y compartido de la KV cache dentro y entre solicitudes para reducir aún más el uso de memoria. Nuestras evaluaciones muestran que vLLM mejora el rendimiento de LLMs populares entre 2 y 4 veces con el mismo nivel de latencia en comparación con sistemas de vanguardia como FasterTransformer y Orca. La mejora es más notable con secuencias más largas, modelos más grandes y algoritmos de decodificación más complejos. El código fuente de vLLM está disponible públicamente en https://github.com/vllm-project/vllm.
Los modelos de lenguaje a gran escala sobresalen en muchas tareas relacionadas con el lenguaje humano, pero a menudo tropiezan en dominios altamente especializados como la astronomía académica. Para cerrar esta brecha, presentamos AstroLLaMA, un modelo de 7 mil millones de parámetros ajustado a partir de LLaMA-2 utilizando más de 300,000 resúmenes de astronomía de arXiv. Optimizado para el modelado causal tradicional de lenguaje, AstroLLaMA logra un 30% menos de perplejidad que LLaMA-2, mostrando una notable adaptación al dominio. Nuestro modelo genera completaciones de texto más perspicaces y científicamente relevantes, así como extracciones de embeddings, en comparación con los modelos base más avanzados, a pesar de tener significativamente menos parámetros. AstroLLaMA sirve como un modelo robusto y específico del dominio con un amplio potencial de ajuste fino. Su lanzamiento público tiene como objetivo impulsar la investigación centrada en la astronomía, incluyendo la automatización de resúmenes de artículos y el desarrollo de agentes conversacionales.
La manipulación diestra ha sido un desafío persistente en robótica. Si bien las técnicas de aprendizaje automático han mostrado cierto potencial, los resultados se han limitado principalmente a simulaciones. Esto puede atribuirse en gran medida a la falta de hardware adecuado. En este artículo, presentamos LEAP Hand, una mano diestra y antropomórfica de bajo costo para investigación en aprendizaje automático. A diferencia de manos anteriores, LEAP Hand tiene una estructura cinemática novedosa que permite una destreza máxima independientemente de la postura de los dedos. LEAP Hand es de bajo costo y puede ensamblarse en 4 horas por un precio de 2000 USD utilizando componentes fácilmente disponibles. Es capaz de ejercer pares de torsión grandes de manera consistente durante largos períodos de tiempo. Demostramos que LEAP Hand puede utilizarse para realizar varias tareas de manipulación en el mundo real, desde teleoperación visual hasta aprendizaje a partir de datos de video pasivo y sim2real. LEAP Hand supera significativamente a su competidor más cercano, Allegro Hand, en todos nuestros experimentos, mientras que cuesta 1/8 del precio. Publicamos instrucciones detalladas de ensamblaje, la canalización Sim2Real y una plataforma de desarrollo con API útiles en nuestro sitio web en https://leap-hand.github.io/.
Se han realizado enormes esfuerzos para aprender avatares humanos animables y fotorrealistas. Con este fin, tanto las representaciones 3D explícitas como las implícitas han sido ampliamente estudiadas para un modelado y captura holísticos del ser humano completo (por ejemplo, cuerpo, ropa, rostro y cabello), pero ninguna de estas representaciones es una elección óptima en términos de eficacia de representación, ya que diferentes partes del avatar humano tienen diferentes requisitos de modelado. Por ejemplo, las mallas generalmente no son adecuadas para modelar ropa y cabello. Motivados por esto, presentamos Disentangled Avatars (DELTA), que modela humanos con representaciones 3D híbridas explícitas-implícitas. DELTA toma como entrada un video RGB monocromático y produce un avatar humano con capas separadas para el cuerpo y la ropa/cabello. Específicamente, demostramos dos aplicaciones importantes para DELTA. En la primera, consideramos la separación del cuerpo humano y la ropa, y en la segunda, separamos el rostro y el cabello. Para lograrlo, DELTA representa el cuerpo o el rostro con un modelo paramétrico 3D basado en mallas explícitas, y la ropa o el cabello con un campo de radiancia neural implícito. Para hacer esto posible, diseñamos un renderizador diferenciable de extremo a extremo que integra mallas en el renderizado volumétrico, permitiendo que DELTA aprenda directamente de videos monocromáticos sin ninguna supervisión 3D. Finalmente, mostramos cómo estas dos aplicaciones pueden combinarse fácilmente para modelar avatares de cuerpo completo, de modo que el cabello, el rostro, el cuerpo y la ropa puedan estar completamente separados pero renderizados conjuntamente. Esta separación permite la transferencia de cabello y ropa a formas corporales arbitrarias. Validamos empíricamente la efectividad de la separación de DELTA demostrando su prometedor rendimiento en la reconstrucción separada, la prueba virtual de ropa y la transferencia de peinados. Para facilitar futuras investigaciones, también publicamos una pipeline de código abierto para el estudio del modelado híbrido de avatares humanos.